Résumé - Un accélérateur de planification de trajectoire autonome conscient de la sparsity avec co-conception HW/SW et optimisation de données de flux multi-niveaux
Titre
Un accélérateur de planification de trajectoire autonome conscient de la sparsity avec co-conception HW/SW et optimisation de données de flux multi-niveaux
Temps
2025-07-22 02:46:18
Auteur
{"Yifan Zhang","Xiaoyu Niu","Hongzheng Tian","Yanjun Zhang","Bo Yu","Shaoshan Liu","Sitao Huang"}
Catégorie
{cs.AR}
Lien
http://arxiv.org/abs/2507.16177v1
PDF Lien
http://arxiv.org/pdf/2507.16177v1
Résumé
Ce document propose un cadre de planification de trajectoire innovant basé sur un FPGA pour les véhicules autonomes, visant à accélérer le processus de planification de trajectoire computationnellement intense. Le cadre se concentre sur l'optimisation du solveur de programmation quadratique (QP), qui est le cœur de la planification de trajectoire basée sur l'optimisation. Voici un résumé des aspects clés :
**1. Conception de matériel-aware de sparsity** :
* Le cadre utilise les motifs de sparsity structurés dans les matrices du problème (A et P) pour concevoir des schémas de stockage et des unités de traitement efficaces.
* Des schémas de stockage personnalisés et des unités de multiplication de matrices sparses et de multiplication vectorielle sont conçues pour réduire la consommation de ressources et accélérer les opérations matricielles.
**2. Optimisation de données en flux multi-niveaux** :
* La parallélisation et le pipelining sont utilisés à l'intérieur des opérateurs individuels pour obtenir une accélération.
* Un pipelining finement grainé est activé entre les opérateurs en analysant les dépendances de données entre les opérateurs.
* Un pipelining de niveau système est utilisé pour mapper différentes étapes du processus de planification sur le CPU et le FPGA, améliorant le débit global.
**3. Co-optimisation algorithme-architecture** :
* Une recherche basée sur les connaissances est effectuée pour les paramètres optimaux pour accélérer la convergence de l'algorithme.
* L'arithmétique à précision mixte est explorée pour optimiser l'utilisation de la logique tout en maintenant l'exactitude.
**4. Résultats expérimentaux** :
* Le cadre proposé est mis en œuvre et validé sur la plateforme AMD ZCU102.
* Les résultats montrent des améliorations significatives par rapport aux solutions existantes, y compris :
* Une accélération moyenne de 1,48x par rapport au meilleur design basé sur un FPGA.
* Une accélération de 2,89x par rapport au solveur QP de pointe sur un CPU Intel i7-11800H.
* Une accélération de 5,62x par rapport à un CPU embarqué ARM Cortex-A57.
* Une accélération de 1,56x par rapport aux meilleures réalisations basées sur GPU.
* Une amélioration de 2,05x du débit par rapport au meilleur design basé sur FPGA.
**Contributions clés** :
* Un cadre de planification de trajectoire économe en énergie pour les véhicules autonomes accéléré par FPGA.
* Personnalisation du matériel pour le solveur QP basé sur ADMM.
* Optimisation de données en flux multi-niveaux pour maximiser les performances globales.
* Exploration de l'espace de conception pour la co-optimisation algorithme-architecture.
**Dans l'ensemble, ce document présente une approche complète et efficace pour accélérer la planification de trajectoire pour les véhicules autonomes, démontrant des améliorations significatives à la fois en termes de performance et d'efficacité énergétique**.
Articles Recommandés
Plateforme pour la Représentation et l'Intégration des Embeddings Moléculaires Multimodaux
Le lentille gravitationnelle produit rarement des outliers à haute masse dans la population des systèmes binaires compacts.
3DGauCIM : Accélération du splatting gaussien statique/dynamique 3D via CIM numérique pour le rendu en temps réel haute fréquence des bords
Exacte rénormalisation pour les fréquences de patch dans les systèmes d'inflation
Vers des Nanogénérateurs Trib élec Très Hautes Énergies Basés sur des Gouttes d'Eau Imprimées en 2D
Conception expérimentale bayésienne séquentielle orientée par des objectifs pour l'apprentissage causal
Simulation de mouvements humains de haute fidélité alimentée par l'IA générative
Décomposition en domaine temporel basée sur la dissipativité pour le contrôle optimal des EDP hyperboliques
Un descriptor semi-empirique pour la tension de circuit ouvert
Les listes de contrôle sont meilleures que les modèles de récompense pour aligner les modèles de langage.