Zusammenfassung - Ein Dichteverstandnis-basierter autonomer Pfadplanungsbeschleuniger mit HW/SW-Ko-Design und mehrstufiger Datenflüsse-Optimierung

Titel
Ein Dichteverstandnis-basierter autonomer Pfadplanungsbeschleuniger mit HW/SW-Ko-Design und mehrstufiger Datenflüsse-Optimierung

Zeit
2025-07-22 02:46:18

Autor
{"Yifan Zhang","Xiaoyu Niu","Hongzheng Tian","Yanjun Zhang","Bo Yu","Shaoshan Liu","Sitao Huang"}

Kategorie
{cs.AR}

Link
http://arxiv.org/abs/2507.16177v1

PDF Link
http://arxiv.org/pdf/2507.16177v1

Zusammenfassung

Dieser Paper stellt einen neuartigen, auf FPGA basierenden Pfadplanungsrahmen für autonome Fahrzeuge vor, der darauf abzielt, den aufwendigen computationally path planning process zu beschleunigen. Der Rahmen konzentriert sich darauf, den quadratischen Programmierer (QP) zu optimieren, der das Herzstück des optimierungsbasierten Pfadplanungsprozesses ist. Hier ist eine Zusammenfassung der wesentlichen Aspekte: **1. Sparsenachweisende Hardwaregestaltung**: * Der Rahmen nutzt die strukturierten Sparsitätsmuster in den Problemmatrizen (A und P), um effiziente Speicheranordnungen und Verarbeitungseinheiten zu gestalten. *maßgeschneiderte Speicheranordnungen und Einheiten für sparsen Matrix- und Vektormultiplikationen werden entwickelt, um Ressourcenverbrauch zu reduzieren und die Matrixoperationen zu beschleunigen. **2. Mehrstufige Datenflussoptimierung**: * Parallelisierung und Pipelining werden innerhalb individueller Operatoren eingesetzt, um die Beschleunigung zu erreichen. * Feinabgestimmtes Pipelining wird durch Analyse der Datenabhängigkeiten zwischen Operatoren ermöglicht. * Systemweites Pipelining wird verwendet, um verschiedene Schritte des Planungsprozesses auf den CPU und FPGA zu mappingen, um die End-zu-End-Leistung zu verbessern. **3. Algorithmen-Architektur-Ko-Optimierung**: * Eine wissensbasierte Suche nach optimalen Parametern wird durchgeführt, um die Konvergenz des Algorithmus zu beschleunigen. * Gemischtpräzisionsarithmetik wird erforscht, um die Logiknutzung zu optimieren, während die Genauigkeit beibehalten wird. **4. Experimenteller Ergebnisse**: * Der vorgeschlagene Rahmen wurde auf der AMD ZCU102-Plattform implementiert und validiert. * Die Ergebnisse zeigen erhebliche Leistungverbesserungen gegenüber bestehenden Lösungen, darunter: * Im Durchschnitt 1,48-fache Beschleunigung gegenüber dem besten FPGA-basierten Design. * 2,89-fache Beschleunigung im Vergleich zum führenden QP-Solver auf einem Intel i7-11800H CPU. * 5,62-fache Beschleunigung gegenüber einem ARM Cortex-A57 eingebetteten CPU. * 1,56-fache Beschleunigung gegenüber den besten GPU-basierten Lösungen. * 2,05-fache Verbesserung der Auslastung im Vergleich zum führenden FPGA-basierten Design. **Wesentliche Beiträge**: * Ein End-zu-End energieeffizienter FPGA-beschleunigter Pfadplanungsrahmen für autonome Fahrzeuge. * Hardwareanpassungen für den ADMM-basierten QP-Solver. * Mehrstufige Datenflussoptimierung, um die End-zu-End-Leistung zu maximieren. * Design-Space-Exploration für Algorithmen-Architektur-Ko-Optimierung. **Insgesamt präsentiert dieses Paper einen umfassenden und effizienten Ansatz zur Beschleunigung des Pfadplanungsprozesses für autonome Fahrzeuge, der sowohl erhebliche Verbesserungen in der Leistung als auch in der Energieeffizienz zeigt**.


Empfohlene Papiere

Erweiterung der vereinigten Gravitation, um die Wechselwirkung zwischen Gravitonen zu berücksichtigen

Eine Studie über nichtlineare Strömungen und Scherbandbildung in Wurmförmigen Mikellen unter variabler Elastizität, Strömungskrümmung und Surfactant-Chemie

TOI-1259Ab: Ein warmer Jupiter umkreist ein K-Kleiner Weisses-Doppelstern-System auf einer gut ausgerichteten Umlaufbahn.

Ein Semi-analytisches Modell für die Auswirkungen von stochastischen Dunklen Materie-Granulatstörungen auf den orbitalen Bewegungsbegriff

Kompilatorische-statistische Kompromisse aus NP-Hardness

Zweipunktfunktionen und die Vakuumdichten im Casimir-Effekt für das Proca-Feld

Ein semi-empirischer Descriptor für die Offene-Kreis-Spannung

Multiskalige neuronale PDE-Surrogate zur Vorhersage und Downscaling: Anwendung auf Meeresströmungen

Exakte gegenüber approximative Darstellungen von Boolean-Funktionen in der De Morgan-Basis

Laufen im KREIS? Ein einfaches Benchmark für die Sicherheit von LLM-Code-Interpreten