Resumen - Un acelerador de planificación autónoma de rutas con conciencia de sparsity y co-diseño HW/SW y optimización de flujo de datos multi-nivel

Título
Un acelerador de planificación autónoma de rutas con conciencia de sparsity y co-diseño HW/SW y optimización de flujo de datos multi-nivel

Tiempo
2025-07-22 02:46:18

Autor
{"Yifan Zhang","Xiaoyu Niu","Hongzheng Tian","Yanjun Zhang","Bo Yu","Shaoshan Liu","Sitao Huang"}

Categoría
{cs.AR}

Enlace
http://arxiv.org/abs/2507.16177v1

PDF Enlace
http://arxiv.org/pdf/2507.16177v1

Resumen

Este documento propone un nuevo marco de planificación de rutas basado en FPGA para vehículos autónomos, con el objetivo de acelerar el proceso intensivo en términos de computación de la planificación de rutas. El marco se enfoca en optimizar el solver de programación cuadrática (QP), que es el núcleo de la planificación de rutas basada en optimización. Aquí se presenta un resumen de los aspectos clave: **1. Diseño de Hardware Consciente de la Densidad**: * El marco aprovecha los patrones estructurados de densidad en las matrices del problema (A y P) para diseñar esquemas de almacenamiento eficientes y unidades de procesamiento. * Se diseñan esquemas de almacenamiento personalizados y unidades de multiplicación de matrices dispersas y multiplicación vectorial para reducir el consumo de recursos y acelerar las operaciones de matrices. **2. Optimización de Flujo de Datos Multinivel**: * Se utilizan la paralelización y la pipelización dentro de operadores individuales para lograr la aceleración. * Se habilita la pipelización de nivel fino entre operadores mediante el análisis de dependencias de datos entre operadores. * Se utiliza la pipelización a nivel de sistema para mapear diferentes pasos del proceso de planificación al CPU y FPGA, mejorando el rendimiento de extremo a extremo. **3. Co-Optimización de Algoritmo-Arquitectura**: * Se realiza una búsqueda basada en el conocimiento para obtener parámetros óptimos que aceleren la convergencia del algoritmo. * Se explora la aritmética de precisión mixta para optimizar el uso de lógica mientras se mantiene la precisión. **4. Resultados Experimentales**: * El marco propuesto se implementa y valida en la plataforma AMD ZCU102. * Los resultados demuestran mejoras significativas en el rendimiento en comparación con soluciones existentes, incluyendo: * Un aumento promedio de 1.48x en la velocidad en comparación con el mejor diseño basado en FPGA. * Un aumento de 2.89x en comparación con el solver de QP de vanguardia en un CPU Intel i7-11800H. * Un aumento de 5.62x en comparación con un CPU integrado ARM Cortex-A57. * Un aumento de 1.56x en comparación con el trabajo basado en GPU de vanguardia. * Una mejora de 2.05x en el rendimiento de extremo a extremo en comparación con el diseño basado en FPGA de vanguardia. **Contribuciones Clave**: * Un marco de planificación de rutas acelerado por FPGA y eficiente en términos de energía para vehículos autónomos. * Personalizaciones de hardware para el solver de QP basado en ADMM. * Optimización de flujo de datos multinivel para maximizar el rendimiento de extremo a extremo. * Exploración del espacio de diseño para la co-optimización de algoritmo-arquitectura. **En resumen, este documento presenta un enfoque integral y eficiente para acelerar la planificación de rutas para vehículos autónomos, demostrando mejoras significativas tanto en rendimiento como en eficiencia energética**.


Artículos Recomendados

Residuos de Potencias Primas y Conjuntos de Bloqueo

Avanzando en la Segmentación de Imágenes Médicas mediante Aprendizaje de Prototipos Adaptativos de Instancia Auto-supervisado

Funciones cuadradas y estimaciones variacionales para operadores de Ritt en $L^1$

3DGauCIM: Acelerando la proyección gaussiana estática/dinámica en 3D mediante CIM digital para renderizado de borde en tiempo real a alta tasa de cuadros

Aprender campos electromagnéticos basados en funciones de base de elemento finito

Elk: Explorando la Eficiencia de Chips de IA Conectados entre Núcleos con Técnicas de Compilador de Aprendizaje Profundo

Orbitas de curvas racionales suaves en superficies de Enriques

FD4QC: Aplicación de Aprendizaje Automático Clásico y Cuántico-Híbrido para la Detección de Fraude Financiero Un Informe Técnico

RailX: Una Arquitectura de Red Flexible, Escalable y de Bajo Costo para Sistemas de Entrenamiento de LLM de Escala Hyper-Scale

Circuitos de p-eficiencia energética para Redes Neurales Generativas