Resumen - Una CGRA de ultra-baja potencia para acelerar Transformers en la nube de servicios (edge)

Título
Una CGRA de ultra-baja potencia para acelerar Transformers en la nube de servicios (edge)

Tiempo
2025-07-17 08:43:14

Autor
{"Rohit Prasad"}

Categoría
{cs.AR,cs.AI}

Enlace
http://arxiv.org/abs/2507.12904v1

PDF Enlace
http://arxiv.org/pdf/2507.12904v1

Resumen

Este documento propone una arquitectura de Arreglo Reconfigurable a Gran Escala de Baja Potencia (CGRA) diseñada específicamente para acelerar modelos de transformadores en entornos de computación en la nube. Los transformadores, cruciales para tareas como procesamiento de lenguaje natural y visión por computadora, tienen demandas computacionales altas que son desafiantes de satisfacer en dispositivos de baja potencia. La propuesta de CGRA aborda este desafío ofreciendo una solución altamente eficiente y adaptable. La arquitectura cuenta con un array de 4x4 de Elementos de Procesamiento (PEs) optimizado para la computación paralela de operaciones de Multiplicación de Matrices Generales (GEMM), que son fundamentales para los modelos de transformadores. Además, incorpora un array dedicado de 4x2 de Bloques de Operaciones de Memoria (MOB) para operaciones de carga y almacenamiento optimizadas, lo que reduce significativamente las demandas de ancho de banda de la memoria y mejora el uso de los datos. Las características y beneficios clave de la arquitectura propuesta de CGRA incluyen: 1. Diseño de Arreglo Heterogéneo: La combinación de un array de 4x4 de PEs con un array de 4x2 de MOB permite una alta paralelismo en la computación de GEMM, reduciendo el movimiento de datos y la latencia de acceso a la memoria. 2. Conexión de Malla Toroidal Sin Conmutadores: Esta característica única elimina la necesidad de conmutación centralizada, permitiendo una comunicación directa entre PEs y MOBs. Esto reduce el consumo de energía y la latencia, lo cual es crucial para dispositivos de baja potencia en la nube. 3. Eficiencia Energética: La propuesta de CGRA alcanza un consumo de energía ultra-baja (más de 1mW) y una alta eficiencia computacional, lo que la hace adecuada para dispositivos de batería alimentados que ejecutan modelos de transformadores. 4. Carga de Trabajo Optimizada de Transformadores: La arquitectura está específicamente diseñada para acelerar las cargas de trabajo de transformadores, incluyendo el mecanismo de atención y las capas de propagación delantera, mediante la paralelización y la gestión eficiente de la memoria. 5. Escalabilidad: La arquitectura de CGRA es escalable y puede adaptarse a otras tareas de aprendizaje automático, convirtiéndose en una solución versátil para aplicaciones futuras de IA en la nube. En resumen, la arquitectura de CGRA de baja potencia propuesta ofrece una solución prometedora para acelerar modelos de transformadores en entornos de computación en la nube. Al combinar alta eficiencia computacional con bajo consumo de energía y adaptabilidad, la arquitectura aborda los desafíos computacionales de los modelos de transformadores y permite la implementación de capacidades avanzadas de aprendizaje automático en dispositivos de baja potencia. Este trabajo establece la base para la exploración futura de diseños de CGRA de baja potencia y apoya el desarrollo de dispositivos de borde inteligentes y autónomos capaces de procesamiento avanzado de IA.


Artículos Recomendados

Reconstrucción Remesh Isotrópica con Optimización Inter-Angular

Observables de árboles de ramificación aleatoria en entorno aleatorio

Investigación Numérica de la Dispersión de Ondas en Medios Granulares: Inversión a Escala de Grano y el Rol de los Efectos de Frontera

Un Controlador de Búsqueda de Extremos Sin Modelo con Aplicación al Seguimiento de una Reacción Química No Lineal

Muestreo de Monte Carlo de múltiples niveles con integración paralela en el tiempo para cuantificación de incertidumbres en la simulación de máquinas eléctricas

Predecir y generar antibióticos contra futuros patógenos con ApexOracle

La función de distribución en equilibrio para sistemas altamente no lineales

Aprendizaje Contrastivo Audio-Visual para la Reconocimiento de Clases Fonológicas

Investigación de modelo de dos Higgs-doblete bajo custodia en耦合耦合微弱四元数下通过晶格

RealBench: Comparación de modelos de generación de Verilog con diseños de IP del mundo real