Resumen - A3D-MoE: Aceleración de Grandes Modelos de Lenguaje con Mezcla de Expertos mediante Integración Heterogénea 3D
Título
A3D-MoE: Aceleración de Grandes Modelos de Lenguaje con Mezcla de Expertos mediante Integración Heterogénea 3D
Tiempo
2025-07-25 10:26:01
Autor
{"Wei-Hsing Huang","Janak Sharda","Cheng-Jhih Shih","Yuyao Kong","Faaiq Waqar","Pin-Jun Chen",Yingyan,Lin,"Shimeng Yu"}
Categoría
{cs.AR}
Enlace
http://arxiv.org/abs/2507.19142v1
PDF Enlace
http://arxiv.org/pdf/2507.19142v1
Resumen
Este documento presenta A3D-MoE, un innovador marco de co-diseño de hardware-algoritmo para ejecutar de manera eficiente la inferencia de grandes modelos de lenguaje (LLM) en dispositivos con recursos limitados. Los autores abordan los desafíos de las arquitecturas de Mixture-of-Experts (MoE) de vanguardia y la complejidad de las etapas de prefill mixto y decodificación prolongada a través de tres innovaciones clave:
1. **3D-Adaptive GEMV-GEMM-ratio systolic array**: Ajusta dinámicamente a las variaciones en las proporciones GEMV-GEMM a través de la conmutación de modos en tiempo de ejecución, mejorando la utilización del hardware y reduciendo el consumo de energía.
2. **Hardware resource-aware operation fusion scheduler (HR-OFS)**: Fusiona operaciones de atención y MoE para reducir la latencia y mejorar la utilización general del hardware.
3. **Reducción de acceso a HBM con conocimiento de la puntuación de MoE y colocación de expertos par e impar (MoE-HBMR-EOP)**: Reduce el número de accesos a HBM y el consumo energético de accesos a DRAM mediante la regulación dinámica de si acceder a expertos de precisión completa o media desde HBM.
El documento presenta resultados experimentales extensos que demuestran que A3D-MoE logra mejoras significativas en latencia (reducción de 1.8× a 2×), consumo de energía (reducción de 2× a 4×) y rendimiento (mejora de 1.44× a 1.8×) en comparación con las soluciones de vanguardia. Las innovaciones propuestas proporcionan un enfoque integral para acelerar la inferencia de LLM en dispositivos con recursos limitados, permitiendo una implementación más eficiente y escalable de LLM en diversas aplicaciones.
Artículos Recomendados
Manifestación de las Fuerzas Cuánticas en el Espacio-Tiempo: Hacia una Teoría General de las Fuerzas Cuánticas
3DGauCIM: Acelerando la proyección gaussiana estática/dinámica en 3D mediante CIM digital para renderizado de borde en tiempo real a alta tasa de cuadros
U-Net residual con atención adaptativa para la segmentación de estructuras curvilíneas en microscopía de fluorescencia e imágenes biomédicas
Modelos Fundamentales de Series de Tiempo para la Predicción de Series de Tiempo Financieras Multivariadas
Desventajas computacionales-statísticas de la NP-hardiedad
Salida: Colaboración entre humanos y AI basada en lo físico
Regressión de kriging sin características
Reducción Tukey generalizada entre conjuntos directos $\sigma$-dirigidos
Rubricas como Recompensas: Aprendizaje por Refuerzo Fuera de Dominios Verificables
Interpretación Automatizada de Mapas de Contorno de Evaluación No Destructiva Utilizando Grandes Modelos de Lenguaje para la Evaluación del Estado de los Puentes