Résumé - A3D-MoE : Accélération des grands modèles de langage avec Mixture of Experts via l'intégration hétérogène 3D

Titre
A3D-MoE : Accélération des grands modèles de langage avec Mixture of Experts via l'intégration hétérogène 3D

Temps
2025-07-25 10:26:01

Auteur
{"Wei-Hsing Huang","Janak Sharda","Cheng-Jhih Shih","Yuyao Kong","Faaiq Waqar","Pin-Jun Chen",Yingyan,Lin,"Shimeng Yu"}

Catégorie
{cs.AR}

Lien
http://arxiv.org/abs/2507.19142v1

PDF Lien
http://arxiv.org/pdf/2507.19142v1

Résumé

Ce document présente A3D-MoE, un cadre innovant de co-conception matérielle-algorithme pour effectuer efficacement des inférences de grands modèles de langage (LLM) sur des appareils à ressources limitées. Les auteurs abordent les défis des architectures Mixture-of-Experts (MoE) de fines granularités les plus avancées et la complexité des étapes de pré remplissage et de décodage prolongé par trois innovations clés : 1. **Tableau systolique 3D-Adaptive GEMV-GEMM-ratio** : S'adapte dynamiquement aux variations des ratios GEMV-GEMM par un basculement de mode en temps réel, améliorant l'utilisation du matériel et réduisant la consommation d'énergie. 2. **Planificateur de fusion d'opérations-aware des ressources matérielles (HR-OFS)** : Fusionne les opérations d'attention et MoE pour réduire la latence et améliorer l'utilisation globale du matériel. 3. **Réduction de l'accès à l'HBM-aware des scores MoE avec placement des experts pair-impair (MoE-HBMR-EOP)** : Réduit le nombre d'accès à l'HBM et l'énergie des accès DRAM en régulant dynamiquement si accéder aux experts en pleine ou en demi-précision à partir de l'HBM. Le document présente des résultats expérimentaux extensifs démontrant que A3D-MoE atteint des améliorations significatives en termes de latence (réduction de 1,8× à 2×), de consommation d'énergie (réduction de 2× à 4×) et de débit (amélioration de 1,44× à 1,8×) par rapport aux solutions les plus avancées. Les innovations proposées fournissent une approche complète pour accélérer les inférences de LLM sur des appareils à ressources limitées, permettant une déployement plus efficace et scalable des LLM dans diverses applications.


Articles Recommandés

ThermoRL : Apprentissage par renforcement structurément conscient pour la conception de mutations de protéines pour améliorer la thermorésistance

Meilleures bornes pour les chemins les plus courts semi-flous à source unique

Sur l'interaction de la compressibilité et de la robustesse aux attaques adverses

Clustering des vecteurs hiérarchiques : Théorie et applications

Chemins positifs dans les groupes de difféomorphismes des variétés avec une distribution de contact

Exploration des spectres primordiaux à petite échelle par les ondes gravitationnelles tensor-scalar induites

Dynamique multi-espèces McKean-Vlasov dans des paysages non convexes

Courir en Cercle ? Un simple point de référence pour la sécurité des interprètes de code des LLM

TyDi QA-WANA : Un point de référence pour l'Answering par Questions de Recherche d'Information dans les Langues de l'Asie de l'Ouest et de l'Afrique du Nord

Écosystèmes de Suivi des Problèmes : Contexte et Meilleures Pratiques