Zusammenfassung - A3D-MoE: Beschleunigung großer Sprachmodelle mit Mischung aus Experten durch 3D-heterogene Integration

Titel

A3D-MoE: Beschleunigung großer Sprachmodelle mit Mischung aus Experten durch 3D-heterogene Integration

Zeit

2025-07-25 10:26:01

Autor

{"Wei-Hsing Huang","Janak Sharda","Cheng-Jhih Shih","Yuyao Kong","Faaiq Waqar","Pin-Jun Chen",Yingyan,Lin,"Shimeng Yu"}

Kategorie

{cs.AR}

Link
http://arxiv.org/abs/2507.19142v1

PDF Link
http://arxiv.org/pdf/2507.19142v1

Zusammenfassung

Dieses Papier stellt A3D-MoE vor, ein innovatives Hardware-algorithmisches Ko-Design-Framework, das effiziente Inferenz für große Sprachmodelle (LLM) auf ressourcenbeschränkten Geräten ermöglicht. Die Autoren behandeln die Herausforderungen in den besten finetunten Mixture-of-Experts (MoE)-Architekturen und die Komplexitäten der gemischten Prefill- und verlängerten Decodierungsstufen durch drei zentrale Innovationen: 1. **3D-Adaptive GEMV-GEMM-Verhältnis systolische Array**: Passt sich dynamisch an Veränderungen im GEMV-GEMM-Verhältnis an durch Laufzeitmodusumschaltung, verbessert die Hardwareauslastung und reduziert den Energieverbrauch. 2. **Hardware-Ressourcen-bewusster Betrieb Fusion Scheduler (HR-OFS)**: Fügt Aufmerksamkeits- und MoE-Operationen zusammen, um Latenz zu reduzieren und die Gesamtauslastung der Hardware zu verbessern. 3. **MoE Score-bewusste HBM-Zugriffsreduzierung mit geraden-ungeraden Experte-Platzierung (MoE-HBMR-EOP)**: Reduziert die HBM-Zugriffszahlen und den DRAM-Zugriffsenergie, indem dynamisch geregelt wird, ob vollpräzise oder halbpräzise Experten aus der HBM abgerufen werden. Das Papier präsentiert umfassende Experimentenergebnisse, die zeigen, dass A3D-MoE im Vergleich zu den besten Lösungen erhebliche Verbesserungen in der Latenz (1,8× bis 2× Reduzierung), dem Energieverbrauch (2× bis 4× Reduzierung) und der Durchsatzleistung (1,44× bis 1,8× Verbesserung) erzielt. Die vorgeschlagenen Innovationen bieten einen umfassenden Ansatz, um die Inferenz von LLM auf ressourcenbeschränkten Geräten zu beschleunigen und eine effizientere und skalierbarere Bereitstellung von LLM in verschiedenen Anwendungen zu ermöglichen.

Empfohlene Papiere

Messung der Drei-Geschmackszusammenstellung astrophysikalischer Neutrinos mit enthaltenen IceCube-Ereignissen

Ein statistischer Physikrahmen für optimales Lernen

Fisher-Score-Abgleich für simulationsbasierte Prognose und Inferenz

Ranking-Vektoren-Clustering: Theorie und Anwendungen

Lernen von Polstrukturen hadronischer Zustände mithilfe der prädiktiven Unsicherheitsabschätzung

Mehrere Axionen retten die hochskalige Inflation

Konsensprobleme mit Swaps und Substitutionen für Strings

CASCADE: JavaScript-Deobfuscator mit künstlicher Intelligenz auf Basis eines LLM bei Google

Zwischenlöschen des vestigialen Ordnungs in einem chiralen Atomischen Suprakristall in einem doppelten Tal-Optischen Gitter

Ein Dichteverstandnis-basierter autonomer Pfadplanungsbeschleuniger mit HW/SW-Ko-Design und mehrstufiger Datenflüsse-Optimierung