Zusammenfassung - A3D-MoE: Beschleunigung großer Sprachmodelle mit Mischung aus Experten durch 3D-heterogene Integration
Titel
A3D-MoE: Beschleunigung großer Sprachmodelle mit Mischung aus Experten durch 3D-heterogene Integration
Zeit
2025-07-25 10:26:01
Autor
{"Wei-Hsing Huang","Janak Sharda","Cheng-Jhih Shih","Yuyao Kong","Faaiq Waqar","Pin-Jun Chen",Yingyan,Lin,"Shimeng Yu"}
Kategorie
{cs.AR}
Link
http://arxiv.org/abs/2507.19142v1
PDF Link
http://arxiv.org/pdf/2507.19142v1
Zusammenfassung
Dieses Papier stellt A3D-MoE vor, ein innovatives Hardware-algorithmisches Ko-Design-Framework, das effiziente Inferenz für große Sprachmodelle (LLM) auf ressourcenbeschränkten Geräten ermöglicht. Die Autoren behandeln die Herausforderungen in den besten finetunten Mixture-of-Experts (MoE)-Architekturen und die Komplexitäten der gemischten Prefill- und verlängerten Decodierungsstufen durch drei zentrale Innovationen:
1. **3D-Adaptive GEMV-GEMM-Verhältnis systolische Array**: Passt sich dynamisch an Veränderungen im GEMV-GEMM-Verhältnis an durch Laufzeitmodusumschaltung, verbessert die Hardwareauslastung und reduziert den Energieverbrauch.
2. **Hardware-Ressourcen-bewusster Betrieb Fusion Scheduler (HR-OFS)**: Fügt Aufmerksamkeits- und MoE-Operationen zusammen, um Latenz zu reduzieren und die Gesamtauslastung der Hardware zu verbessern.
3. **MoE Score-bewusste HBM-Zugriffsreduzierung mit geraden-ungeraden Experte-Platzierung (MoE-HBMR-EOP)**: Reduziert die HBM-Zugriffszahlen und den DRAM-Zugriffsenergie, indem dynamisch geregelt wird, ob vollpräzise oder halbpräzise Experten aus der HBM abgerufen werden.
Das Papier präsentiert umfassende Experimentenergebnisse, die zeigen, dass A3D-MoE im Vergleich zu den besten Lösungen erhebliche Verbesserungen in der Latenz (1,8× bis 2× Reduzierung), dem Energieverbrauch (2× bis 4× Reduzierung) und der Durchsatzleistung (1,44× bis 1,8× Verbesserung) erzielt. Die vorgeschlagenen Innovationen bieten einen umfassenden Ansatz, um die Inferenz von LLM auf ressourcenbeschränkten Geräten zu beschleunigen und eine effizientere und skalierbarere Bereitstellung von LLM in verschiedenen Anwendungen zu ermöglichen.
Empfohlene Papiere
Messung der Drei-Geschmackszusammenstellung astrophysikalischer Neutrinos mit enthaltenen IceCube-Ereignissen
Ein statistischer Physikrahmen für optimales Lernen
Fisher-Score-Abgleich für simulationsbasierte Prognose und Inferenz
Ranking-Vektoren-Clustering: Theorie und Anwendungen
Lernen von Polstrukturen hadronischer Zustände mithilfe der prädiktiven Unsicherheitsabschätzung
Mehrere Axionen retten die hochskalige Inflation
Konsensprobleme mit Swaps und Substitutionen für Strings
CASCADE: JavaScript-Deobfuscator mit künstlicher Intelligenz auf Basis eines LLM bei Google
Zwischenlöschen des vestigialen Ordnungs in einem chiralen Atomischen Suprakristall in einem doppelten Tal-Optischen Gitter
Ein Dichteverstandnis-basierter autonomer Pfadplanungsbeschleuniger mit HW/SW-Ko-Design und mehrstufiger Datenflüsse-Optimierung