概要 - A3D-MoE:3D異種統合を通じてエキスパートのミックスを使用した大規模言語モデルの加速

タイトル
A3D-MoE:3D異種統合を通じてエキスパートのミックスを使用した大規模言語モデルの加速

時間
2025-07-25 10:26:01

著者
{"Wei-Hsing Huang","Janak Sharda","Cheng-Jhih Shih","Yuyao Kong","Faaiq Waqar","Pin-Jun Chen",Yingyan,Lin,"Shimeng Yu"}

カテゴリ
{cs.AR}

リンク
http://arxiv.org/abs/2507.19142v1

PDF リンク
http://arxiv.org/pdf/2507.19142v1

概要

この論文では、リソース制限されたデバイスで大規模言語モデル(LLM)の推論を効率的に行うための革新的なハードウェア・アルゴリズム共同設計フレームワークであるA3D-MoEを提案しています。著者たちは、最先端の微細な粒度のMixture-of-Experts(MoE)アーキテクチャの課題と、混合プレフィルと長時間のデコード段階の複雑さに対して、以下の3つの主要な革新を通じて対応しています: 1. **3D-Adaptive GEMV-GEMM-ratio シスタリック配列**:ランタイムモード切替により、GEMV-GEMM比率の変化に動的に適応し、ハードウェアの利活用を向上させ、エネルギー消費を削減します。 2. **ハードウェアリソース意識の操作融合スケジューラ(HR-OFS)**:アテンションとMoE操作を融合し、遅延を削減し、全体のハードウェア利活用を向上させます。 3. **MoE スコア意識のHBMアクセス削減と奇数偶数エキスパート配置(MoE-HBMR-EOP)**:HBMからフル精度または半精度のエキスパートにアクセスするかどうかを動的に調整することで、HBMアクセス回数とDRAMアクセスエネルギーを削減します。 この論文では、A3D-MoEが、最先端の解決策と比較して、遅延(1.8倍から2倍の削減)、エネルギー消費(2倍から4倍の削減)、およびスループット(1.44倍から1.8倍の向上)において顕著な改善を達成するという多くの実験結果を示しています。提案された革新は、リソース制限されたデバイス上でLLMの推論を加速する包括的なアプローチを提供し、さまざまなアプリケーションにおけるLLMの効率的で拡張可能なデプロイメントを可能にします。


推奨論文

深層脳ネット:エッフェクティブネットB0とResNet50を使用した、移行学習を通じてMRI画像における脳腫瘍検出のための最適化された深層学習モデル

MOFCO: 三層クラウドファニング環境におけるモビリティと移行意識のタスクオフロード

群のFourier解析を通じて拡張歩行の擬似乱数性

自然言語プロンプトから生成されたLLMコードの形式確認への進展

光顕微鏡および生物医学画像における曲線構造のセグメントーションのための適応的な注目残差U-Net

稀疏自動エンコーダが小規模遺伝子言語モデルにおける解釈可能な構造を明らかにする

顔認識精度に与える顔フィルタの影響を研究するための包括的評価枠組み

「分画法の構築への新しいアプローチ」

引っ越し:物理的に基づく人間-AIの協力

リラックスした総合拡散変分正則化のパーツごとに滑らかなMumford-Shahモデルによる三角化表面分断