概要 - 可変構成AIアクセラレータにおけるデータと指令のストリーミングのための7-Dフラットコンボベーションループネストの神秘を解明

タイトル
可変構成AIアクセラレータにおけるデータと指令のストリーミングのための7-Dフラットコンボベーションループネストの神秘を解明

時間
2025-07-27 21:33:34

著者
{"Md Rownak Hossain Chowdhury","Mostafizur Rahman"}

カテゴリ
{cs.AR}

リンク
http://arxiv.org/abs/2507.20420v1

PDF リンク
http://arxiv.org/pdf/2507.20420v1

概要

この論文では、7次元の卷積ループネストをハードウェア中心的なデータと指令のストリーミング問題として再解釈することで、その神秘性を解明する新しいフレームワークを提案しています。著者たちは、CGRAsやFPGAなどの空間アーキテクチャにおける既存のアプローチがループ展開やGEMMに基づく行列変換に依存しており、データの移動や指令の制御に大きなオーバーヘッドを引き起こすと主張しています。 論文では、コンボバルのセマティクスを保ちつつ、可変構成ハードウェアの適応性を活用する原則的な7次元ループネスト分解とマッピング戦略を提案しています。分解は、フィルタ折り返し、画像折り返し、および画像ブロックという3つのハードウェア中心的な抽象化を通じて表現されています。これらの抽象化は、処理要素(PE)の2次元配列にマッピングされる空間構造化された計算ユニットを定義します。 提案されたアプローチは以下の主要な機能を利用しています: * **ループネスト分解**:7次元のコンボバル空間を3次元の抽象化にマッピングし、再利用と並列性の境界を保ちます。 * **データと指令のストリーミング実行フレームワーク**:ホストの介入を最小限に抑え、従来の変換に依存しない効率的な実行を可能にします。 * **微細なチップ内ルーティングスキーム**:空間マルチキャスト、ローカルリデューション、データの再利用、および動的メッセージホッピングをサポートします。 * **解析的パフォーマンスモデル**:動作サイクルと通信サイクルを統一し、PEの利用、遅延、およびシステムのスループットを予測します。 著者たちは、MAVeCアクセラレータ上での彼らのアプローチの適用を示し、MAVeCにおけるコンボバル操作の実装を詳細に説明しています。また、フレームワークを拡張してVGG-16のフルモデルの実行をサポートしています。結果は、PEの高い利用度(90%以上)、大きな折り返しの再利用、およびエンドツーエンドのVGG-16推論のための拡張可能なスループット(1.56 TFLOPs/secと12.7 KIPS)を示しています。 論文の主要な貢献は以下の通りです: * ケイナン7次元のコンボバルループネストをハードウェア意識の実行原則に変換する構造化マッピングフレームワーク。 * ループレベルのセマティクスと空間ハードウェア実行を一致させる原則的なアプローチ、可変なアクセラレータ上での深層学習ワークロードの効率的なデプロイメントを可能にします。 * 空間マルチキャスト、ローカルリデューション、データの再利用、および動的メッセージホッピングをサポートする微細なチップ内ルーティングスキーム。 * 動作サイクルと通信サイクルを統一し、PEの利用、遅延、およびシステムのスループットを予測する解析的パフォーマンスモデル。 提案されたアプローチは、可変構成ハードウェア上で効率的にコンボバル操作を実行する有望な解決策を提供し、AIアクセラレーションにおける性能の大幅な向上をもたらす可能性があります。


推奨論文

2025年インタースピーチ音声アクセスプロジェクトチャレンジ

プログラム可能な仮想人間による人間の生理学的な薬物発見への進展

HairCUP: 3D高斯アバターの髪の構成ユニバーサル事前情報

欠損した共変量下での事前訓練AIモデルを用いたオンライン決定支援:理論的視点

細胞無しのマスive MIMOシステムにおけるハイブリッド量子卷積神経網補助のパイロットアサインメント

会話が歪んだ後でもどうなるか?対話予測モデルの評価

亀裂部の間に落ちる:分断された脆い亀裂前縁におけるエネルギー貯蔵

エッジでTransformerを加速するための超低消費電力CGRA

NoHumansRequired: 自動化高品質画像編集トリプルミニング

均一なデジットシリアルモジュラス算術を使用する高性能パイプラインNTTアクセラレータ