概要 - SpiNNaker2神経モーフィックMPSoCのためのエンドツーエンドDNN推論フレームワーク

タイトル

SpiNNaker2神経モーフィックMPSoCのためのエンドツーエンドDNN推論フレームワーク

時間

2025-07-18 08:32:34

著者

{"Matthias Jobst","Tim Langer","Chen Liu","Mehmet Alici","Hector A. Gonzalez","Christian Mayr"}

カテゴリ

{cs.LG,cs.AR,cs.DC}

リンク
http://arxiv.org/abs/2507.13736v1

PDF リンク
http://arxiv.org/pdf/2507.13736v1

概要

この論文では、SpiNNaker2神経形态MPSoCのための多層深層ニューラルネットワーク（DNN）スケジューリングフレームワークを紹介します。このフレームワークは既存のOctopuSchedulerを拡張し、SpiNNaker2プラットフォームを使用して、トランスフォーマー規模の大規模かつ複雑なDNNのエッジ基盤の実行を可能にします。このフレームワークの主な貢献は以下の通りです： 1. OctopuSchedulerの多層スケジューリングへの拡張：これにより、SpiNNaker2チップ上で完全なモデルを実行することができ、ホストとの追加の相互作用が不要になります。 2. すべてのDNN層に対するチップ内での独立したイテレーション：これにより、チップ上のSRAMの容量を超える大規模なモデルの効率的な実行が可能になります。 3. PyTorchモデルからのパラメータ抽出と8ビットのトレーニング後の量子化のための自動フロー：これにより、SpiNNaker2 MLA上での行列乗算の効率的なハードウェアアクセラレーションが可能になります。フレームワークは以下の4つの主要なコンポーネントで構成されています： 1. 全局設定：スケジューリングに必要な情報を含みます。例えば、スケジューラおよびワーカーの座標やモデルの層数です。 2. 時間測定：各スケジューラおよびワーカーごとの層ごとの時間測定を保存し、モデル実行の詳細なプロファイリングを可能にします。 3. 層設定：各層は構造化された設定ブロックに関連付けられ、層のタイプや割り当てられたワーカーPEの数などのメタデータが含まれます。これにより、複数のワーカー間で多様な神経ネットワーク演算の効率的な実行が可能になります。 4. データメモリ：モデルのすべての層の活性化データ、すなわち入力、中間値および出力を保存します。フレームワークはMNISTで訓練されたシンプルな3層のMLPモデルを使用してテストされました。結果は、フレームワークが低いスケジューリングオーバーヘッドを達成し、SpiNNaker2チップ上で大規模なモデルを効率的に実行できることを示しています。このフレームワークは神経形态計算とエッジAIの分野に貴重な貢献をしています。それは、SpiNNaker2に基づくシステム上で大規模かつ複雑なDNNの効率的なデプロイメントを可能にすることで、エッジ産業を革新する可能性があります。これは、より賢いインフラストラクチャノードの実現とAIワークロードのエネルギーフットプリントの削減をもたらす可能性があります。

推奨論文

RoCE BALBOA：スマートNIC向けのサービス強化型データセンターRDMA

AQuilt: 専門用LLMsのための低コスト、高い関連性を持つデータ統合にロジックと自己検査を織り交ぜたもの

CA-Cut: データ拡張のためのCrop-Aligned Cutout、より堅牢な冠下ナビゲーションを学ぶため

ReXGroundingCT：自由テキストレポートからの所見のセグメンテーションのための3D胸部CTデータセット

「デュアル戦略統合による需要予測のためのベースモデル」

トレースノルム収縮係数の計算的側面

非交差数の一般の厳しい制限（境界交差点数に対して厳しい）

ステップ-3は、大きなものながら安価です：低コストなデコードのためのモデルシステム共同設計

「大規模言語モデルを使用して、社会生態系における複数の人間の視点をシミュレートする」

F&O満期対初日SIPs：インドのNifty 50における時期の利点の22年分析