概要 - 「長文文脈長で状態空間モデル(SSM)とSSM-トランスフォーマーハイブリッド言語モデルの性能を特徴化」

タイトル
「長文文脈長で状態空間モデル(SSM)とSSM-トランスフォーマーハイブリッド言語モデルの性能を特徴化」

時間
2025-07-16 17:28:40

著者
{"Saptarshi Mitra","Rachid Karami","Haocheng Xu","Sitao Huang","Hyoukjun Kwon"}

カテゴリ
{cs.AR,cs.AI,cs.LG,cs.SY,eess.SY}

リンク
http://arxiv.org/abs/2507.12442v1

PDF リンク
http://arxiv.org/pdf/2507.12442v1

概要

この論文は、状態空間モデル(SSM)とハイブリッドモデルのパフォーマンスとメモリ使用を探求し、特にこれらが長文入力を処理する能力について、消費者およびエンベデッドGPU上で調査しています。 著者たちは、伝統的なTransformerアーキテクチャが長いシークエンスの処理に限界があることを強調し、その原因は二次の複雑さとメモリ要件にあると述べています。彼らは、SSMが線形スケーリングで提供する有望な代替案として提案し、24GBの消費者GPU上で220Kトークンまでのシークエンスを処理できると述べています。 この研究は、Transformer、SSM、およびハイブリッドモデルの包括的なベンチマークを含み、ハイエンドの消費者GPUと電力制約のあるエンベデッドプラットフォームにおけるパフォーマンスを分析しています。結果によると、SSMは長いシークエンスの処理においてTransformerを上回り、非常に長いコンテキストでは4倍も速くなることが判明しました。 著者たちはまた、異なるモデルの遅延とメモリフットプリントを調査し、パフォーマンスのボトルネックとオペレーターレベルの貢献を特定しました。彼らは、カスタムのハードウェア意識のSSMカーネルが推論時間の55%以上を占めることを発見しました。 この研究は、SSMが消費者およびエンベデッドGPU上での長文推論に適していることを強調し、伝統的なTransformerモデルに対するより効率的で拡張性のある代替案を提供すると示しています。


推奨論文

Agentar-DeepFinance-300K: 系統的な思考の連鎖合成最適化による大規模金融データセット

「ボリューム成長変換を用いてRLゲームの層化空間構造を探求する」

生物伝達物質を介した合成MC:腸-脳軸の治療的調節

5Gにおけるアクティブ攻撃耐性:認証とキー合意の新しいアプローチ

CRAFT: エッジ-フォグ環境におけるノード配置のための遺伝子ベースの遅延とコスト意識フレームワーク

TRECバイオメディカル要約の平易な言語適応(PLABA)トラックからの教訓

低次のSkolem問題の複雑さについて

他者の心:言語モデルが人間の時的認知を示す方法

高次元仕様を持つ複雑な細長いポリマー部品のグリーンインジェクション成形に新しい形状冷却配置の適用

構成機能ネットワーク:深層神経ネットワークに代わる高性能かつ内蔵解釈性を持つ選択肢