概要 - モダリティに依存しない効率的な長距離エンコーダ
タイトル
モダリティに依存しない効率的な長距離エンコーダ
時間
2025-07-25 16:19:47
著者
{"Toufiq Parag","Ahmed Elgammal"}
カテゴリ
{cs.CV}
リンク
http://arxiv.org/abs/2507.19409v1
PDF リンク
http://arxiv.org/pdf/2507.19409v1
概要
この論文は、MAELRE(モダリティ無関心な効率的な長距離エンコーダ)を紹介します。これは、多様なモダリティ間での長距離エンコーディングに設計された統一かつ効率的なトランスフォーマーアーキテクチャです。このアーキテクチャは、注意機構の二次的なメモリフットプリントと推論コストを減らすことで、単一のデバイス上での長文処理の課題を解決します。 MAELREは、トークン削減と注意近似メカニズムを組み合わせることでこの成果を達成します。モデルの異なる深さにおけるトークンの数は減少し、早い層では深い層よりも少ない特徴でトークンを表現します。アーキテクチャは、浅い層ではO(D^2)近似に基づくカーネルと、深い層では元のO(N^2)ドットプロダクト注意を使用して、メモリと計算コストを最小限に抑えます。 提案されたアーキテクチャは、テキスト、時系列、オーディオ、視覚を含む複数のモダリティで効果的であることが示されました。これは、既存の長文モデルと比較して、計算コストを削減しつつ、優れた精度を達成しました。実験結果によると、MAELREは次に優れたモデルに対して、メモリと計算コストがそれぞれ3%と1%増加する一方で、テキスト分類タスクで1%高い精度を達成しました。さらに、VGGSoundオーディオのみの分類と蚊の音時系列データセットで最も優れた精度を達成しました。 論文では、ドットプロダクト注意とその近似の組み合わせを利用する利点、およびトークン統合がモデル性能とコストに与える影響を評価する消費試験も示されました。結果は、NbとDbの値に基づいて交替する注意の種類の提案された設計が、コストと精度の両方でより有益であることを示しました。 要約すると、MAELREは多様なモダリティ間での長距離エンコーディングに適した効率的かつ効果的なトランスフォーマーアーキテクチャであり、既存のアプローチと比較して精度が向上し、計算コストが削減されます。
推奨論文
Hess-MC2: ヘッシアン情報と二階提案を使用した連続モンテカルロ平方法
RealBench:リアルワールドIPデザインを使用したVerilog生成モデルのベンチマーク評価
非平衡データのためのコルモゴロフ・アーノルド・ネットワーク(KANs)-- 実証的視点
検出されていない光子を使用した中間赤外線ハイパースペクトル画像撮影
神経形态計算:時間、空間、エネルギースケーリングのための理論的枠組み
GENIAL: ネットワーク逆転を通じて低消費電力アルゴリズム論理ユニットの生成設計空間探索
量子回路暗号化に基づく暗号化状態量子コンパイルスキーム
ヒーガード分離に対する圧縮データ構造
生成AI駆動の高精度人間動作シミュレーション
表面におけるTutteの重心埋め込みの離散的な類似物