概要 - CircuitProbe: 回路追跡を用いて空間時間視覚セマanticsを解体する
タイトル
CircuitProbe: 回路追跡を用いて空間時間視覚セマanticsを解体する
時間
2025-07-25 16:38:18
著者
{"Yiming Zhang","Chengzhang Yu","Zhuokai Zhao","Kun Wang","Qiankun Li","Zihan Chen","Yang Liu","Zenghui Ding","Yining Sun"}
カテゴリ
{cs.CV,cs.LG}
リンク
http://arxiv.org/abs/2507.19420v1
PDF リンク
http://arxiv.org/pdf/2507.19420v1
概要
この論文は、大規模な視覚言語モデル(LVLM)内で空間時間的な視覚セマティックがどのように表現され、処理されるかを調査するための系統的な回路基盤のフレームワークを紹介します。このフレームワークは、視覚監視、セマントトレース、注意力流の3つの回路で構成されています。 視覚監視回路は、視覚セマティックがビデオフレーム内の特定のオブジェクトトークンに高度に局在していることを示しています。これらのトークンを削除することで、モデルの性能が最大92.6%まで劣化します。これは、オブジェクト固有の視覚情報がビデオの内容を理解するために重要であることを示唆しています。 セマントトレース回路は、オブジェクトと行動の解釈可能な概念がLVLMの中間~後期層で出現し、次第に精細化されることを発見しました。これは、モデルが層を通じて情報を処理するにつれて、ビデオの内容についてより深い理解を得ることを示しています。 注意力流回路は、LVLMが空間時間的なセマティックのための特別化された機能局在を示すことを示しています。中間~後期層は、ビデオフレームからオブジェクト情報を解釈するために最も重要です。これは、モデルが二段階の推論プロセスを使用していることを示唆しており、早期層で広範な視覚的な文脈を処理し、後期層で局在的なオブジェクトの詳細に焦点を当てています。 全体的に、この研究はLVLMが空間時間的な視覚情報をどのように処理するかについての明確で包括的な理解を提供しています。この発見は、LVLMの設計と解釈に関する重要な洞察を提供し、今後より堅牢で解釈可能なモデルの開発に寄与することが期待されます。
推奨論文
木の深さの非近似性と指数的なETH下界
無限群の隠れた部分群問題
TFNP内の階層:構成要素と崩壊
非交差数の一般の厳しい制限(境界交差点数に対して厳しい)
TokenSmith: 大規模な言語モデルのトレーニングと可視化のためのデータ編集、検索、検証を簡素化
最小決定エコー状態ネットワークは、混沌的な動態を学習する際にランダムなレジュスタイルよりも優秀です。
圧縮性と敵対的耐性の相互作用
夢:インタラクティブな世界生成モデル
ACCESS-AV: 智能工場における持続可能な自律走行車の位置特定のための適応型通信-計算コード設計
多源CTスキャン分類におけるドメインシフトの抑え込みを目的とする入力空間標準化