概要 - VideoITG: 指示的な時空基盤を用いた多模様ビデオ理解

タイトル

VideoITG: 指示的な時空基盤を用いた多模様ビデオ理解

時間

2025-07-17 17:59:59

著者

{"Shihao Wang","Guo Chen","De-an Huang","Zhiqi Li","Minghan Li","Guilin Li","Jose M. Alvarez","Lei Zhang","Zhiding Yu"}

カテゴリ

{cs.CV,cs.AI}

リンク
http://arxiv.org/abs/2507.13353v1

PDF リンク
http://arxiv.org/pdf/2507.13353v1

概要

この論文は、Video-LLMsにおけるビデオ理解を向上させるための新しいフレームワークであるVideoITGを提案しています。VideoITGの鍵はVidThinkerパイプラインであり、詳細で指示に基づいたクリップの説明を生成し、関連するセグメントを取得し、微細なフレーム選択を行うことで、人間のアノテーションを模倣します。 VidThinkerパイプラインは以下の3つのステージで構成されています： 1. **指示付きクリップキャプション**：ビデオは短いクリップに分割され、各クリップは指示と視覚内容に基づいた言語モデルを使用して説明されます。これにより、説明が関連性があり情報が豊富で、フレーム選択プロセスをガイドします。 2. **指示付きクリップリトリーブ**：生成された説明は、指示に基づいて関連するビデオセグメントを取得するために使用されます。これは、質問と答えの内容をカバーするクリップを選択するために思考の連鎖を通じて推論を行う言語モデルを使用して行われます。 3. **指示付きフレームロケーション**：関連セグメント内のキーフレームは、指示の種類に応じて選択されます。異なる種類の指示には異なるフレーム選択戦略が必要で、意味内容に対しては多様なフレームを選択し、動作内容に対しては均一にフレームをサンプリングします。 VidThinkerパイプラインを使用して、著者たちは40,000のビデオと500,000の時系列基準アノテーションを含むVideoITG-40Kデータセットを構築しました。このデータセットは、スケールと品質の両方で既存のデータセットを大幅に凌駕します。 VideoITG-40Kデータセットに基づいて、著者たちはテキスト生成、因果注意を用いたアンカー基盤の分類、全注意を用いたプーリング基盤の分類を活用するVideoITGモデルのシリーズを開発しました。これにより、指示に基づく時系列基準の向上とVideo-LLMの機能の向上が図られました。さまざまなビデオ理解のベンチマークでの実験では、VideoITGが一貫してVideo-LLMsの性能を向上させ、その効果と指示駆動型ビデオ理解を進める可能性を示しました。 ## 主要な貢献： 1. **VideoITG-40Kデータセット**：40,000のビデオと500,000の時系列基準アノテーションを含む大規模なデータセットで、スケールと品質の両方で既存のデータセットを大幅に凌駕します。 2. **VideoITGモデル**：VideoITG-40Kデータセットからの洞察に基づき、異なる注意とデコード戦略を持つVideoITGモデルのシリーズを開発しました。これにより、指示に基づく時系列基準の向上を図ります。 3. **一貫した向上**：VideoITGは、さまざまな多様なビデオ理解のベンチマークで一貫して性能向上を達成し、その効果と拡張性を示しました。

推奨論文

射影変換を通じての線形および定常ケプラー動力学：幾何学的視点

相関と動的因果順序を持つ量子回路

会話が歪んだ後でもどうなるか？対話予測モデルの評価

無条件の擬似乱数に対する浅い量子回路に対する無条件の擬似乱数

ChemDFM-R: アトミズド化学知識で強化された化学推論エンジン LLM

無絡みの光子によるベール不平等の違反

電気機械シミュレーションにおける不確実性評価のための並列時間積分を用いたマルチレベルモンテカルロサンプリング

ノイズパラメータを含む半パラメトリック推論のためのラテンフュージョンマルチタスク学習

5Gにおけるアクティブ攻撃耐性：認証とキー合意の新しいアプローチ

均一なデジットシリアルモジュラス算術を使用する高性能パイプラインNTTアクセラレータ