概要 - 特徴に戻ってみましょう:ビデオワールドモデルのためのDINO基盤

タイトル
特徴に戻ってみましょう:ビデオワールドモデルのためのDINO基盤

時間
2025-07-25 17:54:10

著者
{"Federico Baldassarre","Marc Szafraniec","Basile Terver","Vasil Khalidov","Francisco Massa","Yann LeCun","Patrick Labatut","Maximilian Seitzer","Piotr Bojanowski"}

カテゴリ
{cs.CV}

リンク
http://arxiv.org/abs/2507.19468v1

PDF リンク
http://arxiv.org/pdf/2507.19468v1

概要

この論文では、様々なビデオ予測タスクで目を見張るような成果を挙げる新しいビデオワールドモデルであるDINO-worldを提案します。以下に主要ポイントを説明します: **DINO-worldアーキテクチャ**: * **潜在空間**:前のモデルがピクセルレベルのデータを直接処理するのとは異なり、DINO-worldは事前に訓練された視覚エンコーダであるDINOv2の潜在空間で動作します。このアプローチはエンコーダの強いセマンチックおよび幾何的理解を活用し、計算負荷を軽減し、より効率的な予測を可能にします。 * **予測器**:予測器は過去の観察に基づいて将来のフレーム特徴を予測するために学習するクロスアテンションブロックのスタックです。このアーキテクチャはフレームレート、文脈の長さ、解像度の可変性を柔軟に処理できます。 * **アクション条件付き微調整**:DINO-worldはアクションデータで微調整が可能であり、計画と制御を可能にするためにアクションブロックが予測器に追加され、対応するアクションでクエリトークンが更新されます。 **DINO-worldの利点**: * **一般化**:大規模な未整理のビデオデータセットで事前訓練を行うことで、DINO-worldは世界に関する一般知識を学び、多様な分野に一般化できます。 * **効率**:潜在空間アプローチと効率的なアーキテクチャにより、DINO-worldは以前のモデルよりリソース効率が高くなります。 * **堅牢性**:DINO-worldは直感的な物理学の強い理解を示し、複雑なダイナミクスを持つビデオでも将来のフレーム特徴を正確に予測できます。 **評価**: * **デンシーフォーカスティング**:DINO-worldはセグメンテーションや深度予測などの様々なデンシーフォーカスティングタスクで以前のモデルを凌駕しています。 * **直感的な物理学**:DINO-worldはIntPhys、GRASP、InfLevelなどのベンチマークで直感的な物理学の強い理解を示しています。 * **計画**:アクションデータで微調整が可能であり、計画タスクに使用できるため、ロボティクスや自動運転のようなアプリケーションの可能性を示しています。 **将来の方向性**: * **長期予測**:将来のサンプリングや長期的な時系列情報の取り入れる技術を探求して長期予測を改善します。 * **データ整理**:トレーニングデータの品質と多様性を向上させるためのデータ整理戦略の開発。 * **現実世界の検証**:現実世界の環境とアプリケーションでのDINO-worldの性能を検証します。 * **言語としての条件信号**:複雑な計画と制御タスクを実現するために言語を条件信号として取り入れる。 **全体として、DINO-worldはビデオワールドモデリングにおける大きな進歩を代表しており、効率的なアーキテクチャ、強い一般化能力、堅牢性を持つため、ロボティクス、自動運転、ビデオ生成などのさまざまなアプリケーションに有望なツールとなります**。


推奨論文

SeC: 渐進的な概念構築を通じて複雑なビデオオブジェクトセグメンテーションを推進する

SafeWork-R1: AI-45°法のもとでの共生進化する安全と知能

時砂並べ:新しい並列ソートアルゴリズムとその実装

無条件の擬似乱数に対する浅い量子回路に対する無条件の擬似乱数

「ボリューム成長変換を用いてRLゲームの層化空間構造を探求する」

フレッドキン-ヨンセン意見動態モデルの関連する量に対する効率的なアルゴリズム

相関と動的因果順序を持つ量子回路

理論間のp-Simuluationを特徴付ける

MODA: マルチタスクターゲット意識型分子生成のための統一化3D拡散フレームワーク

可解性マッパー:パラメータ調整に基づく説明と検証エージェントを使用してLLMエンブッディング空間を図示する