概要 - 夢:インタラクティブな世界生成モデル
タイトル
夢:インタラクティブな世界生成モデル
時間
2025-07-23 17:57:09
著者
{"Xiaofeng Mao","Shaoheng Lin","Zhen Li","Chuanhao Li","Wenshuo Peng","Tong He","Jiangmiao Pang","Mingmin Chi","Yu Qiao","Kaipeng Zhang"}
カテゴリ
{cs.CV,cs.AI,cs.HC}
リンク
http://arxiv.org/abs/2507.17744v1
PDF リンク
http://arxiv.org/pdf/2507.17744v1
概要
夢(Yume)は、画像、テキスト、またはビデオを利用して没入感、ダイナミズム、インタラクティブな仮想環境を作成する革新的なインタラクティブな世界生成モデルです。この論文では、夢の主要な機能と能力を強調するプレビュー版を紹介します。
**主要コンポーネント**:
* **カメラ動きの量子化**:夢は量子化されたカメラ動き表現を使用し、連続的なカメラ動きを断片的なアクション(例えば、前進、左回り)に変換することで、より簡単な制御とトレーニングを可能にします。
* **マスク付きビデオ拡散トランスフォーマー(MVDT)**:このアーキテクチャは、選択的にマスクと処理を行うことで視覚品質を向上させ、アーティファクトを減少させ、構造の一致を改善します。
* **高度なサンプリング**:
* **トレーニング不要のアーティファクト除去機構(AAM)**:この機構は、ノイズ除去中に潜在表現を精査し、追加のトレーニング無しで視覚品質を向上させ、アーティファクトを減少させます。
* **SDEに基づくタイムトラベルサンプリング(TTS-SDE)**:この新しいサンプリング方法は、後のノイズ除去ステージからの情報を利用して、ビデオの鮮度とテキストの制御性を向上させます。
* **モデル加速**:夢は、敵対的ディストライルとキャッシュメカニズムを統合したコオプティマイゼーション戦略を使用し、サンプリング効率を向上させつつ視覚品質を損なわないようにします。
**適用**:
* **世界一般化**:夢は、アニメーション、ビデオゲーム、AI生成画像など、さまざまなシナリオに素晴らしい一般化を示し、現実と仮想の世界の探索を可能にします。
* **世界編集**:夢はビデオ生成中にGPT-4oなどの画像編集ツールと組み合わせることで、天候、時間、スタイルをリアルタイムで編集することができます。
**主要な利点**:
* **高い視覚品質**:夢は、高度なサンプリング技術と最適化戦略により、最小限のアーティファクトで高品質、リアルなビデオコンテンツを生成します。
* **インタラクティブな探検**:夢は、キーボード入力を使用して仮想環境を探検し、没入感とエキサイティングな体験を提供します。
* **一般化**:夢は多様なシーンとアプリケーションを生成できるため、さまざまな用途に適した多様なツールです。
**将来の方向性**:
* **長いビデオ生成の向上**:夢のAAMモジュールは現在、長いビデオ生成に限界があります。今後はこの問題に対処し、モデルが一貫した長いシーケンスを生成する能力を向上させる取り組みが進められます。
* **制御とインタラクティブ性の強化**:夢はさらに高度な制御メカニズムやインタラクティブな機能を探索し、より複雑でダイナミックな仮想環境を作成するための手段を提供します。
* **他の技術との統合**:夢はバーチャルリアリティ(VR)や拡張現実(AR)などの他の技術と統合され、さらに没入感の高い体験を創出します。
要約すると、夢は革新的なインタラクティブな世界生成モデルであり、さまざまなアプリケーションに大きな可能性を持っています。その革新的な機能と能力は、没入感、リアルな視覚、インタラクティブな仮想環境を作成するための価値あるツールです。
推奨論文
「推論ベースの姿勢推定ベンチマークにおける信頼性の再訪問」
医学における埋め込みモデルの分野指定への進展
顔認識精度に与える顔フィルタの影響を研究するための包括的評価枠組み
時砂並べ:新しい並列ソートアルゴリズムとその実装
他者の心:言語モデルが人間の時的認知を示す方法
予算制約下での長期資産管理のための階層的ディープレインforcement learningフレームワーク
GENIAL: ネットワーク逆転を通じて低消費電力アルゴリズム論理ユニットの生成設計空間探索
トレースノルム収縮係数の計算的側面
最小決定エコー状態ネットワークは、混沌的な動態を学習する際にランダムなレジュスタイルよりも優秀です。
「真空圧縮強化微メートル尺度蒸気セル磁力計」