概要 -

タイトル

時間

2025-07-17 17:57:57

著者

{"Yiqi Wang","Mrinal Verghese","Jeff Schneider"}

カテゴリ

{cs.RO,cs.AI,cs.LG}

リンク
http://arxiv.org/abs/2507.13340v1

PDF リンク
http://arxiv.org/pdf/2507.13340v1

概要

論文「Latent Policy Steering with Embodiment-Agnostic Pretrained World Models」は、限られた現実世界のデータでロボットの視覚運動ポリシーを学習するための新しいアプローチを提案しています。主要なアイデアは、多様なロボット実体や人間からの既存のまたはコスト効率の良いデータを利用して、異なるロボットやタスクに対して一般化できる世界モデル（WM）を訓練することです。 **主要な貢献**： 1. **実体無視の世界モデル**: ロボットのアクションを直接使用するのではなく、論文は光流を実体無視のアクション表現として提案しています。これにより、WMは多様なデータセットで事前訓練され、異なるロボット実体やタスクに対してより堅牢になります。 2. **潜在ポリシー誘導（LPS）**: 論文では、WMを使用してポリシーをデータセット分布や目標状態に近い状態に誘導する技術であるLPSを紹介しています。これは、データセットの専門家状態に似た状態を報酬とし、データセットから逸脱する状態を罰する価値関数を訓練することで達成されます。 3. **現実世界とシミュレーション実験**: 論文は、提案された方法がシミュレーションおよび現実世界の実験でどのように効果的であるかを示しています。彼らは、LPSが小さなデータセットで訓練されたWMを使用して、行動克隆（BC）や逆報酬学習（IQL）などの基準と比較して、ポリシーの性能を顕著に向上させると示しています。 **方法論**： 1. **世界モデルの事前訓練**: 論文は、光流を使用した事前訓練されたWMを使用しています。WMは、ロボットデータセットや遊びの人間データを含む多様なデータセットで訓練されます。 2. **ポリシーの学習**: 論文は、データセットに基づいてポリシーを学習するための行動克隆ポリシーを使用しています。 3. **潜在ポリシー誘導**: 推論中に、LPSはWMを使用してポリシーの将来の状態をシミュレートし、データセット分布や目標状態に近い状態に誘導します。 **実験**：論文は、提案された方法をシミュレーションおよび現実世界の実験で評価しています。彼らは、LPSをBCやIQLなどの基準と比較し、LPSがポリシーの性能を顕著に向上させることを示しています。 **結果**：論文は、LPSが小さなデータセットで訓練されたWMを使用して、BCやIQLなどの基準に比べてポリシーの性能を顕著に向上させることを示しています。これは、既存のまたはコスト効率の良いデータを利用して、異なるロボットやタスクに対して一般化できるWMを訓練する利点を示しています。 **限界と今後の研究**：論文は、提案された方法の限界について議論しており、事前訓練データの品質に依存していることや、WMの訓練に大量のデータが必要であることが挙げられています。今後の研究では、よりスケーラブルなアクション表現や、限られたデータでWMを訓練する方法を探ることが有望です。 **全体として、この論文は限られた現実世界のデータでロボットの視覚運動ポリシーを学習するための新規で効果的なアプローチを提案しています。提案された方法は、異なるロボットやタスクに対して一般化できるWMを訓練し、LPS技術がポリシーをデータセット分布や目標状態に近い状態に誘導する効果を示しています。シミュレーションおよび現実世界の実験の結果が、提案された方法の効果を示しています**。

推奨論文

CCL25-Evalタスク10用システムレポート：微細な中国語のヘイトスピーチ認識のためのSRAG-MAV

神経形态計算：時間、空間、エネルギースケーリングのための理論的枠組み

異なるCPUとGPUアーキテクチャにおける行列乗算のエネルギー効率：アイドルへの競走

MCM：MRI中の連続画像を使用したマンゴーに基づく心臓動態追跡

量子回路暗号化に基づく暗号化状態量子コンパイルスキーム

凸二次最大化におけるアクティブセット法の無条件の下界

HTTPを介したバーチャルローカルエリアネットワークによる内部攻撃の起動

多様なAIエージェントを通じて自律的な持続可能性評価に向けて

室温での宏观非局所電圧と流体力学電子流の観測

特徴に戻ってみましょう：ビデオワールドモデルのためのDINO基盤