概要 - ThinkAct: 强化された視覚的潜在計画を通じてのビジョン-言語-行動推論

タイトル
ThinkAct: 强化された視覚的潜在計画を通じてのビジョン-言語-行動推論

時間
2025-07-22 17:59:46

著者
{"Chi-Pin Huang","Yueh-Hua Wu","Min-Hung Chen","Yu-Chiang Frank Wang","Fu-En Yang"}

カテゴリ
{cs.CV,cs.AI,cs.LG,cs.RO}

リンク
http://arxiv.org/abs/2507.16815v1

PDF リンク
http://arxiv.org/pdf/2507.16815v1

概要

ThinkActは、視覚・言語・行動(VLA)推論タスクにおける高次の推論と低次の行動実行の間のギャップを埋めるための二重システムフレームワークです。その目的は、エージェントが多様な指示を解釈し、長期計画を行い、動的環境で適応的に行動するようにすることです。 ### ThinkActの主要コンポーネント: 1. **多様モーダルLLM**:ThinkActは、体現された推論計画を生成するために多様モーダル大規模言語モデル(MLLM)を使用します。これらの計画は、目標達成と軌道の一致性から得られる行動に一致する視覚的報酬に基づいています。 2. **強化学習**:ThinkActは、MLLMが長期計画を行うようにインセンティブを与えるために強化学習を使用します。目標達成と軌道の一致に基づく行動に一致する視覚的なフィードバック(例えば、目標達成と軌道の一致)を報酬として使用して、計画プロセスを導きます。 3. **視覚的潜在計画**:ThinkActは、中間の推論ステップを視覚的な潜在計画に圧縮します。この潜在表現は、高次の意図をキャプチャし、次の行動モデルを条件付けして、ターゲット環境での堅牢な行動実行を実現します。 4. **行動モデル**:ThinkActは、視覚的計画潜在を行動モデルに接続し、現在の状態と視覚的計画潜在に基づいて実行可能な行動を予測します。 ### ThinkActの利点: - **少訓練適応**:ThinkActは強力な少訓練適応能力を示し、限られたデータで新しいタスクや環境を素早く学習できます。 - **長期計画**:ThinkActは長期計画を可能にし、エージェントが複雑な目標を小さなサブタスクに分割して達成できるようにします。 - **自己修正**:ThinkActは、タスク実行中に失敗を検出し、エラーを修正するために修正計画を生成できます。 ### 应用: ThinkActは、以下のようなさまざまな分野に適用の可能性があります: - **ロボティクス**:ThinkActは、ロボットが複雑なタスク(例えば、物体操作、ナビゲーション、問題解決)を理解し実行できるようにします。 - **バーチャルリアリティ**:ThinkActは、ユーザーがより直感的で自然な方法でバーチャル環境と相互作用できるようにするバーチャルリアリティ体験を強化します。 - **自動車**:ThinkActは、自動車の意思決定能力を向上させ、複雑で動的な環境をナビゲートできるようにします。 ### 結論: ThinkActは、体現されたエージェントが動的環境で複雑なタスクを遂行できるようにする有望なフレームワークです。視覚的およびテキスト的な入力に基づいて推論、計画、行動を実行する能力により、ロボティクス、バーチャルリアリティ、自動車のさまざまな応用において価値のあるツールとなります。


推奨論文

「1-in-3-SATの強いスパーサイズ化:多項式Freiman-Ruzsa」

確定的単純複合体

NoHumansRequired: 自動化高品質画像編集トリプルミニング

ランク5までおよびそれ以上の積分Grothendieck環を分類する

AQUA: 水産養殖・漁業用の大規模言語モデル

SLTarch:ワークロードのバランス崩れとメモリの非正規性を制御して拡張可能なポイントベースのニューラルレンダリングに向けて

柔軟なN-タプル弱い監督のための統一した経験的リスク最小化枠組

ランダムな(log n)-CNF中で偽の節を検索することは、ランダム通信では難しい

PrompTrend:大規模言語モデルのための継続的なコミュニティ主導の脆弱性発見と評価

「意味のある分類に基づくパターソンによるポイントクラウドデータのためのXAI」