ビジョン・言語・行動モデル - 百科事典

ロボット学習において、ビジョン-言語-行動モデル（VLA）は、視覚、言語、行動を統合する多様な基盤モデルのクラスです。ロボットの周囲の入力画像（またはビデオ）とテキスト指令が与えられた場合、VLAは直接実行可能な低レベルのロボット行動を出力します。これにより、要求されたタスクを完了するために実行できるタスクが生成されます。

VLAは、視覚-言語モデル（VLM、つまり視覚機能を拡張した大規模な言語モデル）を大規模なデータセットで微調整することで構築されます。これらのデータセットは、視覚的観察と言語指令をロボットのトラジェクトリと組み合わせています。これらのモデルは、視覚-言語エンコーダ（典型的にはVLMまたは視覚トランスフォーマー）と行動デコーダを組み合わせています。視覚的観察と自然言語の説明を潜在空間内の分布に変換する視覚-言語エンコーダと、この表現を連続的な出力行動に変換する行動デコーダです。この行動デコーダは、ロボットで直接実行可能な連続的な行動を生成します。

この概念は、2023年7月にGoogle DeepMindによってRT-2、エンドツーエンドの操作タスク用に適応されたVLMで先駆けされました。このモデルは、認識、推論、制御を統合する能力を持っています。

アーキテクチャの概要
VLAsは、2つのステージで構成された共通の高レベルアーキテクチャを共有しています。

第1ステージでは、事前訓練されたVLMが認識と推論のコアとして機能します。VLMは、1つ以上のカメラ画像と言語指令を共有する潜在空間内の言語トークンシークエンスにエンコードします。VLMは、大規模な多様なデータセットで特別に訓練されており、画像理解、視覚的質問応答、推論などの様々なタスクを実行できます。ロボットを直接制御するために、VLMはロボット行動を出力するように拡張する必要があります。

第2ステージでは、行動デコーダがこれらのトークンを連続的なロボットコマンドに変換するシンボルにマッピングします。これらの出力行動は言語トークンと同じように表現されますが、ロボットのエンドエフェクタの自由度（DoF）に特化しています。6-DoFエンドエフェクタを考慮すると、行動空間にはエンドエフェクタの位移（位置と回転）およびグリッパの位置が含まれます。例えば、RT-2では、各行動ベクターはグリッパの状態と終了フラグを含む6-DoFをカバーしており、これらはすべて256のバインドに量子化されます。

VLAsは通常、オフ-the-shelfのVLMに依存しており、ロボットに画像とテキストの事前理解を提供します。トレーニングプロセス中に、モデルは（テキスト指令、視覚的観察、行動トラジェクトリ）の形式で構成されたデータで微調整され、視覚的観察とテキスト指令をロボット行動にマッピングすることを学習します。トレーニングデータセットは、実際のロボットから収集された、人間の遠隔操作、またはシミュレーション環境で生成された合成データからのロボットデモンストレーションで構成されています。エンドツーエンドの学習により、VLAsは本質的に高レベルの概念（例えば、物体カテゴリと空間関係）を低レベルの行動に関連付けることを学習し、伝統的なロボットシステムで典型的な分離を排除します。

= 行動の表現 =
VLAのアーキテクチャの重要な設計選択肢は、ロボット行動がエンコードされる形式です。

ディスクリートトークン出力は、RT-2やOpenVLAなどのVLAで最も一般的な方法であり、各動作プリミティブをディスクリートトークンのシークエンスとして表現します。このようにして、モデルは行動を行動文字列としてエンコードし、VLAモデルはこれらのシークエンスを言語モデルがテキストを生成するように生成します。このトークンベースのアプローチは、同じ出力レイヤーを保持し、トレーニングを単純にします。しかし、連続的なトラジェクトリを語彙シンボルに変換することで、空間精度または時間解像度が制限されることがあります。RT-2は、アクションセグメントの終了をマークするような特別なトークンを使用してこの問題を軽減することを示しました。

連続的な出力（ディフュージョン/フロー）は、π0などのVLAで使用される代替アプローチであり、正確な器用さと高い周波数の制御を実現するために、ディスクリートトークンを放棄して連続的な行動を出力します。これは、行動デコーダとしてのディフュージョンモデルやフローメッチングネットワークを使用することで実現されます。π0は、50Hzまでの連続的な関節トラジェクトリを出力するこの戦術を利用しました。実際には、連続的な出力は、多くの自由度を持つロボットに比べてより良いスケーラビリティを持っています。

= 単一モデル対双系統設計 =

VLAは、単一のエンドツーエンドネットワークまたは二つの連結モデルを使用する双系統として構成できます。

単一モデルの設計は、RT-2、OpenVLA、π0で使用されており、同時にシーンと言語指令を理解して、単一の前向きパスでロボット行動を出力します。これにより、アーキテクチャがシンプルになり、遅延が減少します。

双系統の設計は、HelixやGroot N1で採用されており、アーキテクチャを2つのコンポーネントに分離します。第1コンポーネントは通常、より遅い速度で動作し、入力として受け取った画像観察やテキスト指令を処理します。第2コンポーネントはより高速で動作し、ロボットの行動を出力します。この2つのコンポーネントはエンドツーエンドで訓練されて通信します。この分離により、器用さと遅延が向上しますが、計算複雑さが増加します。

歴史

= 2023 =

ロボティックトランスフォーマー2 (RT-2)
ロボティックトランスフォーマー2（RT-2）は、2023年半ばにGoogle DeepMindによって開発され、ロボット学習におけるビジョン-言語-行動モデルのパラダイムを確立しました。RT-2は、PaLI-XとPaLM-Eの2つの最も進んだVLMを基に、実際のロボットデモンストレーションデータで微調整しています。RT-2は、カメラ画像とテキスト説明がペアになった入力を受け取り、ディスクリートトークンとしてエンコードされたロボット行動を出力します。その前のバージョンであるRT-1は、ロボットデータでのみ訓練されていたため、RT-2は新しいタスクに対する一般化が強化され、連鎖的な思考を使用して多段階の推論が行えるようになりました。

= 2024 =

OpenVLA

OpenVLAは、2024年6月にスタンフォード大学の研究者たちによって提案された7bパラメータのオープンソースVLAモデルです。Open X-Embodimentデータセットで訓練されており、21の機関が協力して1百万以上のエピソードを収集しました。モデルはDINOv2とCLIPを使用して画像特徴を融合し、Llama-2の言語バックボーンと出力するディスクリート行動トークンを出力します。Google DeepMindのRT-2と比較して、OpenVLAはより小さいサイズでありながら、操作タスクのセットに対してRT-2を上回っています。また、パラメータ効率的な微調整方法や量子化をサポートし、リソース制約されたデプロイメントに適しています。

Octo (Open Generalist Policy)

Octoは、UC Berkeleyから発表された軽量のオープンソース一般化ロボットポリシーです。元々はOpen X-Embodimentで訓練されており、より小さな構成（27Mと93Mパラメータ）でリリースされました。Octoは、言語モデルと軽量のコンボベールニューラルネットワークを使用してそれぞれテキスト指令と画像観察をエンコードします。さらに、自己返帰型デコーダの代わりに、連続的な関節トラジェクトリを出力するディフュージョンポリシーを使用します。これにより、動きが滑らかになり、タスクの適応が速くなります。微調整中に、Octoのアーキテクチャが使用するブロック単位の注意構造により、パラメータの変更なしに新しい観察を追加できます。

TinyVLA

TinyVLAは、高速な推論と効率的なトレーニングに設計されたコンパクトなVLAです。TinyVLAは、事前ポリシーを小さな多様なバックボーンで初期化し、その後ロボットデータで微調整することで、計算コストの高い非常に大きなモデルに依存する前の先祖の計算要件と重い依存を解決します。この研究は、アーキテクチャとデータキュレーションに焦点を当てたより効率的なVLAsの可能性を示しました。

π0 (pi-zero)

π0（pi-zero）は、2024年後半にスタートアップのPhysical Intelligenceによって発表された大規模な一般化VLAです。Paligemmaとして事前訓練されたVLMバックボーンは、SigLIPとGemmaエンコーダから構成されており、Open X-Embodimentからロボットトラジェクトリで訓練された行動エキスパートが含まれています。8つの異なるエンブディメントからのロボットトラジェクトリで訓練されたため、異なるエンブディメント間の一般化が可能であり、異なるロボットアーム（シングルアーム、ダブルアーム）を制御し、幅広いタスクを扱うことができます。π0は、行動ヘッドがディフュージョンポリシーを利用する流れマッチングモデルを導入し、50Hzまでの高い周波数の連続的な行動を出力します。π0-FASTは、π0の拡張であり、連続的なトークンを時間領域から周波数領域に変換する新しい時系列圧縮手法である周波数空間行動シークエンストークン化（FAST）を利用しています。

= 2025 =

Helix

Helixは、2025年2月にFigure AIによって発表された、ヒューマノイドロボット向けの一般化VLAです。Helixは、ヒューマノイドの全体の上体（つまり、腕、手、胴、頭、指）を高い周波数で制御できる最初のVLAです。Helixは、2つの補完的なシステムを使用する双系統アーキテクチャを用いており、これらのシステムはエンドツーエンドで通信するために訓練されています。システム2（S2）は、シーン理解と言語理解に特化したインターネット規模のVLMであり、システム1（S1）はS2が生成する潜在表現を連続的なロボット行動に変換する視覚モーターポリシーです。この分離されたアーキテクチャにより、広範な一般化と高速な低レベル制御が実現できます。Helixは、約500時間のロボット遠隔操作と自動生成されたテキスト説明で訓練されています。Helixモデルは、VLAが複雑なエンブディメント（例えば、ヒューマノイド）にスケールする能力を示しました。

GR00T N1

GR00T N1は、2025年3月にNVIDIAによって発表された、ヒューマノイドロボット向けのVLAで、Helixと同じ双系統アーキテクチャを使用しています。GR00T N1は、システム2とシステム1で構成されており、システム2は環境の認識に責任を持ち、システム1は動作を生成します。他のVLAとは異なり、ロボットのトラジェクトリ、人間のビデオ、合成データセットを含む多様なデータのミックスを含んでいます。

Gemini Robotics

Gemini Roboticsは、2025年にGoogle DeepMindによって紹介されたVLAで、Gemini 2.0の機能を拡張しています。Geminiは、テキスト、画像、ビデオ、オーディオなどの多様な多様データを処理できるため、物理的な世界にこれらの機能を拡張することで、ロボットが行動を取ることができます。Gemini 2.0のVLMバックボーンの推論能力と学習された低レベルのロボット行動を組み合わせることで、ロボットが折り紙を折るなどの非常に器用なタスクや、カードで遊ぶなどのタスクを実行できます。モデルは高い一般化能力を持ち、完全に新しいプラットフォームに適応できます。2025年6月に、著者たちは以前のモデルの軽量バージョンであるGemini Robotics On-Deviceをリリースし、低遅延と高信頼性でロボット上でローカルに実行できるように最適化しました。

SmolVLA

SmolVLAは、Hugging Faceによって発表された450百万パラメータのオープンソースコンパクトVLAで、VLAの研究を民主化する試みです。SmolVLAは、コミュニティによって収集およびキュレートされたオープンソースデータセットLeRobotで完全に訓練されています。非常に小さいサイズにもかかわらず、SmolVLAはOcto、OpenVLA、π0などのもっと大きなVLAと比較して同等のパフォーマンスを達成しました。SmolVLAのアーキテクチャは、連続的な制御用にフローメッチングを使用し、VLMバックボーンを行動実行から分離する非同期推論を使用しています。SmolVLAは、単一の消費者GPUで微調整および使用できるように設計されています。

参考情報
ロボット学習
大規模な言語モデル
基盤モデル
自然言語処理

参考文献
Brohan, Anthony; Brown, Noah; Carbajal, Justice; Chebotar, Yevgen; Chen, Xi; Choromanski, Krzysztof; Ding, Tianli; Driess, Danny; Dubey, Avinava (July 28, 2023), RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, arXiv:2307.15818
Black, Kevin; Brown, Noah; Driess, Danny; Esmail, Adnan; Equi, Michael; Finn, Chelsea; Fusai, Niccolo; Groom, Lachy; Hausman, Karol (2024), $π_0$: A Vision-Language-Action Flow Model for General Robot Control, arXiv:2410.24164
Ma, Yueen; Song, Zixing; Zhuang, Yuzheng; Hao, Jianye; King, Irwin (March 4, 2025), A Survey on Vision-Language-Action Models for Embodied AI, arXiv:2405.14093