Modelo de visión-lenguaje-acción - Enciclopedia

En el aprendizaje de robots, un modelo de visión-lenguaje-acción (VLA) es una clase de modelos de bases multimodales que integran visión, lenguaje y acciones. Dada una imagen de entrada (o video) del entorno del robot y una instrucción de texto, un VLA emite directamente acciones de bajo nivel del robot que pueden ejecutarse para completar la tarea solicitada.

Los VLAs se construyen generalmente ajustando un modelo de visión-lenguaje (VLM, es decir, un gran modelo de lenguaje ampliado con capacidades de visión) en un conjunto de datos a gran escala que empareja observaciones visuales e instrucciones de lenguaje con trayectorias robóticas. Estos modelos combinan un codificador de visión-lenguaje (generalmente un VLM o un transformador de visión), que traduce una observación de imagen y una descripción natural del lenguaje en una distribución dentro de un espacio latente, con un decodificador de acciones que transforma esta representación en acciones de salida continuas, directamente ejecutables en el robot.

El concepto fue pionero en julio de 2023 por Google DeepMind con RT-2, un VLM adaptado para tareas de manipulación de extremo a extremo, capaz de unificar percepción, razonamiento y control.

Resumen de la arquitectura
Los VLAs comparten una arquitectura de alto nivel común articulada en dos etapas.

En la primera etapa, un VLM preentrenado actúa como el núcleo de percepción y razonamiento. Codifica una o más imágenes de cámara junto con una instrucción de lenguaje en una secuencia de tokens de lenguaje en un espacio latente compartido. Los VLM se entrenan específicamente en grandes conjuntos de datos multimodales y pueden realizar una variedad de tareas como la comprensión de imágenes, la respuesta a preguntas visuales y el razonamiento. Para controlar directamente a los robots, los VLM deben extenderse para emitir acciones de robots.

En la segunda etapa, un decodificador de acciones mapea esos tokens a símbolos discretos que luego se des_tokenizean en comandos de robot continuos. Estas acciones de salida se representan de la misma manera que los tokens de lenguaje, pero específicamente se refieren al número de grados de libertad (DoF) del extremo efectivo del robot. Considerando un extremo efectivo de 6 DoF, el espacio de acción generalmente incluye desplazamientos del extremo efectivo (posicional y rotacional) y posiciones del agarre. Por ejemplo, en RT-2, cada vector de acción cubre 6 DoF además del estado del agarre y una bandera de finalización, todo cuantificado en 256 intervalos.

Los VLAs suelen depender de VLM de serie, proporcionando al robot un entendimiento previo de imágenes y texto. Durante el proceso de entrenamiento, el modelo se ajusta en datos en la forma de (instrucción de texto, observación visual, trayectoria de acción), y así aprende a mapear observaciones visuales e instrucciones de texto a acciones de robot. El conjunto de datos de entrenamiento consta de demostraciones robóticas que pueden reunirse de robots reales, teleoperación humana o incluso generadas sintéticamente en un entorno de simulación. Debido al aprendizaje de extremo a extremo, los VLAs aprenden intrínsecamente a asociar conceptos de alto nivel (por ejemplo, categorías de objetos y relaciones espaciales) con acciones de bajo nivel, eliminando la partición típica de los sistemas robóticos tradicionales.

= Representación de acciones =
Una elección de diseño crucial para la arquitectura de un VLA es el formato en el que se codifican las acciones del robot.

La salida de tokens discretos es el enfoque más común, utilizado por VLAs como RT-2 y OpenVLA, y representa cada primitiva de movimiento como una secuencia de tokens discretos. De esta manera, el modelo codifica las acciones del robot como una cadena de acción y el modelo de VLA aprende a generar estas secuencias de la misma manera que un modelo de lenguaje genera texto. Este enfoque basado en tokens mantiene la misma capa de salida y hace que el entrenamiento sea sencillo. Sin embargo, convertir trayectorias continuas en símbolos de vocabulario puede limitar la precisión espacial o la resolución temporal. RT-2 demuestra que esto puede mitigarse utilizando tokens especiales que, por ejemplo, marcan el final de un segmento de acción.

La salida continua (difusión/flujos) es un enfoque alternativo utilizado por VLAs como π0 que, para lograr una destreza precisa y un control de alta frecuencia, renuncia a los tokens discretos y emite directamente acciones continuas. Esto se logra mediante el uso de modelos de difusión o redes de coincidencia de flujo que actúan como el decodificador de acciones. π0 explotó esta estrategia para generar trayectorias de articulaciones continuas hasta 50 Hz. Prácticamente, la salida continua tiende a escalarse mejor a robots con muchos grados de libertad, donde la discretización para cada DoF sería inpráctica.

= Diseño de un solo modelo frente a diseño de sistema dual =

Los VLAs pueden organizarse tanto como una red de extremo a extremo única como como un sistema dual que emplea dos modelos acoplados.

El diseño de un solo modelo, utilizado por RT-2, OpenVLA y π0, entiende simultáneamente el escenario e la instrucción de lenguaje para producir acciones de robot en un solo paso adelante, manteniendo la arquitectura simple y reduciendo la latencia.

El diseño de sistema dual, adoptado por Helix y Groot N1, desacopla la arquitectura en dos componentes. El primer componente es generalmente más lento y se encarga de las observaciones de imagen y las instrucciones de texto recibidas como entrada. El segundo componente se ejecuta a una velocidad más rápida y produce las acciones del robot. Los dos componentes se entrenan en extremo a extremo para comunicarse. Este desacoplamiento mejora la destreza y la latencia a cambio de una complejidad computacional mayor.

Historia

= 2023 =

Robotic Transformer 2 (RT-2)
Robotic Transformer 2 (RT-2) fue desarrollado por Google DeepMind a mediados de 2023 y estableció el paradigma de modelo de visión-lenguaje-acción en robótica. Construye sobre dos VLM de vanguardia, PaLI-X y PaLM-E, ajustándolos en datos de demostraciones robóticas reales. RT-2 toma como entrada imágenes de cámara emparejadas con una descripción de texto y emite acciones de robot discretizadas codificadas como tokens discretos. En comparación con su predecesor RT-1, que se entrenó solo en datos robóticos, RT-2 muestra una mejor generalización para nuevas tareas, también capaz de realizar razonamiento en cadena de pensamiento de múltiples pasos.

= 2024 =

OpenVLA

OpenVLA es un modelo de VLA de 7 mil millones de parámetros de código abierto introducido en junio de 2024 por investigadores de Stanford. Fue entrenado en el conjunto de datos Open X-Embodiment, una colaboración entre 21 instituciones que recopiló más de un millón de episodios en 22 diferentes encarnaciones. El modelo fusiona características de imagen utilizando DINOv2 y CLIP, con un esqueleto de lenguaje Llama-2, y emite tokens de acción discretos. A pesar de su menor tamaño con respecto a RT-2 de Google DeepMind, OpenVLA supera a RT-2 en una serie de tareas de manipulación. También admite métodos de ajuste fino eficiente y cuantificación para despliegues con recursos limitados.

Octo (Open Generalist Policy)
Octo es una política robótica generalista de código abierto ligera de la Universidad de California en Berkeley. Originalmente entrenado en Open X-Embodiment, se lanzaron configuraciones más pequeñas (27M y 93M parámetros). Octo codifica instrucciones de texto y observaciones de imagen respectivamente con un modelo de lenguaje y una red neuronal convolucional ligera. Además, en lugar de un decodificador autoregresivo, Octo utiliza una política de difusión que emite trayectorias de articulaciones continuas, permitiendo un movimiento más suave y una adaptación de tareas rápidas. Durante el ajuste fino, la estructura de atención por bloques de la arquitectura empleada por Octo permite agregar nuevas observaciones sin modificar los parámetros.

TinyVLA
TinyVLA es un VLA compacto diseñado para inferencias rápidas y entrenamiento eficiente. TinyVLA aborda los requisitos computacionales y la fuerte dependencia de los datos a gran escala de sus predecesores iniciando la política con un esqueleto multimodal más pequeño y luego ajustándolo en datos robóticos. Este trabajo demostró el potencial para VLAs más eficientes, enfocándose en la arquitectura y la curación de datos sin el costo computacional de modelos muy grandes.

π0 (pi-zero)
π0 (pi-zero) es un VLA generalista a gran escala, anunciado a finales de 2024 por la startup Physical Intelligence. π0 incorpora Paligemma como esqueleto de VLM preentrenado, construido a partir de los encoders SigLIP y Gemma, con un experto de acciones entrenado en trayectorias de robots de Open X-Embodiment. Entrenado en trayectorias de robots de 8 diferentes encarnaciones, es capaz de generalizar entre encarnaciones, controlar diferentes brazos robóticos (de un solo brazo, de dos brazos) y abordar una amplia variedad de tareas. π0 también introdujo el modelo de coincidencia de flujo para generar acciones continuas de alta frecuencia, hasta 50 Hz, mientras que la cabeza de acción aprovecha una política de difusión. π0-FAST, una extensión de π0, aprovecha el enfoque de transformación de serie a dominio de frecuencia (FAST), una nueva técnica de compresión de serie de tiempo que transforma tokens continuos del dominio del tiempo al dominio de la frecuencia utilizando la transformada de coseno discreta.

= 2025 =

Helix
Helix, revelado en febrero de 2025 por Figure AI, es un VLA generalista específicamente diseñado para robots humanoides. Es el primer VLA capaz de controlar a alta frecuencia toda la parte superior del cuerpo humanoide (es decir, brazos, manos, torso, cabeza, dedos). Utiliza una arquitectura de sistema dual, con dos sistemas complementarios entrenados para comunicarse de extremo a extremo. El segundo sistema (S2) es un VLM a escala de internet especializado en comprensión de escenarios y lenguaje, mientras que el primer sistema (S1) es una política visuomotora que traduce las representaciones latentes producidas por S2 en acciones de robot continuas. Esta arquitectura desacoplada permite lograr tanto una generalización amplia como un control de bajo nivel rápido. Helix se entrenó en ~500 horas de teleoperación robótica junto con descripciones de texto generadas automáticamente. El modelo Helix subraya la capacidad de los VLAs para escalar a encarnaciones complejas como los humanoides.

GR00T N1
GR00T N1, lanzado por NVIDIA en marzo de 2025, es un VLA para robots humanoides que adopta la misma arquitectura de sistema dual empleada por Helix. Se compone de un segundo sistema (S2), un VLM responsable de la percepción del entorno, y un primer sistema (S1), que genera acciones motoras. Diferente de otros VLAs, incluye una mezcla heterogénea de datos que comprende trayectorias de robots, videos humanos y conjuntos de datos sintéticos.

Gemini Robotics
Gemini Robotics, introducido en 2025 por Google DeepMind, es un VLA que se construye sobre las capacidades de Gemini 2.0. Mientras que Gemini es intrínsecamente capaz de procesar datos multimodales como texto, imágenes, videos y audio, Gemini Robotics extiende estas capacidades al mundo físico, permitiendo que los robots tomen acciones. Las capacidades de razonamiento del esqueleto de VLM Gemini 2.0, combinadas con acciones de bajo nivel aprendidas, permiten que el robot realice tareas altamente destrechas como plegar origami, así como jugar con cartas. El modelo muestra un alto grado de generalización y es capaz de adaptarse a nuevas plataformas. En junio de 2025, los autores lanzaron Gemini Robotics On-Device, una versión ligera del modelo anterior, optimizada para ejecutarse localmente en un robot real con baja latencia y alta confiabilidad, preservando la destreza.

SmolVLA
SmolVLA es un VLA compacto de código abierto con 450 millones de parámetros lanzado por Hugging Face. Representa un esfuerzo por democratizar la investigación en VLAs. Fue entrenado completamente en LeRobot, un conjunto de datos de código abierto recopilado y curado por la comunidad. A pesar de su tamaño compacto, SmolVLA alcanzó rendimientos comparables con VLAs mucho más grandes como Octo, OpenVLA y π0. La arquitectura de SmolVLA emplea coincidencia de flujo para control continuo y inferencia asíncrona para desacoplar el esqueleto de VLM del ejecución de acciones. SmolVLA puede ajustarse y utilizarse en una GPU de consumo única.

Ver también
Aprendizaje de robots
Gran modelo de lenguaje
Modelo de base
Procesamiento de lenguaje natural

Referencias

Leer más
Brohan, Anthony; Brown, Noah; Carbajal, Justice; Chebotar, Yevgen; Chen, Xi; Choromanski, Krzysztof; Ding, Tianli; Driess, Danny; Dubey, Avinava (28 de julio de 2023), RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, arXiv:2307.15818
Black, Kevin; Brown, Noah; Driess, Danny; Esmail, Adnan; Equi, Michael; Finn, Chelsea; Fusai, Niccolo; Groom, Lachy; Hausman, Karol (2024), $π_0$: A Vision-Language-Action Flow Model for General Robot Control, arXiv:2410.24164
Ma, Yueen; Song, Zixing; Zhuang, Yuzheng; Hao, Jianye; King, Irwin (4 de marzo de 2025), A Survey on Vision-Language-Action Models for Embodied AI, arXiv:2405.14093