Resumen - Latente la dirección de políticas con modelos del mundo preentrenados inmunizados contra el embodiment
Título
Latente la dirección de políticas con modelos del mundo preentrenados inmunizados contra el embodiment
Tiempo
2025-07-17 17:57:57
Autor
{"Yiqi Wang","Mrinal Verghese","Jeff Schneider"}
Categoría
{cs.RO,cs.AI,cs.LG}
Enlace
http://arxiv.org/abs/2507.13340v1
PDF Enlace
http://arxiv.org/pdf/2507.13340v1
Resumen
El documento "Latent Policy Steering with Embodiment-Agnostic Pretrained World Models" presenta un nuevo enfoque para aprender políticas visuomotoras para robots con datos reales limitados. La idea clave es aprovechar datos existentes o de bajo costo de diversas encarnaciones de robots y humanos para entrenar un Modelo del Mundo (WM) que pueda generalizarse a diferentes robots y tareas.
**Contribuciones Clave**:
1. **Modelado del Mundo Inerte (Embodiment-Agnostic World Modeling)**: En lugar de usar acciones de robots directamente, el documento propone usar el flujo óptico como una representación de acción inerte. Esto permite que el WM se pre-entrene en datasets diversos, haciendo que sea más robusto a diferentes encarnaciones de robots y tareas.
2. **Latent Policy Steering (LPS)**: El documento introduce LPS, una técnica que utiliza el WM para guiar la política hacia estados más cercanos a la distribución del dataset y a los estados objetivo. Esto se logra entrenando una función de valor que recompensa los estados similares a los estados expertos del dataset y penaliza los estados que se desvían del dataset.
3. **Experiencias en Mundo Real y Simulación**: El documento demuestra la eficacia del método propuesto tanto en experimentos de simulación como en el mundo real. Muestran que LPS con un WM entrenado con una cantidad pequeña de datos mejora significativamente el rendimiento de la política en comparación con baselines como el Clonamiento de Comportamiento (BC) y el Aprendizaje de Reinforcement Inverso (IQL).
**Metodología**:
1. **Preentrenamiento del Modelo del Mundo**: El documento utiliza un WM preentrenado con flujo óptico como representación de acción. El WM se entrena en datasets diversos, incluyendo datos de robots y datos humanos de juego.
2. **Aprendizaje de la Política**: El documento utiliza una política de clonamiento de comportamiento para aprender la política basada en el dataset.
3. **Latent Policy Steering**: Durante la inferencia, LPS utiliza el WM para simular los estados futuros de la política y guiar la política hacia estados más cercanos a la distribución del dataset y a los estados objetivo.
**Experimentos**:
El documento evalúa el método propuesto tanto en experimentos de simulación como en el mundo real. Compara LPS con baselines como BC e IQL y muestra que LPS mejora significativamente el rendimiento de la política.
**Resultados**:
El documento muestra que LPS con un WM entrenado con una cantidad pequeña de datos mejora significativamente el rendimiento de la política en comparación con baselines como BC e IQL. Esto demuestra la eficacia de aprovechar datos existentes o de bajo costo para entrenar un WM que pueda generalizarse a diferentes robots y tareas.
**Limitaciones y Trabajo Futuro**:
El documento discute algunas limitaciones del método propuesto, como la dependencia de la calidad de los datos de preentrenamiento y la necesidad de un gran dataset para entrenar el WM. El trabajo futuro podría explorar representaciones de acción más escalables y métodos para entrenar el WM con datos limitados.
**En resumen, este documento presenta un enfoque nuevo y efectivo para aprender políticas visuomotoras para robots con datos reales limitados. El método propuesto aprovecha datos existentes o de bajo costo para entrenar un WM que pueda generalizarse a diferentes robots y tareas, y la técnica LPS guía eficazmente la política hacia estados más cercanos a la distribución del dataset y a los estados objetivo. Los resultados demuestran la eficacia del método en experimentos tanto de simulación como en el mundo real**.
Artículos Recomendados
Tiempo de Despertar Mejorado para el Problema del Congelamiento Euclidiano
Superlubricidad del Borofeno: Propiedades Tribológicas en Comparación con el hBN
El Survey de Abundancias Químicas y Mapeo de los Grupos Abiertos: VIII. Análisis de Gradiente Químico Galáctico y Azimutal desde SDSS/MWM DR19
Repensando en la Seguridad de HSM y TPM en la Nube: Ataques del Mundo Real y Defensas de Generación Siguiente
Módulos interferométricos monolíticos para posicionamiento de coordenadas multi-axes con precisión subnanométrica
Una caracterización constructiva de los gráficos uniformemente 4-conectados
Álgoritmos eficientes para cantidades relevantes del modelo de dinámica de opinión Friedkin-Johnsen
Producción de entropía en las paredes de burbujas electroweakas debido a fluctuaciones de campo escalar
Medición selectiva de estados de borde de dispersión de la corona cuántica
Optimización de la Segmentación de HSI basada en DNN para SoC con FPGA para ADS: Un Enfoque Práctico