Résumé - pilotage politique latent avec des modèles mondiaux prédéfinis agnostiques à l'égard de l'incarnation
Titre
pilotage politique latent avec des modèles mondiaux prédéfinis agnostiques à l'égard de l'incarnation
Temps
2025-07-17 17:57:57
Auteur
{"Yiqi Wang","Mrinal Verghese","Jeff Schneider"}
Catégorie
{cs.RO,cs.AI,cs.LG}
Lien
http://arxiv.org/abs/2507.13340v1
PDF Lien
http://arxiv.org/pdf/2507.13340v1
Résumé
L'article "Latent Policy Steering with Embodiment-Agnostic Pretrained World Models" présente une approche novatrice pour apprendre des politiques visuomotrices pour les robots avec des données réelles limitées. L'idée clé consiste à tirer parti des données existantes ou rentables provenant de diverses incarnations de robots et d'humains pour entraîner un Modèle du Monde (WM) qui puisse généraliser sur différents robots et tâches.
**Contributions Clés** :
1. **Modélisation du Monde Indépendante de l'Incarnation** : Au lieu d'utiliser des actions robotiques directement, l'article propose d'utiliser le flux optique comme une représentation d'action indépendante de l'incarnation. Cela permet au WM d'être pré-entraîné sur divers ensembles de données, ce qui le rend plus robuste face à différentes incarnations de robots et tâches.
2. **Latent Policy Steering (LPS)** : L'article introduit LPS, une technique qui utilise le WM pour guider la politique vers des états plus proches de la distribution de l'ensemble de données et des états cibles. Cela est réalisé en entraînant une fonction de valeur qui récompense les états similaires aux états experts de l'ensemble de données et pénalise les états qui s'écartent de l'ensemble de données.
3. **Expériences Réelles et en Simulation** : L'article montre l'efficacité de la méthode proposée à la fois en simulation et dans des expériences réelles. Ils montrent que LPS avec un WM entraîné sur une petite quantité de données améliore considérablement la performance de la politique par rapport aux baselines comme le Copiage Comportemental (BC) et l'Apprentissage par Récompense Inversée (IQL).
**Méthodologie** :
1. **Pré-entraînement du Modèle du Monde** : L'article utilise un WM pré-entraîné avec le flux optique comme représentation d'action. Le WM est entraîné sur divers ensembles de données, y compris des ensembles de données de robots et des données humaines provenant de jeux.
2. **Apprentissage de la Politique** : L'article utilise une politique de copiage comportemental pour apprendre la politique sur la base de l'ensemble de données.
3. **Latent Policy Steering** : Pendant l'inference, LPS utilise le WM pour simuler les états futurs de la politique et diriger la politique vers des états plus proches de la distribution de l'ensemble de données et des états cibles.
**Expériences** :
L'article évalue la méthode proposée à la fois en simulation et dans des expériences réelles. Ils comparent LPS avec des baselines comme BC et IQL et montrent que LPS améliore considérablement la performance de la politique.
**Résultats** :
L'article montre que LPS avec un WM entraîné sur une petite quantité de données améliore considérablement la performance de la politique par rapport aux baselines comme BC et IQL. Cela démontre l'efficacité de l'utilisation de données existantes ou rentables pour entraîner un WM qui peut généraliser sur différents robots et tâches.
**Limitations et Travaux Futurs** :
L'article discute de certaines limitations de la méthode proposée, telles que la dépendance à la qualité des données de pré-entraînement et le besoin d'un grand ensemble de données pour l'entraînement du WM. Les travaux futurs pourraient explorer des représentations d'action plus scalables et des méthodes pour entraîner le WM avec des données limitées.
**Dans l'ensemble, cet article présente une approche novatrice et efficace pour apprendre des politiques visuomotrices pour les robots avec des données réelles limitées. La méthode proposée tire parti des données existantes ou rentables pour entraîner un WM qui peut généraliser sur différents robots et tâches, et la technique LPS guide efficacement la politique vers des états plus proches de la distribution de l'ensemble de données et des états cibles. Les résultats démontrent l'efficacité de la méthode proposée à la fois en simulation et dans des expériences réelles**.
Articles Recommandés
Une suite d'espaces métriques compacts et une immersion isométrique dans l'espace de Gromov-Hausdorff.
La sensibilité des détecteurs à scintillateurs liquides à la violation de CP avec des neutrinos atmosphériques
Mesure des inégalités de temps et de Leggett-Garg par des méthodes non invasives sur des ordinateurs quantiques publics
Étudier les séquences d'auto-localisation et de synchronisation pour les Machines à États Finis Tempsés avec des délais de sortie
Modèle IA Pré-Entraîné Assistant la Prise de Décision En Ligne en Présence de Variables Indépendantes Manquantes : Une Perspective Théorique
Exploration des spectres primordiaux à petite échelle par les ondes gravitationnelles tensor-scalar induites
Sous le titre "Chuchotements de l'Univers Primitif : L'Écroulement des trous noirs primordiaux"
Circuits p-Économes en Énergie pour les Réseaux de Neurones Génératifs
SIDA: Adaptation de Domaine sans Échantillons Synthétiques Basée sur des Images
Des insights hydrodynamiques impulsent la dynamique du champ de vortices multimodal via l'ingénierie des trajectoires fluides