Zusammenfassung - Latente Politiklenkung mit Embodiment-unabhängigen vortrainierten Weltmodellen

Titel
Latente Politiklenkung mit Embodiment-unabhängigen vortrainierten Weltmodellen

Zeit
2025-07-17 17:57:57

Autor
{"Yiqi Wang","Mrinal Verghese","Jeff Schneider"}

Kategorie
{cs.RO,cs.AI,cs.LG}

Link
http://arxiv.org/abs/2507.13340v1

PDF Link
http://arxiv.org/pdf/2507.13340v1

Zusammenfassung

Das Papier "Latent Policy Steering with Embodiment-Agnostic Pretrained World Models" stellt einen neuen Ansatz zur Lernung visuomotorischer Policies für Roboter mit begrenzten realen Daten vor. Der Schlüsselgedanke besteht darin, bestehende oder kostengünstige Daten aus verschiedenen Roboterrealisierungen und von Menschen zu nutzen, um ein Weltmodell (WM) zu trainieren, das auf verschiedenen Robotern und Aufgaben generalisieren kann. **Hauptbeiträge**: 1. **Embodiment-Agnostisches Weltmodellierung**: Anstatt direkte Roboteraktionen zu verwenden, schlägt das Papier vor, optischen Fluss als embodiment-agnostische Aktionsrepräsentation zu nutzen. Dies ermöglicht es dem WM, auf diversen Datensätzen vorauszutrainieren und wird so robuster gegen verschiedene Roboterrealisierungen und Aufgaben. 2. **Latent Policy Steering (LPS)**: Das Papier introduces LPS, eine Technik, die das WM verwendet, um die Policy zu lenken, damit sie sich in Zuständen befindet, die näher an der Datensatzverteilung und Zielzuständen liegen. Dies wird durch das Training einer Wertfunktion erreicht, die Zustände belohnt, die ähnlich sind zu Expertenzuständen aus dem Datensatz, und Zustände bestraft, die von dem Datensatz abweichen. 3. **Reale Welt und Simulationsversuche**: Das Papier zeigt die Effektivität des vorgeschlagenen Ansatzes sowohl in Simulationen als auch in realen Experimenten. Sie zeigen, dass LPS mit einem WM, der auf einer kleinen Menge an Daten trainiert wurde, die Leistung der Policy gegenüber Baselines wie Behavior Cloning (BC) und Inverse Reinforcement Learning (IQL) erheblich verbessert. **Methodik**: 1. **Weltmodell Vorausbildung**: Das Papier verwendet ein vorausbewertetes WM mit optischen Flüssen als Aktionsrepräsentation. Das WM wird auf diversen Datensätzen trainiert, einschließlich Roboterdatensätzen und menschlichen Daten aus dem Spielen. 2. **Policy Lernen**: Das Papier verwendet eine Verhaltensklonungspolitik, um die Policy basierend auf dem Datensatz zu lernen. 3. **Latent Policy Steering**: Während der Inferenz verwendet LPS das WM, um zukünftige Zustände der Policy zu simulieren und die Policy in Richtung Zustände zu lenken, die näher an der Datensatzverteilung und Zielzuständen liegen. **Experimente**: Das Papier bewertet den vorgeschlagenen Ansatz sowohl in Simulationen als auch in realen Experimenten. Sie vergleichen LPS mit Baselines wie BC und IQL und zeigen, dass LPS die Leistung der Policy erheblich verbessert. **Ergebnisse**: Das Papier zeigt, dass LPS mit einem WM, der auf einer kleinen Menge an Daten trainiert wurde, die Leistung der Policy gegenüber Baselines wie BC und IQL erheblich verbessert. Dies demonstriert die Effektivität, bestehende oder kostengünstige Daten zu nutzen, um ein WM zu trainieren, das auf verschiedenen Robotern und Aufgaben generalisieren kann. **Beschränkungen und zukünftige Arbeiten**: Das Papier diskutiert einige Beschränkungen des vorgeschlagenen Ansatzes, wie die Abhängigkeit von der Qualität der Vortrainingsdaten und den Bedarf an einem großen Datensatz für die WM-Training. Zukünftige Arbeiten könnten mehr skalierbare Aktionsrepräsentationen und Methoden für das WM-Training mit begrenzten Daten untersuchen. **Insgesamt präsentiert dieses Papier einen neuartigen und effektiven Ansatz zur Lernung visuomotorischer Policies für Roboter mit begrenzten realen Daten. Der vorgeschlagene Ansatz nutzt bestehende oder kostengünstige Daten, um ein WM zu trainieren, das auf verschiedenen Robotern und Aufgaben generalisieren kann, und die LPS-Technik lenkt die Policy effektiv in Richtung Zustände, die näher an der Datensatzverteilung und Zielzuständen liegen. Die Ergebnisse demonstrieren die Effektivität des vorgeschlagenen Ansatzes sowohl in Simulationen als auch in realen Experimenten**.


Empfohlene Papiere

Extrahierung von ORR-Katalysator-Informationen für Brennstoffzellen aus wissenschaftlicher Literatur

Positive Pfade in Diffeomorphiegruppen von Mannigfaltigkeiten mit einer Kontaktverteilung

Desorption von CO aus interstellaren eisigen Teilchen durch IR-Excitation von superhydridierten PAHs

Gemini 2.5 Pro in der Lage, Gold bei der IMO 2025 zu gewinnen

Beschreibung der p-Simulation zwischen Theorien

Komputationelle Aspekte des Kontraktionskoeffizienten der Spurnorm

Planeten, die größer als Neptune sind, haben erhöhte Exzentrizitäten.

Adaptive Attention Residual U-Net zur Segmentierung von gekrümmten Strukturen in Fluoreszenzmikroskopien und biomedizinischen Bildern

Multiskalige Phasenoszillationen, die durch Clustersynchronisation im Kernnetzwerk des menschlichen Gehirns hervorgerufen werden

SIDA: synthetische Bildgestützte Zero-shot Domänenanpassung