Zusammenfassung - Generative AI-getriebene hochauflösende menschliche Bewegungssimulation

Titel
Generative AI-getriebene hochauflösende menschliche Bewegungssimulation

Zeit
2025-07-18 17:24:50

Autor
{"Hari Iyer","Neel Macwan","Atharva Jitendra Hude","Heejin Jeong","Shenghan Guo"}

Kategorie
{cs.AI,cs.CV}

Link
http://arxiv.org/abs/2507.14097v1

PDF Link
http://arxiv.org/pdf/2507.14097v1

Zusammenfassung

Dieses Papier stellt G-AI-HMS vor, ein neuer Rahmen für die hochauflösende menschliche Bewegungssimulation mit generativer KI. Der Rahmen behebt die Einschränkungen bestehender Text-zu-Bewegungsmodelle durch die Integration großer Sprachmodelle (LLMs) wie ChatGPT für die Vorverarbeitung und Standardisierung von Aufgabenanweisungen sowie MotionGPT für die Generierung realistischer menschlicher Bewegungssequenzen. Die Hauptkomponenten von G-AI-HMS sind: * **LLM-basierte Leitfaden generation**: ChatGPT wird verwendet, um freie Aufgabenbeschreibungen in strukturierte Leitfadenanweisungen umzuwandeln, indem Schlüsselwörter aus dem HumanML3D-Datensatz verwendet werden, um sicherzustellen, dass die Eingabesprache mit der Trainingsverteilung des Modells übereinstimmt. * **Bewegungssynthese mit MotionGPT**: Die verbesserten Anweisungen werden verwendet, um entsprechende 3D-Bewegungssimulationen mit MotionGPT zu generieren, der natürliche Sprachanweisungen in Bewegungsfolgen umwandelt, indem er einen VQ-VAE-Tokenizer und ein auf T5 basierendes Sprachmodell verwendet. * **Bewertungsrahmen**: Die generierten Bewegungsfolgen werden mit Referenzdaten menschlicher Bewegungen verglichen, indem MediaPipe für Pose-Estimation und Metriken wie MPJPE, PA-MPJPE und DTW verwendet werden, um räumliche Genauigkeit, Ausrichtung und zeitliche Konsistenz zu bewerten. Die Studie zeigt die Effektivität von G-AI-HMS über acht verschiedene physische Aufgaben hinweg, indem gezeigt wird, dass AI-verbesserte Anweisungen Bewegungsausgaben mit vergleichbarer oder besserer Genauigkeit wie menschlich geschriebene Beschreibungen generieren können, insbesondere in Aufgaben, die sich auf grobmotorische Muster und wiederholte Aktionen beziehen. Allerdings zeigten menschliche Anweisungen Vorteile bei der feingranularen Articulation distaler Gelenke und komplexen Übergängen. Die Studie hebt folgende Beiträge hervor: * Die Identifizierung von Einschränkungen in der Vielfalt der Anweisungen und der generalisierten Verteilung in bestehenden T2M-Modellen und deren Behebung durch AI-verbesserte Leitfäden. * Die Integration von LLM-basierter Leitfaden generation und T2M-basierter Bewegungssynthese zur Verbesserung der Bewegungsqualität. * Die Einführung eines gemeinsam genutzten Bewertungsfrahmens, um AI-verbesserte Bewegungsfolgen mit menschlichen Referenzdaten anhand standardisierter Metriken zu vergleichen. * Die Demonstration der Anpassungsfähigkeit des vorgeschlagenen G-AI-HMS-Frameworks auf mehrere Aufgabenbereiche. * Die Hervorhebung der Bedeutung der Ausrichtung der Anweisungsvokabular mit der Trainingsverteilung des Bewegungsmodells und die Beweisführung, dass AI-verbesserte Anweisungen in den meisten Szenarien menschlich geschriebene Anweisungen übertreffen. Zukünftige Arbeiten beinhalten die Erkundung multimodaler Feintuning-Strategien, die Integration von AI-verbesserten Anweisungen mit menschlichem Loop-Editing und die Erweiterung der Aufgabenvielfalt, um die Generalisierbarkeit und Anwendbarkeit in der Schulung, Simulation und interaktiven Umgebungen zu verbessern.


Empfohlene Papiere

Beobachtung des von Supraleitfähigkeit induzierten Vorsprungsrand-Gaps in Sr-dotierten $\mathrm{La}_{3}\mathrm{Ni}_{2}\mathrm{O}_{7}$-Dünnschichten

Die Suche nach einer gefälschten Klausel in zufälligen (log n)-CNF-Formeln ist für zufällige Kommunikationsalgorithmen schwer.

3DGauCIM: Beschleunigung des statischen/dynamischen 3D-Gaussian-Splatting durch digitale CIM für Echtzeit-Edge-Rendering mit hoher Bildwiederholrate

Suche nach schweren neutralen Leptonen in $π^+$-Zerfällungen in Positronen

Monolithische Interferometermodule für mehrachsiges Koordinatenpositionieren mit Sub-Nanometergenauigkeit

Baryonifikation II: Begrenzung von Rückkopplungen mit Röntgen- und kinematischen Sunyaev-Zel'dovich-Beobachtungen

Eine umfassende Studie über Radialgeschwindigkeitssignale mit ESPRESSO: Präzision auf das 10 cm/s-Niveau heben

Intrasaisonal Äquatoriale Kelvin- und Rossby-Wellen in modernen AI-ML-Modellen

Korrelationen und Quantenkreise mit dynamischer kausaler Ordnung

Zertifikats-sensitives Teilsummenproblem: Realisierung der Instanzkomplexität