Résumé - Simulation de mouvements humains de haute fidélité alimentée par l'IA générative

Titre
Simulation de mouvements humains de haute fidélité alimentée par l'IA générative

Temps
2025-07-18 17:24:50

Auteur
{"Hari Iyer","Neel Macwan","Atharva Jitendra Hude","Heejin Jeong","Shenghan Guo"}

Catégorie
{cs.AI,cs.CV}

Lien
http://arxiv.org/abs/2507.14097v1

PDF Lien
http://arxiv.org/pdf/2507.14097v1

Résumé

Ce document présente G-AI-HMS, un cadre novateur pour la simulation de mouvements humains de haute fidélité utilisant l'intelligence artificielle générative. Le cadre répond aux limites des modèles actuels de conversion texte-mouvement en intégrant des modèles de grande langue (LLM) tels que ChatGPT pour le prétraitement et la standardisation des invites de tâche, et MotionGPT pour générer des séquences de mouvements humains réalistes. Les composants clés de G-AI-HMS sont : * **Génération d'invites basée sur un LLM** : ChatGPT est utilisé pour transformer des descriptions de tâches sous forme libre en invites de guidance structurées en utilisant des mots-clés du jeu de données HumanML3D, assurant que le langage d'entrée est en accord avec la distribution d'entraînement du modèle. * **Synthèse de mouvements utilisant MotionGPT** : Les invites raffinées sont utilisées pour générer des simulations de mouvements 3D correspondantes à l'aide de MotionGPT, qui convertit des invites naturelles en séquences de mouvements en utilisant un tokenizer VQ-VAE et un modèle de langage basé sur T5. * **Cadre d'évaluation** : Les séquences de mouvements générées sont comparées aux données humaines de référence à l'aide de MediaPipe pour l'estimation des poses et des métriques comme MPJPE, PA-MPJPE et DTW pour évaluer l'exactitude spatiale, l'alignement et la cohérence temporelle. L'étude démontre l'efficacité de G-AI-HMS sur huit tâches physiques diverses, montrant que les invites améliorées par l'IA peuvent générer des résultats de mouvements avec une précision comparable ou supérieure aux descriptions écrites par l'homme, en particulier dans les tâches impliquant des schémas de mouvements moteurs grossiers et des actions répétitives. Cependant, les invites humaines ont montré des avantages dans l'articulation fine des articulations distales et les transitions complexes. L'étude met en avant les contributions suivantes : * Identification des limites de la diversité des invites et de la généralisation hors distribution dans les modèles T2M existants et résolution de ces problèmes par l'intermédiaire de guidance améliorée par l'IA. * Intégration de la génération d'invites basée sur un LLM et de la synthèse de mouvements basée sur T2M pour améliorer la qualité des mouvements. * Introduction d'un cadre d'évaluation conjoint pour comparer les séquences de mouvements améliorées par l'IA aux données humaines de référence en utilisant des métriques standardisées. * Démonstration de l'adaptabilité du cadre G-AI-HMS proposé à plusieurs domaines de tâche. * Soulignement de l'importance de l'alignement du vocabulaire des invites avec la distribution d'entraînement du modèle de mouvements et preuve que les invites améliorées par l'IA surpassent les invites écrites par l'homme dans la plupart des cas. Les travaux futurs incluent l'exploration de stratégies de réglage multimodal, l'intégration des invites améliorées par l'IA avec une édition humaine en boucle et l'expansion de la diversité des tâches pour améliorer la généralisabilité et l'applicabilité dans les environnements de formation, de simulation et interactifs.


Articles Recommandés

Publicité sur les recherches Google après l'affaire Dobbs c. Jackson

Sur les prédictions arbitraires à partir de modèles également valides

Assurances-vie: Un regard plus approfondi sur les garanties à paliers, les conceptions de contrats hybrides et la fiscalité

Stabilité de la levitation magnétique rotative

Modules interferométriques monolithiques pour positionnement de coordonnées multi-axes avec une précision de quelques nanomètres

ThinkAct : Raisonnement par Vision-Langage-Action via la Planification Latente Visuelle Renforcée

Score de Fisher pour l'ajustement par simulation et l'inférence

Complexité en circuit monotone de la correspondance

Ironman : Accélérer l'extension de la transmission oblivieuse pour l'IA à la protection de la vie privée avec le traitement en mémoire proche

Utilisation des estimations d'incertitude prédictive pour apprendre les structures des états hadroniques par pôle