Résumé - Yume : Un Modèle de Génération de Mondes Interactifs
Titre
Yume : Un Modèle de Génération de Mondes Interactifs
Temps
2025-07-23 17:57:09
Auteur
{"Xiaofeng Mao","Shaoheng Lin","Zhen Li","Chuanhao Li","Wenshuo Peng","Tong He","Jiangmiao Pang","Mingmin Chi","Yu Qiao","Kaipeng Zhang"}
Catégorie
{cs.CV,cs.AI,cs.HC}
Lien
http://arxiv.org/abs/2507.17744v1
PDF Lien
http://arxiv.org/pdf/2507.17744v1
Résumé
Yume est un modèle innovant de génération de mondes interactifs qui utilise des images, du texte ou des vidéos pour créer des environnements virtuels immersifs, dynamiques et interactifs. Ce document présente une version préliminaire de Yume, mettant en avant ses fonctionnalités et capacités clés.
**Composants principaux** :
* **Quantification du mouvement de la caméra** : Yume utilise une représentation quantifiée du mouvement de la caméra, convertissant les mouvements continus de la caméra en actions discrètes (par exemple, avancer, tourner à gauche) pour une contrôle et une formation plus faciles.
* **Transformateurs de diffusion de vidéos masquées (MVDT)** : Cette architecture améliore la qualité visuelle en masquant et en traitant sélectivement les caractéristiques d'entrée, réduisant les artefacts et améliorant la cohérence structurelle.
* **Samplers avancés** :
* **Mécanisme anti-artefact sans entraînement (AAM)** : Ce mécanisme affine la représentation latente pendant le débruitage, améliorant la qualité visuelle et réduisant les artefacts sans entraînement supplémentaire.
* **Échantillonnage du voyage dans le temps basé sur SDE (TTS-SDE)** : Cette méthode d'échantillonnage innovante améliore la netteté des vidéos et la contrôlabilité textuelle en exploitant les informations des étapes de débruitage ultérieures.
* **Accélération du modèle** : Yume utilise une stratégie de co-optimisation qui intègre la distillation adversaire et les mécanismes de mise en cache pour améliorer l'efficacité de l'échantillonnage sans compromettre la fidélité visuelle.
**Applications** :
* **Généralisation mondiale** : Yume démontre une généralisation impressionnante à diverses situations, y compris l'animation, les jeux vidéo et les images générées par l'IA, permettant l'exploration à la fois des mondes réels et virtuels.
* **Édition mondiale** : Yume peut être combiné avec des outils d'édition d'images comme GPT-4o pour modifier les scènes pendant la génération de vidéo, permettant une édition en temps réel du temps, de la météo et du style.
**Avantages clés** :
* **Haute qualité visuelle** : Yume produit un contenu vidéo de haute qualité et réaliste avec un minimum d'artefacts, grâce à ses techniques d'échantillonnage avancées et à ses stratégies d'optimisation.
* **Exploration interactive** : Yume permet aux utilisateurs d'explorer et d'interagir avec des environnements virtuels à l'aide de saisies au clavier, offrant une expérience immersive et engageante.
* **Généralisabilité** : Yume peut générer diverses scènes et applications, le rendant un outil polyvalent pour divers cas d'utilisation.
** Directions futures** :
* **Génération améliorée de longues vidéos** : Le module AAM de Yume a actuellement des limitations dans la génération de longues vidéos. Les travaux futurs se concentreront sur la résolution de ce problème et sur l'amélioration de la capacité du modèle à générer des séquences longues cohérentes.
* **Contrôle et interactivité améliorés** : Yume explorera des mécanismes de contrôle plus avancés et des fonctionnalités d'interactivité, permettant aux utilisateurs de créer des environnements virtuels plus complexes et dynamiques.
* **Intégration avec d'autres technologies** : Yume sera intégré avec d'autres technologies, telles que la réalité virtuelle (VR) et la réalité augmentée (AR), pour créer des expériences encore plus immersives.
En résumé, Yume est un modèle de génération de mondes interactifs révolutionnaire avec un énorme potentiel pour diverses applications. Ses fonctionnalités et capacités innovantes le rendent un outil précieux pour créer des environnements virtuels immersifs, réalistes et interactifs.
Articles Recommandés
Instabilité dans les processus de vieillissement d'Ostwald
Résilience aux attaques actives dans la 5G : une nouvelle approche de l'authentification et de l'accord sur les clés
Vecchia approximant des processus gaussiens hétéroskedastiques bayésiens
Simulations numériques directes de la vortice Taylor--Green supersonique par l'équation de Boltzmann
Adhésion dépendante de la géométrie dans les élastomères de cristaux liquides monodomaines transparents
Algorithmes de regroupement généralisés pour la théorie de jauge de réseau de Potts
Vers l'apprentissage de la représentation causale temporelle avec la décomposition tensorielle
Problèmes de coloration des bords avec des motifs interdits et couleurs plantées
Un Cadre de Minimisation du Risque Empirique Unifié pour la Supervision Faible Flexible des N-Tuples
Dynamique des solitons cavitaires interagissant