Résumé - Yume : Un Modèle de Génération de Mondes Interactifs

Titre
Yume : Un Modèle de Génération de Mondes Interactifs

Temps
2025-07-23 17:57:09

Auteur
{"Xiaofeng Mao","Shaoheng Lin","Zhen Li","Chuanhao Li","Wenshuo Peng","Tong He","Jiangmiao Pang","Mingmin Chi","Yu Qiao","Kaipeng Zhang"}

Catégorie
{cs.CV,cs.AI,cs.HC}

Lien
http://arxiv.org/abs/2507.17744v1

PDF Lien
http://arxiv.org/pdf/2507.17744v1

Résumé

Yume est un modèle innovant de génération de mondes interactifs qui utilise des images, du texte ou des vidéos pour créer des environnements virtuels immersifs, dynamiques et interactifs. Ce document présente une version préliminaire de Yume, mettant en avant ses fonctionnalités et capacités clés. **Composants principaux** : * **Quantification du mouvement de la caméra** : Yume utilise une représentation quantifiée du mouvement de la caméra, convertissant les mouvements continus de la caméra en actions discrètes (par exemple, avancer, tourner à gauche) pour une contrôle et une formation plus faciles. * **Transformateurs de diffusion de vidéos masquées (MVDT)** : Cette architecture améliore la qualité visuelle en masquant et en traitant sélectivement les caractéristiques d'entrée, réduisant les artefacts et améliorant la cohérence structurelle. * **Samplers avancés** : * **Mécanisme anti-artefact sans entraînement (AAM)** : Ce mécanisme affine la représentation latente pendant le débruitage, améliorant la qualité visuelle et réduisant les artefacts sans entraînement supplémentaire. * **Échantillonnage du voyage dans le temps basé sur SDE (TTS-SDE)** : Cette méthode d'échantillonnage innovante améliore la netteté des vidéos et la contrôlabilité textuelle en exploitant les informations des étapes de débruitage ultérieures. * **Accélération du modèle** : Yume utilise une stratégie de co-optimisation qui intègre la distillation adversaire et les mécanismes de mise en cache pour améliorer l'efficacité de l'échantillonnage sans compromettre la fidélité visuelle. **Applications** : * **Généralisation mondiale** : Yume démontre une généralisation impressionnante à diverses situations, y compris l'animation, les jeux vidéo et les images générées par l'IA, permettant l'exploration à la fois des mondes réels et virtuels. * **Édition mondiale** : Yume peut être combiné avec des outils d'édition d'images comme GPT-4o pour modifier les scènes pendant la génération de vidéo, permettant une édition en temps réel du temps, de la météo et du style. **Avantages clés** : * **Haute qualité visuelle** : Yume produit un contenu vidéo de haute qualité et réaliste avec un minimum d'artefacts, grâce à ses techniques d'échantillonnage avancées et à ses stratégies d'optimisation. * **Exploration interactive** : Yume permet aux utilisateurs d'explorer et d'interagir avec des environnements virtuels à l'aide de saisies au clavier, offrant une expérience immersive et engageante. * **Généralisabilité** : Yume peut générer diverses scènes et applications, le rendant un outil polyvalent pour divers cas d'utilisation. ** Directions futures** : * **Génération améliorée de longues vidéos** : Le module AAM de Yume a actuellement des limitations dans la génération de longues vidéos. Les travaux futurs se concentreront sur la résolution de ce problème et sur l'amélioration de la capacité du modèle à générer des séquences longues cohérentes. * **Contrôle et interactivité améliorés** : Yume explorera des mécanismes de contrôle plus avancés et des fonctionnalités d'interactivité, permettant aux utilisateurs de créer des environnements virtuels plus complexes et dynamiques. * **Intégration avec d'autres technologies** : Yume sera intégré avec d'autres technologies, telles que la réalité virtuelle (VR) et la réalité augmentée (AR), pour créer des expériences encore plus immersives. En résumé, Yume est un modèle de génération de mondes interactifs révolutionnaire avec un énorme potentiel pour diverses applications. Ses fonctionnalités et capacités innovantes le rendent un outil précieux pour créer des environnements virtuels immersifs, réalistes et interactifs.


Articles Recommandés

Instabilité dans les processus de vieillissement d'Ostwald

Résilience aux attaques actives dans la 5G : une nouvelle approche de l'authentification et de l'accord sur les clés

Vecchia approximant des processus gaussiens hétéroskedastiques bayésiens

Simulations numériques directes de la vortice Taylor--Green supersonique par l'équation de Boltzmann

Adhésion dépendante de la géométrie dans les élastomères de cristaux liquides monodomaines transparents

Algorithmes de regroupement généralisés pour la théorie de jauge de réseau de Potts

Vers l'apprentissage de la représentation causale temporelle avec la décomposition tensorielle

Problèmes de coloration des bords avec des motifs interdits et couleurs plantées

Un Cadre de Minimisation du Risque Empirique Unifié pour la Supervision Faible Flexible des N-Tuples

Dynamique des solitons cavitaires interagissant