Resumen - Yume: Un Modelo Interactivo de Generación de Mundos

Título
Yume: Un Modelo Interactivo de Generación de Mundos

Tiempo
2025-07-23 17:57:09

Autor
{"Xiaofeng Mao","Shaoheng Lin","Zhen Li","Chuanhao Li","Wenshuo Peng","Tong He","Jiangmiao Pang","Mingmin Chi","Yu Qiao","Kaipeng Zhang"}

Categoría
{cs.CV,cs.AI,cs.HC}

Enlace
http://arxiv.org/abs/2507.17744v1

PDF Enlace
http://arxiv.org/pdf/2507.17744v1

Resumen

Yume es un modelo de generación de mundos interactivo e innovador que aprovecha imágenes, texto o videos para crear entornos virtuales inmersivos, dinámicos e interactivos. Este documento presenta una versión previa de Yume, destacando sus características y capacidades clave. **Componentes Principales**: * **Cuantificación del Movimiento de la Cámara**: Yume utiliza una representación cuantizada del movimiento de la cámara, convirtiendo movimientos continuos de la cámara en acciones discretas (por ejemplo, avanzar, girar a la izquierda) para facilitar el control y el entrenamiento. * **Transformadores de Difusión de Videos con Máscaras (MVDT)**: Esta arquitectura mejora la calidad visual mediante la máscara selectiva y el procesamiento de características de entrada, reduciendo artefactos y mejorando la consistencia estructural. * **Samplers Avanzados**: * **Mecanismo de Anulación de Artefactos sin Entrenamiento (AAM)**: Este mecanismo refina la representación latente durante el desenoisado, mejorando la calidad visual y reduciendo artefactos sin entrenamiento adicional. * **Muestreo de Viaje en el Tiempo basado en SDE (TTS-SDE)**: Este método de muestreo innovador mejora la nitidez de los videos y la controlabilidad textual aprovechando la información de etapas de desenoisado posteriores. * **Aceleración del Modelo**: Yume employs una estrategia de co-optimización que integra el destilado adversarial y los mecanismos de almacenamiento en caché para mejorar la eficiencia del muestreo sin comprometer la fidelidad visual. **Aplicaciones**: * **Generalización de Mundo**: Yume demuestra una impresionante generalización a escenarios diversos, incluyendo animación, videojuegos e imágenes generadas por IA, permitiendo la exploración tanto de mundos reales como virtuales. * **Edición de Mundo**: Yume puede combinarse con herramientas de edición de imágenes como GPT-4o para modificar escenas durante la generación de video, permitiendo la edición en tiempo real del clima, la hora y el estilo. **Ventajas Clave**: * **Alta Calidad Visual**: Yume produce contenido de video de alta calidad y realista con mínimos artefactos, gracias a sus técnicas avanzadas de muestreo y estrategias de optimización. * **Exploración Interactiva**: Yume permite a los usuarios explorar e interactuar con entornos virtuales utilizando entradas del teclado, proporcionando una experiencia inmersiva y entretenida. * **Generalizabilidad**: Yume puede generar diversas escenas y aplicaciones, convirtiéndose en una herramienta versátil para varios casos de uso. **Direcciones Futuras**: * **Mejora de la Generación de Longos Videos**: Actualmente, el módulo AAM de Yume tiene limitaciones en la generación de videos largos. En el futuro, se enfocarán en abordar este problema y mejorar la capacidad del modelo para generar secuencias largas coherentes. * **Mejora del Control e Interactividad**: Yume explorará mecanismos de control más avanzados y características interactivas, permitiendo la creación de entornos virtuales más complejos y dinámicos. * **Integración con Otras Tecnologías**: Yume se integrará con otras tecnologías, como la realidad virtual (VR) y la realidad aumentada (AR), para crear experiencias aún más inmersivas. En resumen, Yume es un modelo de generación de mundos interactivo pionero con un inmenso potencial para diversas aplicaciones. Sus características y capacidades innovadoras lo hacen una herramienta valiosa para crear entornos virtuales inmersivos, realistas e interactivos.


Artículos Recomendados

Simulación de movimiento humano de alta fidelidad impulsada por IA generativa

Simulación de Interacciones Binarias-Únicas en Discos de AGN II: Probabilidad de Fusión de Pares de Hielos Negros durante el Proceso Terciario Caótico

DR.EHR: Búsqueda Densa para Registros Clínicos Electrónicos con Inyección de Conocimiento y Datos Sintéticos

Aprender Estructuras de Poles de Estados Hadrónicos mediante Estimación de Incertidumbre Predictiva

Ironman: Acelerando la extensión de Transferencia Obliva para Inteligencia Artificial con Privacidad con Procesamiento de Cercanía a la Memoria

Doble Función: Arquitectura FPGA para Habilitar el Uso Concurrente de Cadenas de LUT y Sumadores

RADAR: Análisis basado en radio para la asociación dinámica y reconocimiento de pseudónimos en VANETs

Predicción del Mortalidad en la Lista de Espera de Trasplante Cardíaco a Través del Tiempo hasta el Evento: Benchmarking con un Nuevo Conjunto de Datos Longitudinales de UNOS

Una desigualdad empirica de Bernstein para datos dependientes en espacios Hilbert y aplicaciones

Las Redes Estatales Echadas Determinísticas Mínimas Superan a los Reservorios Aleatorios en el Aprendizaje de Dinámicas Caóticas