Resumen - Yume: Un Modelo Interactivo de Generación de Mundos
Título
Yume: Un Modelo Interactivo de Generación de Mundos
Tiempo
2025-07-23 17:57:09
Autor
{"Xiaofeng Mao","Shaoheng Lin","Zhen Li","Chuanhao Li","Wenshuo Peng","Tong He","Jiangmiao Pang","Mingmin Chi","Yu Qiao","Kaipeng Zhang"}
Categoría
{cs.CV,cs.AI,cs.HC}
Enlace
http://arxiv.org/abs/2507.17744v1
PDF Enlace
http://arxiv.org/pdf/2507.17744v1
Resumen
Yume es un modelo de generación de mundos interactivo e innovador que aprovecha imágenes, texto o videos para crear entornos virtuales inmersivos, dinámicos e interactivos. Este documento presenta una versión previa de Yume, destacando sus características y capacidades clave.
**Componentes Principales**:
* **Cuantificación del Movimiento de la Cámara**: Yume utiliza una representación cuantizada del movimiento de la cámara, convirtiendo movimientos continuos de la cámara en acciones discretas (por ejemplo, avanzar, girar a la izquierda) para facilitar el control y el entrenamiento.
* **Transformadores de Difusión de Videos con Máscaras (MVDT)**: Esta arquitectura mejora la calidad visual mediante la máscara selectiva y el procesamiento de características de entrada, reduciendo artefactos y mejorando la consistencia estructural.
* **Samplers Avanzados**:
* **Mecanismo de Anulación de Artefactos sin Entrenamiento (AAM)**: Este mecanismo refina la representación latente durante el desenoisado, mejorando la calidad visual y reduciendo artefactos sin entrenamiento adicional.
* **Muestreo de Viaje en el Tiempo basado en SDE (TTS-SDE)**: Este método de muestreo innovador mejora la nitidez de los videos y la controlabilidad textual aprovechando la información de etapas de desenoisado posteriores.
* **Aceleración del Modelo**: Yume employs una estrategia de co-optimización que integra el destilado adversarial y los mecanismos de almacenamiento en caché para mejorar la eficiencia del muestreo sin comprometer la fidelidad visual.
**Aplicaciones**:
* **Generalización de Mundo**: Yume demuestra una impresionante generalización a escenarios diversos, incluyendo animación, videojuegos e imágenes generadas por IA, permitiendo la exploración tanto de mundos reales como virtuales.
* **Edición de Mundo**: Yume puede combinarse con herramientas de edición de imágenes como GPT-4o para modificar escenas durante la generación de video, permitiendo la edición en tiempo real del clima, la hora y el estilo.
**Ventajas Clave**:
* **Alta Calidad Visual**: Yume produce contenido de video de alta calidad y realista con mínimos artefactos, gracias a sus técnicas avanzadas de muestreo y estrategias de optimización.
* **Exploración Interactiva**: Yume permite a los usuarios explorar e interactuar con entornos virtuales utilizando entradas del teclado, proporcionando una experiencia inmersiva y entretenida.
* **Generalizabilidad**: Yume puede generar diversas escenas y aplicaciones, convirtiéndose en una herramienta versátil para varios casos de uso.
**Direcciones Futuras**:
* **Mejora de la Generación de Longos Videos**: Actualmente, el módulo AAM de Yume tiene limitaciones en la generación de videos largos. En el futuro, se enfocarán en abordar este problema y mejorar la capacidad del modelo para generar secuencias largas coherentes.
* **Mejora del Control e Interactividad**: Yume explorará mecanismos de control más avanzados y características interactivas, permitiendo la creación de entornos virtuales más complejos y dinámicos.
* **Integración con Otras Tecnologías**: Yume se integrará con otras tecnologías, como la realidad virtual (VR) y la realidad aumentada (AR), para crear experiencias aún más inmersivas.
En resumen, Yume es un modelo de generación de mundos interactivo pionero con un inmenso potencial para diversas aplicaciones. Sus características y capacidades innovadoras lo hacen una herramienta valiosa para crear entornos virtuales inmersivos, realistas e interactivos.
Artículos Recomendados
Simulación de movimiento humano de alta fidelidad impulsada por IA generativa
Simulación de Interacciones Binarias-Únicas en Discos de AGN II: Probabilidad de Fusión de Pares de Hielos Negros durante el Proceso Terciario Caótico
DR.EHR: Búsqueda Densa para Registros Clínicos Electrónicos con Inyección de Conocimiento y Datos Sintéticos
Aprender Estructuras de Poles de Estados Hadrónicos mediante Estimación de Incertidumbre Predictiva
Ironman: Acelerando la extensión de Transferencia Obliva para Inteligencia Artificial con Privacidad con Procesamiento de Cercanía a la Memoria
Doble Función: Arquitectura FPGA para Habilitar el Uso Concurrente de Cadenas de LUT y Sumadores
RADAR: Análisis basado en radio para la asociación dinámica y reconocimiento de pseudónimos en VANETs
Predicción del Mortalidad en la Lista de Espera de Trasplante Cardíaco a Través del Tiempo hasta el Evento: Benchmarking con un Nuevo Conjunto de Datos Longitudinales de UNOS
Una desigualdad empirica de Bernstein para datos dependientes en espacios Hilbert y aplicaciones
Las Redes Estatales Echadas Determinísticas Mínimas Superan a los Reservorios Aleatorios en el Aprendizaje de Dinámicas Caóticas