Resumen - SIDA: Adaptación de Dominio sin Entrenamiento con Imágenes Sintéticas Driven

Título
SIDA: Adaptación de Dominio sin Entrenamiento con Imágenes Sintéticas Driven

Tiempo
2025-07-24 17:59:36

Autor
{"Ye-Chan Kim","SeungJu Cha","Si-Woo Kim","Taewhan Kim","Dong-Jin Kim"}

Categoría
{cs.CV,cs.AI,cs.LG,cs.MM}

Enlace
http://arxiv.org/abs/2507.18632v1

PDF Enlace
http://arxiv.org/pdf/2507.18632v1

Resumen

El documento propone SIDA, un método de adaptación de dominio sin precedentes y eficiente que aprovecha imágenes sintéticas en lugar de depender de descripciones de texto. Este enfoque tiene como objetivo superar las limitaciones de los métodos impulsados por texto existentes, que luchan por capturar variaciones complejas del mundo real y aumentan significativamente el tiempo de adaptación debido a su proceso de alineación. SIDA consta de tres etapas clave: 1. **Proceso de Generación de Imágenes**: Utiliza un Modelo de Visión y Lenguaje (VLM) para extraer descripciones detalladas de las escenas de las imágenes de origen. Basándose en estas descripciones, genera diversas imágenes sintéticas similares al origen utilizando un generador de imágenes. Luego, aplica la traducción de imágenes para reflejar el estilo del dominio de destino. 2. **Módulos de mezcla de dominio y transferencia de estilo de parche**: Estos módulos utilizan las características de estilo de las imágenes sintéticas para simular diversas intensidades de estilo global y variaciones locales de estilo como en las situaciones del mundo real. La mezcla de dominio combina múltiples estilos para expandir las representaciones intra-dominio, mientras que la transferencia de estilo de parche asigna diferentes estilos a parches individuales. 3. **Etapa de ajuste fino**: Ajusta el modelo introduciendo una función de pérdida de entropía cruzada ponderada basada en información de entropía. Esta función de pérdida subraya el aprendizaje de muestras estilizadas al estilo del destino con alta incertidumbre, permitiendo que el modelo capture mejor los estilos diversos. Experimentos en diversas situaciones de adaptación de dominio sin precedentes demuestran que SIDA supera consistentemente los métodos existentes, especialmente en dominios desafiantes como incendios y tormentas de arena. Esto se atribuye a la eficacia de la mezcla de dominio y la transferencia de estilo de parche para simular variaciones de intensidad de estilo en el mundo real. Contribuciones clave de SIDA: 1. Propone un método de adaptación de dominio sin precedentes eficiente y efectivo que aprovecha imágenes sintéticas en lugar de depender de descripciones de texto. 2. Introduce módulos de mezcla de dominio y transferencia de estilo de parche para simular diversas intensidades de estilo global y variaciones locales de estilo como en las situaciones del mundo real. 3. Logra mejoras significativas en diversas situaciones de adaptación de dominio sin precedentes, especialmente en dominios desafiantes. En resumen, SIDA proporciona una solución prometedora para la adaptación de dominio sin precedentes al aprovechar efectivamente imágenes sintéticas y simular variaciones de intensidad de estilo en el mundo real.


Artículos Recomendados

TrajLens: Análisis Visual para Construir Trayectorias de Desarrollo Celular en Exploración Trans-Sample

Dispositivos de memoria no volátil basados en heteroestructuras de grafeno con programación de puerta flotante superior

El efecto de la plasticidad de la fibra en la formación de dominios en compuestos biológicos blandos -- Parte I: un análisis de bifurcación

Plataforma para la Representación e Integración de Embeddings Multimodales Moleculares

DR.EHR: Búsqueda Densa para Registros Clínicos Electrónicos con Inyección de Conocimiento y Datos Sintéticos

Revisando la Fiabilidad en el Marco de Evaluación de Estimación de Poses Basada en la Razonamiento

CASCADE: Desobfuscador de JavaScript impulsado por LLM en Google

Aumento de Purcell de las corrientes fotogalvánicas en una auto-cavity piroplasmónica de van der Waals

Ironman: Acelerando la extensión de Transferencia Obliva para Inteligencia Artificial con Privacidad con Procesamiento de Cercanía a la Memoria

Hyperones en el foso de los neutrones fríos