Resumen - NoHumansRequired: Minado triple de edición de imágenes de alta calidad autónoma
Título
NoHumansRequired: Minado triple de edición de imágenes de alta calidad autónoma
Tiempo
2025-07-18 17:50:00
Autor
{"Maksim Kuprashevich","Grigorii Alekseenko","Irina Tolstykh","Georgii Fedorov","Bulat Suleimanov","Vladimir Dokholyan","Aleksandr Gordeev"}
Categoría
{cs.CV,cs.AI,cs.CL,cs.LG}
Enlace
http://arxiv.org/abs/2507.14119v1
PDF Enlace
http://arxiv.org/pdf/2507.14119v1
Resumen
El artículo presenta NoHumansRequired (NHR), un sistema innovador de extremo a extremo para extraer tríos de edición de imágenes de alta calidad utilizando únicamente instrucciones de lenguaje natural. Este sistema aprovecha el poder de los modelos generativos para crear conjuntos de datos diversos y de alta fidelidad para entrenar y mejorar los algoritmos de edición de imágenes.
NHR consta de varios componentes clave:
1. **Módulo de Ingeniería de Prompts**: Este módulo genera prompts de texto a imagen (T2I) e imagen a imagen (I2I) basados en las instrucciones del usuario. Estos prompts guían al modelo generativo para producir imágenes con instrucciones de edición específicas.
2. **Generador de T2I de Alta Fidelidad**: Este componente utiliza un modelo T2I de vanguardia para generar imágenes de alta calidad a partir de los prompts T2I.
3. **Editor de Imágenes Guiado por Instrucciones**: Este módulo aplica las instrucciones de edición a las imágenes generadas, resultando en múltiples imágenes candidatas.
4. **Pila de Validación de Etapas Múltiples**: Esta pila asegura la calidad de los tríos filtrando las ediciones fallidas y seleccionando los mejores basados en métricas de calidad.
Las innovaciones clave de NHR incluyen:
1. **Pipeline de Minería de Tríos**: Esta pipeline mina automáticamente tríos de edición de imágenes de alta calidad sin anotación humana. Genera imágenes candidatas diversas y filtra las ediciones fallidas basadas en métricas de calidad.
2. **Sistema de extremo a extremo**: NHR opera como un sistema completo de extremo a extremo, desde la generación de prompts hasta la validación de los tríos finales. Esto simplifica el proceso y reduce la necesidad de intervención humana.
3. **Validador Especializado**: NHR utiliza un modelo Gemini afinado como validador especializado para puntuar la calidad de las imágenes generadas. Este modelo se entrena con datos anotados por humanos y proporciona evaluaciones de calidad confiables.
4. **Técnicas de Aumento de Datos**: NHR emplea diversas técnicas de aumento de datos, como inversión semántica y generación composicional, para expandir el conjunto de datos y mejorar la diversidad de los tríos.
El artículo también presenta el conjunto de datos NHR-Edit, una colección pública de 358k tríos de alta calidad. Este conjunto de datos puede ser utilizado para entrenar y evaluar algoritmos de edición de imágenes, y demuestra la eficacia del sistema NHR.
En resumen, NHR representa un progreso significativo en el campo de la edición de imágenes. Proporciona una manera práctica y eficiente de generar conjuntos de datos de alta calidad para entrenar y mejorar los algoritmos de edición de imágenes, con mínima intervención humana. Este sistema tiene el potencial de revolucionar la forma en que se realiza la edición de imágenes, haciendo que sea más accesible y eficiente para los usuarios.
Artículos Recomendados
3DGauCIM: Acelerando la proyección gaussiana estática/dinámica en 3D mediante CIM digital para renderizado de borde en tiempo real a alta tasa de cuadros
Residuos de Potencias Primas y Conjuntos de Bloqueo
Arrancar el Punto Crítico Cuántico Desconfinado Más Simples
Agentar-DeepFinance-300K: Un Gran Conjunto de Datos Financieros mediante Optimización Sistemática de Síntesis de Cadena de Pensamiento
RADAR: Análisis basado en radio para la asociación dinámica y reconocimiento de pseudónimos en VANETs
Aumento de Purcell de las corrientes fotogalvánicas en una auto-cavity piroplasmónica de van der Waals
Anualidades variables: Un análisis más profundo sobre garantías de ajuste, diseños de contratos híbridos y tributación
El efecto de la plasticidad de la fibra en la formación de dominios en compuestos biológicos blandos -- Parte I: un análisis de bifurcación
Transiciones de fase y rompimiento espontáneo de simetría en la teoría renormalizada de Ginzburg-Landau
Aprendizaje de Recuperación Mejorado para la Alineación y Fusión Visual-Texto en la Generación de Informes de Radiología