Résumé - NoHumansRequired : Triplement de Minage d'Images de Haute Qualité Autonome
Titre
NoHumansRequired : Triplement de Minage d'Images de Haute Qualité Autonome
Temps
2025-07-18 17:50:00
Auteur
{"Maksim Kuprashevich","Grigorii Alekseenko","Irina Tolstykh","Georgii Fedorov","Bulat Suleimanov","Vladimir Dokholyan","Aleksandr Gordeev"}
Catégorie
{cs.CV,cs.AI,cs.CL,cs.LG}
Lien
http://arxiv.org/abs/2507.14119v1
PDF Lien
http://arxiv.org/pdf/2507.14119v1
Résumé
Le papier présente NoHumansRequired (NHR), un système innovant de bout en bout pour l'extraction de triplets d'édition d'images de haute qualité à l'aide uniquement d'instructions naturelles. Ce système tire parti du pouvoir des modèles génératifs pour créer des ensembles de données diversifiés et de haute fidélité pour l'entraînement et l'amélioration des algorithmes d'édition d'images.
NHR se compose de plusieurs composants clés :
1. **Module d'ingénierie des prompts** : Ce module génère des prompts de texte vers image (T2I) et d'image vers image (I2I) basés sur les instructions de l'utilisateur. Ces prompts guident le modèle génératif pour produire des images avec des instructions d'édition spécifiques.
2. **Générateur T2I de haute fidélité** : Ce composant utilise un modèle T2I de pointe pour générer des images de haute qualité à partir des prompts T2I.
3. **Éditeur d'images guidé par des instructions** : Ce module applique les instructions d'édition aux images générées, resulting in multiple candidate images.
4. **Pile de validation en plusieurs étapes** : Cette pile assure la qualité des triplets en filtrant les éditions ratées et en sélectionnant les meilleures d'après des métriques de qualité.
Les innovations clés de NHR incluent :
1. **Pipeline de minage de triplets** : Ce pipeline mine automatiquement des triplets d'édition d'images de haute qualité sans annotation humaine. Il génère des images candidates diversifiées et filtre les éditions ratées en fonction des métriques de qualité.
2. **Système de bout en bout** : NHR fonctionne comme un système complet de bout en bout, de la génération des prompts à la validation des triplets finals. Cela simplifie le processus et réduit le besoin d'intervention humaine.
3. **Validateur spécialisé** : NHR utilise un modèle Gemini affiné comme validateur spécialisé pour évaluer la qualité des images générées. Ce modèle est entraîné sur des données annotées par des humains et fournit des évaluations de qualité fiables.
4. **Techniques d'augmentation des données** : NHR utilise diverses techniques d'augmentation des données, telles que l'inversion sémantique et la génération compositionnelle, pour élargir l'ensemble de données et améliorer la diversité des triplets.
Le papier présente également le dataset NHR-Edit, une collection publique de 358k triplets de haute qualité. Cet ensemble de données peut être utilisé pour l'entraînement et l'évaluation des algorithmes d'édition d'images, et il démontre l'efficacité du système NHR.
Dans l'ensemble, NHR représente une avancée significative dans le domaine de l'édition d'images. Il fournit une manière pratique et efficace de générer des ensembles de données de haute qualité pour l'entraînement et l'amélioration des algorithmes d'édition d'images, avec un minimum d'intervention humaine. Ce système a le potentiel de révolutionner la manière dont l'édition d'images est effectuée, en la rendant plus accessible et efficace pour les utilisateurs.
Articles Recommandés
États de chaînes piégés dans la géométrie de l'horloge noire AdS$_5$ : Une voie vers le rayonnement de Hawking
Apprentissage des équations de champ de phase couplées Allen-Cahn et Cahn-Hilliard à l'aide de l'opérateur neural informé par la physique (PINO)
Orbits des courbes rationnelles lisses sur les surfaces d'Enriques
CASCADE : Déboucheur JavaScript déobfusqué alimenté par un LLM chez Google
Conception d'architectures de Multi-Chiplet à Haute Performance et Thermiquement Réalisables grâce à des Intercalaires en Verre Inflexible
Des insights hydrodynamiques impulsent la dynamique du champ de vortices multimodal via l'ingénierie des trajectoires fluides
Un cadre de prévision pour le flux de rayons cosmiques galactiques dans les applications de la météo spatiale
L'hypothèse de l'échelle sérielle
CA-Cut : Coupe-Aligned pour l'Augmentation des Données pour une Navigation sous Canopée Plus Robuste
Aspects computatoires du coefficient de contraction de la norme trace