Résumé - SynC : Refinement du dataset de captions d'images synthétiques avec une correspondance un à plusieurs pour le captioning d'images sans apprentissage préalable
Titre
SynC : Refinement du dataset de captions d'images synthétiques avec une correspondance un à plusieurs pour le captioning d'images sans apprentissage préalable
Temps
2025-07-24 17:53:26
Auteur
{"Si-Woo Kim","MinJu Jeon","Ye-Chan Kim","Soeun Lee","Taewhan Kim","Dong-Jin Kim"}
Catégorie
{cs.CV,cs.AI,cs.CL,cs.LG}
Lien
http://arxiv.org/abs/2507.18616v1
PDF Lien
http://arxiv.org/pdf/2507.18616v1
Résumé
Le papier propose SynC, un cadre novateur pour affiner les ensembles de données d'images synthétiques et de descriptions pour le captioning d'images sans apprentissage préalable (ZIC). La principale difficulté abordée est le mal-alignement sémantique entre les images générées et leurs descriptions correspondantes, ce qui peut entraver l'entraînement du modèle.
SynC utilise une stratégie de correspondance un à plusieurs où chaque description récupère plusieurs images candidates à partir du pool d'images pré-généré. Il applique ensuite un scoreur d'alignement inspiré de la cohérence cyclique pour sélectionner la meilleure image en vérifiant sa capacité à récupérer la description originale via la recherche textuelle dans les images. Cette approche permet d'identifier et de conserver les paires d'images-description bien alignées, améliorant ainsi la qualité des données d'entraînement pour les modèles de captioning sans apprentissage préalable.
Le papier présente des évaluations extensives démontrant l'efficacité de SynC sur divers modèles et benchmarks de ZIC, atteignant des résultats de pointe dans plusieurs scénarios. SynC offre une solution pratique pour curer des données synthétiques raffinées pour améliorer le ZIC, en répondant aux défis uniques de la curation des ensembles de données synthétiques pour le ZIC.
Articles Recommandés
DiffuMeta : Modèles de langage algébriques pour la conception inverse de matériaux métamérisés via des transformatteurs de diffusion
Interactions non locales anisotropes de Riesz avec une confinement physique
Application de nouveaux schémas de refroidissement conformaux à l'injection vert des pièces polymériques minces complexes avec de hautes spécifications dimensionnelles
Sur la dynamique non linéaire d'un système magnétique non idéal avec alliage à mémoire de forme pour la captation d'énergie en utilisant les approches de l'exponente d'incertitude et de l'entropie de la cuve d'attraction
Résamplage isotrope avec optimisation inter-angles
RailX : Une architecture de réseau flexible, évolutive et à faible coût pour les systèmes de formation à grande échelle des LLM (Langage de Modèle Hyper)
Les modèles de rotation universels sont des approximateurs universels en apprentissage automatique.
La relation Excentricité-orbite-Rayon pour les planètes orbitant autour des naines brunes M
Optimisation à grande échelle des portefeuilles avec l'annealing neural variationnel
Chaos confiné et déconfiné dans les systèmes de spins classiques