Résumé - Déséquilibre dans l'Équilibre : Équilibrage des Concepts En Ligne dans les Modèles de Génération

Titre
Déséquilibre dans l'Équilibre : Équilibrage des Concepts En Ligne dans les Modèles de Génération

Temps
2025-07-17 17:59:47

Auteur
{"Yukai Shi","Jiarong Ou","Rui Chen","Haotian Yang","Jiahao Wang","Xin Tao","Pengfei Wan","Di Zhang","Kun Gai"}

Catégorie
{cs.CV,cs.AI}

Lien
http://arxiv.org/abs/2507.13345v1

PDF Lien
http://arxiv.org/pdf/2507.13345v1

Résumé

L'article "Imbalance in Balance: Online Concept Balancing in Generation Models" par Yukai Shi et al. enquête sur les défis auxquels sont confrontés les modèles de génération pour combiner efficacement des concepts complexes. Les auteurs plongent dans les causes des réponses conceptuelles médiocres et proposent une solution pour résoudre ces problèmes. **Défis dans la composition de concepts** : * **Manque de concepts** : Les modèles manquent souvent des concepts attendus dans l'entrée, conduisant à des images incomplètes ou trompeuses. * **Fuite d'attributs** : Les modèles associent incorrectement des attributs aux sujets, causant des incohérences dans le contenu généré. * **Couplage de concepts** : Les modèles combinent des concepts de manière qui ne fait pas sens, créant des scènes irréalistes ou absurdes. **Facteurs causaux** : Les auteurs ont mené des expériences pour analyser les facteurs influençant la capacité de composition de concepts, y compris : * **Taille du modèle** : Les modèles plus grands tendent à mieux se comporter, mais une fois qu'un certain seuil est atteint, les augmentations supplémentaires de taille ont un impact minime. * **Échelle du jeu de données** : Simplement augmenter la taille du jeu de données ne signifie pas nécessairement améliorer la capacité de composition de concepts. * **Distribution des données** : La distribution des concepts dans les données d'entraînement joue un rôle crucial. Les distributions inégales peuvent conduire à un apprentissage biaisé et à une mauvaise composition de concepts. **Solution proposée : perte IMBA** : Pour traiter le problème de distribution inégale des données, les auteurs proposent la fonction de perte IMBA (Équation conceptuelle). Cette fonction de perte ajuste dynamiquement les poids des différents concepts pendant l'entraînement, assurant une représentation plus équilibrée de tous les concepts dans la compréhension du modèle. **Méthodologie de la perte IMBA** : 1. **Distance IMBA** : Les auteurs introduisent le concept de distance IMBA, qui mesure la proportion de fréquence d'un concept dans le jeu de données. Cette distance est utilisée pour capturer la distribution des données et guider le modèle vers une représentation plus équilibrée des concepts. 2. **Rééquilibrage token par token** : La fonction de perte IMBA applique un rééquilibrage token par token, ajustant les poids des tokens individuels dans le texte d'entrée en fonction de leur distance IMBA. Cela encourage le modèle à s'atteler aux concepts moins fréquents et à réduire l'impact des concepts plus fréquents. 3. **Entraînement en ligne** : La fonction de perte IMBA est conçue pour être en ligne, ce qui signifie qu'elle peut être appliquée sans nécessiter de traitement de jeu de données hors ligne ou de modifications de code extensives. **Évaluation** : Les auteurs ont évalué leur méthode proposée sur trois benchmarks : T2I-CompBench, LC-Mis et Inert-CompBench. Ils ont comparé les performances des modèles entraînés avec la perte IMBA aux modèles entraînés avec des méthodes de base et ont trouvé que la perte IMBA améliorait considérablement la capacité de composition de concepts et a atteint des résultats hautement compétitifs. **Conclusion** : La fonction de perte IMBA est une approche efficace pour traiter le défi de la distribution inégale des données dans les modèles de génération. En promouvant une représentation plus équilibrée des concepts, la fonction de perte IMBA aide à améliorer la capacité des modèles de génération à combiner efficacement des concepts complexes, menant à un contenu généré plus réaliste et cohérent.


Articles Recommandés

Étude des flux non linéaires et des bandes de cisaillement dans les micelles vermiformes sous des conditions variables d'élasticité, de courbure du flux et de chimie des tensio-actifs

Taux fort de conversion pour le test d'hypothèses asymptotiques de type III

Quantification de la formation de biofilm grâce à l'espace latent assisté par microfluidique à goutte résolue temporellement

La recherche de clauses faussées dans les (log n)-CNFs aléatoires est difficile pour les communications aléatoires

Solutions Exactes pour les Distributions Bimodales sous Irradiation Stochastique de Plasma dans les Films Minces

Effets tridimensionnels et des coups de main et lâcher sur un couple d'ailes frétillantes utilisées pour la génération de poussée

VisionThink : Modèle de langage visuel intelligent et efficace par apprentissage par renforcement

Mélange vestigial de l'ordre dans un superfluide atomique chirale dans un réseau optique à deux vallées

Modélisation de surrogate assistée par l'apprentissage automatique avec optimisation multi-objectif et prise de décision pour un réacteur de réformation méthanée à vapeur

Adhésion dépendante de la géométrie dans les élastomères de cristaux liquides monodomaines transparents