Résumé - L'entraînement visuel et linguistique aide à déployer la connaissance taxonomique mais ne la modifie pas fondamentalement.
Titre
L'entraînement visuel et linguistique aide à déployer la connaissance taxonomique mais ne la modifie pas fondamentalement.
Temps
2025-07-17 17:47:47
Auteur
{"Yulu Qin","Dheeraj Varghese","Adam Dahlgren Lindström","Lucia Donatelli","Kanishka Misra","Najoung Kim"}
Catégorie
{cs.CL,cs.AI}
Lien
http://arxiv.org/abs/2507.13328v1
PDF Lien
http://arxiv.org/pdf/2507.13328v1
Résumé
L'article investigate l'impact de l'entraînement visuel et linguistique (VL) sur la connaissance taxonomique des modèles de langage (LMs). Bien que des études précédentes aient montré des différences incohérentes ou marginales dans les représentations linguistiques des LMs après un entraînement VL, cet article se concentre spécifiquement sur le domaine de la connaissance lexico-conceptuelle et son organisation taxonomique.
Les auteurs ont développé TaxonomiGQA, une version textuelle du jeu de données GQA visual-question answering, nécessitant une compréhension taxonomique pour répondre aux questions. Ils ont comparé les performances de divers paires de modèles VLM-LM sur TaxonomiGQA et ont trouvé que la plupart des VLMs surpassent leurs homologues LM, malgré le fait que la tâche soit purement textuelle.
Pour expliquer ce résultat, les auteurs ont proposé deux hypothèses :
1. L'entraînement VL modifie fondamentalement la connaissance taxonomique (indépendante de la tâche) des LMs.
2. L'entraînement VL améliore la capacité de l'LM à déployer sa connaissance taxonomique (largement inchangée) dans des tâches nécessitant son utilisation.
Par une série d'analyses comportementales et représentationnelles contrôlées, les auteurs ont trouvé des preuves soutenant la deuxième hypothèse. Ils ont constaté que bien que la connaissance taxonomique elle-même ne change pas substantiellement par l'ajout d'un entraînement VL, l'entraînement VL améliore le déploiement de cette connaissance dans le contexte d'une tâche spécifique, même lorsque la présentation de la tâche est purement linguistique.
Les auteurs ont mené plusieurs analyses pour soutenir leurs conclusions :
1. Ils ont développé des paires minimales taxonomiques (TAXOMPS) pour solliciter directement des jugements taxonomiques et ont trouvé que les VLMs et les LMs se comportent de manière similaire sur cette tâche, ce qui suggère que l'entraînement VL ne modifie pas fondamentalement la connaissance taxonomique des LMs.
2. Ils ont analysé l'organisation hiérarchique des concepts dans les espaces de représentation des modèles et ont trouvé que l'organisation hiérarchique des concepts est principalement partagée entre les VLMs et les LMs, ce qui suggère également que l'entraînement VL ne modifie pas fondamentalement la connaissance taxonomique des LMs.
3. Ils ont analysé les similarités d'embedding des relations taxonomiques et ont trouvé qu'il n'y a pas de différence significative entre les VLMs et les LMs à cet égard.
Les auteurs ont également mené une série d'analyses pour tester la deuxième hypothèse, qui portait sur le déploiement de la connaissance taxonomique dans le contexte d'une tâche spécifique :
1. Ils ont analysé la similarité de représentation contextualisée des concepts dans les relations taxonomiques et ont trouvé que les VLMs ont des connexions plus fortes entre les représentations des modèles et le comportement dans les contextes de tâches nécessitant le déploiement de la connaissance taxonomique.
2. Ils ont effectué une analyse en composantes principales (PCA) des représentations des questions et ont trouvé que les distinctions taxonomiques sont plus séparables linéairement dans les représentations des questions des VLMs, ce qui suggère que les VLMs ont un avantage sur les LMs pour déployer adéquatement la connaissance taxonomique.
Enfin, les auteurs ont mené une enquête préliminaire pour expliquer pourquoi l'entraînement visuel pourrait aider. Ils ont hypothisé que la similarité visuelle entre les membres d'une relation hyperonyme-hyponyme aiderait les VLMs à apprendre des représentations plus utiles de ces mots pour les tâches taxonomiques. Ils ont trouvé que la réussite comportementale des VLMs sur TaxonomiGQA peut être prédite par la similarité visuelle entre les membres d'une relation taxonomique, et la force de la prédiction est modulée par la cohésion visuelle de l'hyperonyme.
En conclusion, l'article démontre que l'entraînement VL ne modifie pas fondamentalement la connaissance taxonomique des LMs mais améliore le déploiement de cette connaissance dans le contexte d'une tâche spécifique. Ce résultat a des implications pour comprendre l'impact de l'entraînement VL sur les LMs et pour développer des VLMs plus efficaces.
Articles Recommandés
AbGen : Évaluation des grands modèles de langage dans la conception et l'évaluation des études d'ablation pour la recherche scientifique
Mise en œuvre de la mitigation des erreurs quantiques par l'annulation d'erreurs aléatoires globales pour l'évolution adiabatique dans le modèle de Schwinger
Des insights hydrodynamiques impulsent la dynamique du champ de vortices multimodal via l'ingénierie des trajectoires fluides
La recherche de clauses faussées dans les (log n)-CNFs aléatoires est difficile pour les communications aléatoires
Efficient Parametric SVD of Koopman Operator for Stochastic Dynamical Systems
SVD paramétrique efficace de l'opérateur de Koopman pour les systèmes dynamiques stochastiques
Clustering des vecteurs hiérarchiques : Théorie et applications
Un cadre bayésien pour l'association des sources des CRUHA et l'inférence des paramètres
La fonction de distribution d'équilibre pour les systèmes fortement non linéaires
Ingénierie locale de contraintes réversibles de $\mathrm{WS}_2$ à l'aide d'un ressort micromécanique
Manœuvres à faible poussée sur une variété de systèmes d'orbites quasi-périodiques