Zusammenfassung - Visions- und Sprachtraining hilft beim Einführen taxonomischen Wissens, aber ändert es nicht grundlegend.

Titel
Visions- und Sprachtraining hilft beim Einführen taxonomischen Wissens, aber ändert es nicht grundlegend.

Zeit
2025-07-17 17:47:47

Autor
{"Yulu Qin","Dheeraj Varghese","Adam Dahlgren Lindström","Lucia Donatelli","Kanishka Misra","Najoung Kim"}

Kategorie
{cs.CL,cs.AI}

Link
http://arxiv.org/abs/2507.13328v1

PDF Link
http://arxiv.org/pdf/2507.13328v1

Zusammenfassung

Das Papier untersucht den Einfluss der Vision-und-Language-(VL)-Training auf das taxonomische Wissen von Sprachmodellen (LMs). Während frühere Studien inhomogene oder marginal unterschiedliche sprachliche Darstellungen von LMs nach VL-Training gezeigt haben, konzentriert sich dieses Papier speziell auf den Bereich des lexikalisch-konzeptionellen Wissens und seiner taxonomischen Organisation. Die Autoren haben TaxonomiGQA entwickelt, eine textbasierte Version der GQA visuellen Frage-Antwort-Datenbank, die taxonomisches Verständnis erfordert, um Fragen zu beantworten. Sie haben die Leistung verschiedener VLM-LM-Modellpaare auf TaxonomiGQA verglichen und festgestellt, dass die meisten VLMs ihre LM-Gegenspieler übertroffen haben, despite the task being purely text-based. Um dieses Ergebnis zu erklären, haben die Autoren zwei Hypothesen aufgestellt: 1. VL-Training verändert grundlegend das (aufgabenunabhängige) taxonomische Wissen in LMs. 2. VL-Training verbessert die Fähigkeit des LM, sein (größtenteils unverändertes) taxonomische Wissen in Aufgaben einzusetzen, die seine Nutzung erfordern. Durch eine Reihe kontrollierter verhaltens- und repräsentationsbasierter Analysen haben die Autoren Beweise für die zweite Hypothese gefunden. Sie haben festgestellt, dass sich das taxonomische Wissen selbst durch zusätzliche VL-Training nicht erheblich verändert hat, VL-Training hat jedoch die Nutzung dieses Wissens im Kontext einer spezifischen Aufgabe verbessert, selbst wenn die Darstellung der Aufgabe rein sprachlich war. Die Autoren haben mehrere Analysen durchgeführt, um ihre Schlussfolgerungen zu unterstützen: 1. Sie haben Taxonomische Minimal Paare (TAXOMPS) entwickelt, um taxonomische Urteile direkt zu erfragen und haben festgestellt, dass VLMs und LMs in dieser Aufgabe ähnlich abschneiden, was darauf hindeutet, dass VL-Training das taxonomische Wissen in LMs nicht grundlegend verändert. 2. Sie haben die hierarchische Organisation von Konzepten in den repräsentativen Räumen der Modelle analysiert und festgestellt, dass die hierarchische Organisation von Konzepten zwischen VLMs und LMs hauptsächlich gemeinsam ist, was ebenfalls darauf hindeutet, dass VL-Training das taxonomische Wissen in LMs nicht grundlegend verändert. 3. Sie haben die Embedding-Similaritäten taxonomischer Beziehungen analysiert und festgestellt, dass zwischen VLMs und LMs keine signifikanten Unterschiede in dieser Hinsicht bestehen. Die Autoren haben auch eine Reihe von Analysen durchgeführt, um die zweite Hypothese zu testen, die sich auf die Nutzung des taxonomischen Wissens im Kontext einer spezifischen Aufgabe konzentrierte: 1. Sie haben die kontextualisierte Repräsentationssimilarität von Konzepten in taxonomischen Beziehungen analysiert und festgestellt, dass VLMs stärkere Verbindungen zwischen Modellrepräsentationen und Verhalten in Aufgabenkontexten haben, die die Nutzung des taxonomischen Wissens erfordern. 2. Sie haben eine PCA-Analyse der Fragerepräsentationen durchgeführt und festgestellt, dass taxonomische Unterschiede in den Fragerepräsentationen der VLMs linearer trennbar sind, was darauf hindeutet, dass VLMs gegenüber LMs im adäquaten Einsetzen des taxonomischen Wissens einen Vorteil haben. Schließlich haben die Autoren eine vorläufige Untersuchung durchgeführt, um zu erklären, warum Visionstraining helfen könnte. Sie haben die Hypothese aufgestellt, dass visuelle Ähnlichkeiten zwischen Mitgliedern einer Hyperonym-Hyponym-Beziehung helfen könnten, VLMs nützlichere Repräsentationen dieser Wörter für taxonomische Aufgaben zu lernen. Sie haben festgestellt, dass der Erfolg der VLMs auf TaxonomiGQA durch die visuelle Ähnlichkeit zwischen Mitgliedern einer taxonomischen Beziehung vorhergesagt werden kann, und die Vorhersagestärke wird durch die visuelle Kohärenz des Hyperonyms moduliert. Zusammenfassend zeigt das Papier, dass VL-Training das taxonomische Wissen in LMs nicht grundlegend verändert, sondern die Nutzung dieses Wissens im Kontext einer spezifischen Aufgabe verbessert. Dieses Ergebnis hat Auswirkungen auf das Verständnis des Einflusses von VL-Training auf LMs und die Entwicklung effektiverer VLMs.


Empfohlene Papiere

Beschränkte Graph-Lie-Algebren in gerader Charakteristik

Lernen der gekoppelten Allen-Cahn- und Cahn-Hilliard-Phasenfeldgleichungen mittels Physics-informed Neural Operator (PINO)

Rubriken als Belohnungen: Verstärkungslernen jenseits überprüfbarer Domänen

Kubo-Martin-Schwinger-Beziehung für Energietypische Zustände quantenmechanischer Vielkörpersysteme mit SU(2)-Symmetrie

Die Empfindlichkeit von Flüssigkristalldetektoren für CP-Violation durch atmosphärische Neutrinos

Robuste Lindbladian-Schätzung für Quantendynamik

Grapheneuralnetzwerk-Surrogaten für den Kontakt mit deformierbaren Körpern mit notwendiger und ausreichender Kontakt detention

Plattform zur Repräsentation und Integration mehrmodaler molekularer Eintauchungen

Groß angelegte Portfolioberechnung mit variabler neuraler Abkühlung

Unbesetztes Supraleitverhalten in 4H$_{b}$-TaS$_{2}$ mit gebrochener Zeitumkehrsymmetrie