Resumen - El entrenamiento en Visión y Lenguaje ayuda a desplegar el conocimiento taxonómico, pero no lo altera fundamentalmente.

Título
El entrenamiento en Visión y Lenguaje ayuda a desplegar el conocimiento taxonómico, pero no lo altera fundamentalmente.

Tiempo
2025-07-17 17:47:47

Autor
{"Yulu Qin","Dheeraj Varghese","Adam Dahlgren Lindström","Lucia Donatelli","Kanishka Misra","Najoung Kim"}

Categoría
{cs.CL,cs.AI}

Enlace
http://arxiv.org/abs/2507.13328v1

PDF Enlace
http://arxiv.org/pdf/2507.13328v1

Resumen

El artículo investiga el impacto del entrenamiento de visión y lenguaje (VL) en el conocimiento taxonómico de los modelos de lenguaje (LMs). Mientras que estudios anteriores han mostrado diferencias inconsistentes o marginales en las representaciones lingüísticas de los LMs después del entrenamiento VL, este artículo se centra específicamente en el dominio del conocimiento léxico-conceptual y su organización taxonómica. Los autores desarrollaron TaxonomiGQA, una versión de texto del conjunto de datos de respuesta a preguntas visuales GQA, que requiere comprensión taxonómica para responder a preguntas. Compararon el rendimiento de diversas parejas de modelos VLM-LM en TaxonomiGQA y encontraron que la mayoría de los VLMs superaron a sus contrapartes LM, a pesar de que la tarea era puramente de texto. Para explicar este resultado, los autores propusieron dos hipótesis: 1. El entrenamiento VL fundamentalmente altera el conocimiento taxonómico (independiente de la tarea) en los LMs. 2. El entrenamiento VL mejora la capacidad del LM de desplegar su conocimiento taxonómico (principalmente inmutable) en tareas que requieren su uso. A través de una serie de análisis conductuales y representacionales controlados, los autores encontraron evidencia que respalda la segunda hipótesis. Descubrieron que, aunque el conocimiento taxonómico en sí no cambió sustancialmente mediante el entrenamiento VL adicional, este entrenamiento sí mejoró el despliegue de este conocimiento en el contexto de una tarea específica, incluso cuando la presentación de la tarea era puramente lingüística. Los autores llevaron a cabo varias análisis para respaldar sus conclusiones: 1. Desarrollaron Pares Mínimos Taxonómicos (TAXOMPS) para estimular directamente juicios taxonómicos y encontraron que VLMs y LMs tienen un rendimiento similar en esta tarea, lo que sugiere que el entrenamiento VL no altera fundamentalmente el conocimiento taxonómico en los LMs. 2. Analizaron la organización jerárquica de conceptos en los espacios de representación de los modelos y encontraron que la organización jerárquica de conceptos es principalmente compartida entre VLMs y LMs, lo que sugiere adicionalmente que el entrenamiento VL no altera fundamentalmente el conocimiento taxonómico en los LMs. 3. Analizaron las similitudes de embedding de relaciones taxonómicas y encontraron que no hay diferencias significativas entre VLMs y LMs en este aspecto. Los autores también llevaron a cabo una serie de análisis para probar la segunda hipótesis, que se centró en el despliegue del conocimiento taxonómico en el contexto de una tarea específica: 1. Analizaron la similitud de representación contextualizada de conceptos en relaciones taxonómicas y encontraron que los VLMs tienen conexiones más fuertes entre las representaciones del modelo y el comportamiento en contextos de tareas que requieren el despliegue de conocimiento taxonómico. 2. Realizaron un análisis PCA de representaciones de preguntas y encontraron que las distinciones taxonómicas son más linealmente separables en las representaciones de preguntas de los VLMs, lo que sugiere que los VLMs tienen una ventaja sobre los LMs en el despliegue adecuado del conocimiento taxonómico. Finalmente, los autores llevaron a cabo una investigación preliminar para explicar por qué el entrenamiento de visión podría ayudar. Hipotetizaron que la similitud visual entre miembros de una relación hiponímica-hipónima ayudaría a los VLMs a aprender representaciones más útiles de estas palabras para tareas taxonómicas. Encontraron que el éxito comportamental de los VLMs en TaxonomiGQA puede predecirse por la similitud visual entre miembros de una relación taxonómica, y la fuerza de la predicción se modula por la cohesión visual del hipónimo. En conclusión, el artículo demuestra que el entrenamiento VL no altera fundamentalmente el conocimiento taxonómico en los LMs, sino que mejora el despliegue de este conocimiento en el contexto de una tarea específica. Este hallazgo tiene implicaciones para entender el impacto del entrenamiento VL en los LMs y para desarrollar VLMs más efectivos.


Artículos Recomendados

Un Modelo de Fundación para la Precodificación de MIMO Masivo con un Arreglo Adaptativo de Comercio de Tasa-Energía por Usuario

Inestabilidad de curvatura hidrodinámica de partículas motiles en un sustrato

Subconjunto Sensible a Certificados: Realización de Complejidad de Instancia

Datos Atómicos de Lantánidos Calibrados para la Transferencia Radiativa de Kilonovas. I. Estructura Atómica y Opacidades

Superconductividad chirales cerca de un aislante de Chern fraccional

Una teoría bivariante cooperativa derivada de las operaciones de cohomología

Desintegración vestigial del Orden de un Superfluido Atómico Ciral en un Doble Valle de un Difractograma Óptico

Extraer Funciones de Respuesta Dinámica No Lineal desde la Evolución en el Tiempo

El informe meteorológico del JWST: recuperación de variaciones de temperatura, calentamiento de auroras y cobertura de nubes estáticas en SIMP-0136

Efectos de marea en ondas gravitacionales y escalar y flujos a un orden post-Newtoniano en teorías tensor-scalar masivas