Resumen - Explicador de Mapeos: Cartografía de Espacios de Embeddings de LLM Utilizando Agentes de Explicación y Verificación Basados en Perturbaciones

Título
Explicador de Mapeos: Cartografía de Espacios de Embeddings de LLM Utilizando Agentes de Explicación y Verificación Basados en Perturbaciones

Tiempo
2025-07-24 17:43:40

Autor
{"Xinyuan Yan","Rita Sevastjanova","Sinie van der Ben","Mennatallah El-Assady","Bei Wang"}

Categoría
{cs.CG,cs.LG}

Enlace
http://arxiv.org/abs/2507.18607v1

PDF Enlace
http://arxiv.org/pdf/2507.18607v1

Resumen

El documento presenta al Explainable Mapper, un marco diseñado para explorar e interpretar las estructuras topológicas de los espacios de embeddings de Modelos de Lenguaje Grandes (LLM). Utiliza gráficos de mapper, una herramienta de análisis y visualización de datos topológicos, para resumir y visualizar los espacios de embeddings. El marco introduce dos tipos de agentes de mapper: Agentes de Explicación y Agentes de Verificación. Estos agentes utilizan técnicas basadas en perturbaciones para generar y verificar explicaciones para elementos de mapper como clusters, conectividad y transiciones. Aquí está un desglose de los puntos clave: **Fondo**: * Los modelos de lenguaje grandes (LLM) producen embeddings de alta dimensionalidad que capturan ricas relaciones semánticas y sintácticas. * Los gráficos de mapper resumen la estructura topológica del espacio de embeddings, donde los nodos representan clusters de embeddings y los aristas conectan vecindades superpuestas. * Explorar estos espacios de embeddings manualmente requiere un esfuerzo humano significativo. **Marco Explainable Mapper**: * **Agentes de Mapper**: * **Agentes de Explicación**: Utilizan técnicas de perturbación para generar explicaciones para elementos de mapper (por ejemplo, clusters, conectividad, transiciones). Pueden resumir, comparar y perturbar elementos de mapper para entender sus propiedades. * **Agentes de Verificación**: Verifican la robustez de las explicaciones generadas aplicando perturbaciones y comparando los resultados. * **Gráficos de Mapper**: Visualizan la estructura topológica del espacio de embeddings, mostrando clusters, conectividad y transiciones. * **Proyección**: Muestra embeddings en un gráfico de dispersión utilizando técnicas de reducción de dimensionalidad como PCA o t-SNE. **Casos de Estudio**: * El marco se demuestra utilizando el modelo BERT, analizando diversas capas y pasos de ajuste fino. * Los casos de estudio incluyen: * Pronombres posesivos: Analizar cómo el BERT ajustado aprende pronombres posesivos en diferentes capas. * Conjunctiones y preposiciones: Explorar las propiedades sintácticas de las conjunctiones y preposiciones en diferentes capas. * Preposiciones temporales: Investigar el uso de preposiciones temporales y sus transiciones a lo largo de las capas. **Beneficios**: * Facilita la exploración e interpretación de los espacios de embeddings de LLM. * Ayuda a los usuarios a comprender las propiedades lingüísticas subyacentes y las estructuras. * Permite la verificación de explicaciones y su robustez. **Trabajo Futuro**: * Aborda las posibles ilusiones en los LLM al incorporar ensembles de explicación y retroalimentación humana. * Refina las técnicas de perturbación para capturar mejor las sutilezas del comportamiento de embeddings. * Automatiza el proceso de verificación para trayectorias e investiga estrategias de validación basadas en gráficos. **En resumen, el Explainable Mapper proporciona una herramienta valiosa para explorar y entender los espacios de embeddings de LLM, permitiendo a los usuarios obtener insights sobre las propiedades lingüísticas y estructuras subyacentes**.


Artículos Recomendados

WIP: Transformando chips falsificados en oportunidades de aprendizaje

Una formulación estabilizada de dos pasos para las ecuaciones de Maxwell en el dominio del tiempo.

Renormalización exacta para las frecuencias de parches en sistemas de inflación

La Ley Strong de Grandes Números para semigrupos aleatorios en espacios Banach uniformemente suaves

Observación de Voltaje No Local a Macroescala y Flujo Hidrodinámico de Electrones a Temperatura Ambiente

Desafíos de seguridad en software cuántico en entornos de computación cuántica compartida

Teoría cuántica del trampa óptica magnética

Orbitas de curvas racionales suaves en superficies de Enriques

El efecto de la plasticidad de la fibra en la formación de dominios en compuestos biológicos blandos -- Parte I: un análisis de bifurcación

Un acelerador de planificación autónoma de rutas con conciencia de sparsity y co-diseño HW/SW y optimización de flujo de datos multi-nivel