Resumen - La otra mente: Cómo los modelos de lenguaje muestran cognición temporal humana
Título
La otra mente: Cómo los modelos de lenguaje muestran cognición temporal humana
Tiempo
2025-07-21 17:59:01
Autor
{"Lingyu Li","Yang Yao","Yixu Wang","Chubo Li","Yan Teng","Yingchun Wang"}
Categoría
{cs.AI}
Enlace
http://arxiv.org/abs/2507.15851v1
PDF Enlace
http://arxiv.org/pdf/2507.15851v1
Resumen
Este estudio investiga cómo los modelos de lenguaje grandes (LLMs) muestran una cognición temporal humana. Los investigadores utilizaron la tarea de juicio de similitud, comparando las similitudes entre pares de años desde 1525 hasta 2524. Encontraron que los modelos más grandes establecen espontáneamente un punto de referencia temporal subjetivo y se adhieren a la ley de Weber-Fechner, donde la distancia percibida se comprime logarítmicamente a medida que los años se alejan de este punto de referencia.
Para descubrir los mecanismos detrás de este comportamiento, los investigadores llevaron a cabo múltiples análisis a través de niveles neuronal, representacional e informativo. Identificaron un conjunto de neuronas preferenciales temporales que presentan una activación mínima en el punto de referencia subjetivo e implementan un esquema de codificación logarítmica, similar a lo que se encuentra en sistemas biológicos. También encontraron que el corpus de entrenamiento posee una estructura temporal intrínsecamente no lineal, que proporciona el material raw para la construcción interna del modelo.
El estudio propone una perspectiva empiricista para entender estos hallazgos, donde la cognición de los LLMs se ve como una construcción subjetiva del mundo externo por su sistema representacional interno. Esta perspectiva matizada implica la posible emergencia de marcos cognitivos alienígenas que los humanos no pueden predecir intuitivamente, apuntando hacia una dirección para la alineación de IA que se centra en guiar las construcciones internas.
Las conclusiones del estudio tienen implicaciones para la alineación de IA y la comprensión de los LLMs. Sugiere que una alineación robusta requiere intervenir directamente en el proceso formativo por el cual el sistema representacional de un modelo construye un modelo subjetivo del mundo externo. Esta perspectiva subraya la importancia de considerar toda la pipeline a través de esfuerzos multi-nivel como monitorear los patrones emergentes de representación y cognición de los modelos, construir exposiciones de información inofensivas o formalizadas y verificables para curar el entorno de la IA, etc.
Artículos Recomendados
Un Modelo de Fundación para la Precodificación de MIMO Masivo con un Arreglo Adaptativo de Comercio de Tasa-Energía por Usuario
VideoITG: Entendimiento Multimodal de Vídeos con Anclaje Temporal Instructivo
Invariantes de álgebras de corrientes torcidas y subálgebras Poisson-comutativas relacionadas
Susurros del Universo Temprano: El Ringdown de los Agujeros Negros Primitivos
Anualidades variables: Un análisis más profundo sobre garantías de ajuste, diseños de contratos híbridos y tributación
Un Marco de Inferencia de DNN de extremo a extremo para el MPSoC neuromórfico SpiNNaker2
3DGauCIM: Acelerando la proyección gaussiana estática/dinámica en 3D mediante CIM digital para renderizado de borde en tiempo real a alta tasa de cuadros
Un acelerador de planificación autónoma de rutas con conciencia de sparsity y co-diseño HW/SW y optimización de flujo de datos multi-nivel
Nuevas Alertas Públicas de Neutrinos para Grupos de Eventos de IceCube
Teoría de Hida superior para las curvas modulares de Drinfeld