Resumen - La otra mente: Cómo los modelos de lenguaje muestran cognición temporal humana

Título
La otra mente: Cómo los modelos de lenguaje muestran cognición temporal humana

Tiempo
2025-07-21 17:59:01

Autor
{"Lingyu Li","Yang Yao","Yixu Wang","Chubo Li","Yan Teng","Yingchun Wang"}

Categoría
{cs.AI}

Enlace
http://arxiv.org/abs/2507.15851v1

PDF Enlace
http://arxiv.org/pdf/2507.15851v1

Resumen

Este estudio investiga cómo los modelos de lenguaje grandes (LLMs) muestran una cognición temporal humana. Los investigadores utilizaron la tarea de juicio de similitud, comparando las similitudes entre pares de años desde 1525 hasta 2524. Encontraron que los modelos más grandes establecen espontáneamente un punto de referencia temporal subjetivo y se adhieren a la ley de Weber-Fechner, donde la distancia percibida se comprime logarítmicamente a medida que los años se alejan de este punto de referencia. Para descubrir los mecanismos detrás de este comportamiento, los investigadores llevaron a cabo múltiples análisis a través de niveles neuronal, representacional e informativo. Identificaron un conjunto de neuronas preferenciales temporales que presentan una activación mínima en el punto de referencia subjetivo e implementan un esquema de codificación logarítmica, similar a lo que se encuentra en sistemas biológicos. También encontraron que el corpus de entrenamiento posee una estructura temporal intrínsecamente no lineal, que proporciona el material raw para la construcción interna del modelo. El estudio propone una perspectiva empiricista para entender estos hallazgos, donde la cognición de los LLMs se ve como una construcción subjetiva del mundo externo por su sistema representacional interno. Esta perspectiva matizada implica la posible emergencia de marcos cognitivos alienígenas que los humanos no pueden predecir intuitivamente, apuntando hacia una dirección para la alineación de IA que se centra en guiar las construcciones internas. Las conclusiones del estudio tienen implicaciones para la alineación de IA y la comprensión de los LLMs. Sugiere que una alineación robusta requiere intervenir directamente en el proceso formativo por el cual el sistema representacional de un modelo construye un modelo subjetivo del mundo externo. Esta perspectiva subraya la importancia de considerar toda la pipeline a través de esfuerzos multi-nivel como monitorear los patrones emergentes de representación y cognición de los modelos, construir exposiciones de información inofensivas o formalizadas y verificables para curar el entorno de la IA, etc.


Artículos Recomendados

Un Modelo de Fundación para la Precodificación de MIMO Masivo con un Arreglo Adaptativo de Comercio de Tasa-Energía por Usuario

VideoITG: Entendimiento Multimodal de Vídeos con Anclaje Temporal Instructivo

Invariantes de álgebras de corrientes torcidas y subálgebras Poisson-comutativas relacionadas

Susurros del Universo Temprano: El Ringdown de los Agujeros Negros Primitivos

Anualidades variables: Un análisis más profundo sobre garantías de ajuste, diseños de contratos híbridos y tributación

Un Marco de Inferencia de DNN de extremo a extremo para el MPSoC neuromórfico SpiNNaker2

3DGauCIM: Acelerando la proyección gaussiana estática/dinámica en 3D mediante CIM digital para renderizado de borde en tiempo real a alta tasa de cuadros

Un acelerador de planificación autónoma de rutas con conciencia de sparsity y co-diseño HW/SW y optimización de flujo de datos multi-nivel

Nuevas Alertas Públicas de Neutrinos para Grupos de Eventos de IceCube

Teoría de Hida superior para las curvas modulares de Drinfeld