Résumé - L'Autre Esprit : Comment les Modèles Linguistiques Montrent une Cognition Temporelle Humaine

Titre
L'Autre Esprit : Comment les Modèles Linguistiques Montrent une Cognition Temporelle Humaine

Temps
2025-07-21 17:59:01

Auteur
{"Lingyu Li","Yang Yao","Yixu Wang","Chubo Li","Yan Teng","Yingchun Wang"}

Catégorie
{cs.AI}

Lien
http://arxiv.org/abs/2507.15851v1

PDF Lien
http://arxiv.org/pdf/2507.15851v1

Résumé

Cette étude investigate comment les modèles de langage grand (LLM) manifestent une cognition temporelle humaine. Les chercheurs ont utilisé la tâche de jugement de similarité, en comparant les similarités entre les années de 1525 à 2524. Ils ont découvert que les modèles plus grands établissent spontanément un point de référence temporel subjectif et suivent la loi de Weber-Fechner, où la distance perçue est compressée logarithmiquement à mesure que les années s'éloignent de ce point de référence. Pour découvrir les mécanismes derrière ce comportement, les chercheurs ont mené plusieurs analyses à travers les niveaux neuronal, figuratif et informationnel. Ils ont identifié un ensemble de neurones préférentiels temporels qui montrent une activation minimale au point de référence subjectif et mettent en œuvre un schéma de codage logarithmique, similaire à ce que l'on trouve dans les systèmes biologiques. Ils ont également découvert que le corpus d'entraînement lui-même possède une structure temporelle intrinsèque et non linéaire, qui fournit le matériel brut pour la construction interne du modèle. L'étude propose une perspective empiriciste pour comprendre ces résultats, où la cognition des LLM est vue comme une construction subjective du monde extérieur par son système de représentation interne. Cette perspective nuancée implique la potentielle émergence de cadres cognitifs étrangers que les humains ne peuvent pas prédire intuitivement, ouvrant la voie à une direction pour l'alignement de l'IA qui se concentre sur la guidance des constructions internes. Les résultats de cette étude ont des implications pour l'alignement de l'IA et la compréhension des LLM. Elle suggère que l'alignement robuste nécessite d'engager directement avec le processus formatif par lequel le système de représentation d'un modèle construit un modèle de monde subjectif du monde extérieur. Cette perspective met l'accent sur l'importance de considérer l'ensemble du pipeline par des efforts multi-niveaux tels que la surveillance des motifs de représentation et de cognition émergents des modèles, la construction de corpus d'entraînement inoffensifs ou formalisés vérifiables pour curatoriser l'environnement de l'IA, etc.


Articles Recommandés

Inapproximabilité de Treedepth et borne inférieure exponentielle de ETH

Observable des arbres de couverture aléatoires dans un environnement aléatoire

Ironman : Accélérer l'extension de la transmission oblivieuse pour l'IA à la protection de la vie privée avec le traitement en mémoire proche

DENSE : Génération de notes de progression longitudinales avec modélisation temporelle de notes cliniques hétérogènes sur l'ensemble des visites hospitalières

VisionThink : Modèle de langage visuel intelligent et efficace par apprentissage par renforcement

Une étude complète de la supraconductivité bipolaire des liaisons dans une maille triangulaire

Pseudogap dans un isolant cristallin dopé par des métaux désordonnés

Une formulation stabilisée en deux étapes des équations de Maxwell dans le domaine temporel

Une méthode pour corriger la sous-structure des jets à multiples branches en utilisant le plan de jet de Lund

Dynamique spinne-only du modèle non-reciproque multi-espèces de Dicke