Zusammenfassung - Das Andere Denken: Wie Sprachmodelle menschliche zeitliche Kognition zeigen
Titel
Das Andere Denken: Wie Sprachmodelle menschliche zeitliche Kognition zeigen
Zeit
2025-07-21 17:59:01
Autor
{"Lingyu Li","Yang Yao","Yixu Wang","Chubo Li","Yan Teng","Yingchun Wang"}
Kategorie
{cs.AI}
Link
http://arxiv.org/abs/2507.15851v1
PDF Link
http://arxiv.org/pdf/2507.15851v1
Zusammenfassung
Diese Studie untersucht, wie große Sprachmodelle (LLMs) menschenähnliche zeitliche Kognition zeigen. Die Forscher verwendeten die Aufgabe der Ähnlichkeitsbeurteilung, um die Paarweisen Ähnlichkeiten zwischen den Jahren von 1525 bis 2524 zu vergleichen. Sie fanden heraus, dass größere Modelle spontan einen subjektiven zeitlichen Referenzpunkt etablieren und dem Weber-Fechner-Gesetz folgen, bei dem die wahrgenommene Distanz logarithmisch komprimiert wird, je weiter die Jahre von diesem Referenzpunkt entfernt sind.
Um die Mechanismen hinter diesem Verhalten zu entdecken, führten die Forscher mehrere Analysen auf neuronaler, repräsentativer und informationeller Ebene durch. Sie identifizierten eine Gruppe von zeitlich bevorzugten Neuronen, die am subjektiven Referenzpunkt minimale Aktivierung zeigen und ein logarithmisches Kodierungsschema implementieren, ähnlich dem, das in biologischen Systemen gefunden wird. Sie fanden auch heraus, dass der Trainingskorpus selbst eine innate, nicht-lineare zeitliche Struktur besitzt, die das Rohmaterial für die interne Konstruktion des Modells liefert.
Die Studie schlägt eine empiristische Perspektive vor, um diese Ergebnisse zu verstehen, bei der die Kognition der LLMs als eine subjektive Konstruktion der äußeren Welt durch ihr internes repräsentatives System betrachtet wird. Diese nuancierte Perspektive impliziert die potenzielle Entstehung fremder kognitiver Rahmenwerke, die Menschen nicht intuitiv vorhersehen können, und weist in Richtung auf eine AI-Alignment-Agenda, die sich auf die Lenkung interner Konstruktionen konzentriert.
Die Ergebnisse der Studie haben Auswirkungen auf die AI-Alignment und das Verständnis von LLMs. Sie suggestieren, dass eine robuste Alignment eine direkte Beteiligung am formativen Prozess erfordert, durch den ein Modells repräsentatives System eine subjektive Weltmodell des äußeren Umfelds aufbaut. Diese Perspektive betont die Bedeutung, die entire Pipeline durch vielfältige Bemühungen wie das Überwachen der emergenten repräsentativen und kognitiven Muster der Modelle, den Aufbau unschädlicher oder formalisierter überprüfbarer Informationsexpositionen, um die AI-Umgebung zu curate, und so weiter, in Betracht zu ziehen.
Empfohlene Papiere
DiffuMeta: Algebraische Sprachmodelle für umgekehrtes Design von Metamaterialien über Diffusions-Transformer
Latente-Raum-gesteuerte Quantifizierung der Biofilm-Bildung mittels zeitrafferbasierter Tropfen-Mikrofludik
(Note: The translation has been adapted to fit the German scientific terminology and syntax.)
A3D-MoE: Beschleunigung großer Sprachmodelle mit Mischung aus Experten durch 3D-heterogene Integration
Online-Submitting- und Bewertungs Systemsdesign für Wettbewerbsoperationen
Adaptive Attention Residual U-Net zur Segmentierung von gekrümmten Strukturen in Fluoreszenzmikroskopien und biomedizinischen Bildern
MMBench-GUI: Hierarchisches Multi-Plattform-Evaluationsrahmenwerk für GUI-Agenten
Gromov-Hausdorff-Abstand zwischen chromatischen Metrik-Paaren und Stabilität des Sechspacks
Ein ultra-niedrigstromverbrauchendes CGRA zur Beschleunigung von Transformers am Rande
Fisher-Score-Abgleich für simulationsbasierte Prognose und Inferenz
SVAgent: KI-Agent für die Verifikation von Hardware-SicherheitsAssertion