Zusammenfassung - Formel Eins: Die Tiefe des algorithmischen Denkens messen jenseits des Wettbewerbsprogrammierens

Titel
Formel Eins: Die Tiefe des algorithmischen Denkens messen jenseits des Wettbewerbsprogrammierens

Zeit
2025-07-17 17:53:55

Autor
{"Gal Beniamini","Yuval Dor","Alon Vinnikov","Shir Granot Peled","Or Weinstein","Or Sharir","Noam Wies","Tomer Nussbaum","Ido Ben Shaul","Tomer Zekharya","Yoav Levine","Shai Shalev-Shwartz","Amnon Shashua"}

Kategorie
{cs.AI,cs.CC,math.LO}

Link
http://arxiv.org/abs/2507.13337v1

PDF Link
http://arxiv.org/pdf/2507.13337v1

Zusammenfassung

FormulaOne ist ein Maßstab, der darauf abzielt, die Tiefe algorithmischer Reasoning in künstlichen Intelligenzmodellen zu messen, und konzentriert sich auf reale Forschungsprobleme anstelle erfundener Wettbewerbsprogrammierpuzzles. Der Maßstab liegt an der Schnittstelle zwischen Graphentheorie, Logik und Algorithmen, allesamt innerhalb der Trainingsverteilung von Vorderfrontmodellen. Das Datenset besitzt drei wesentliche Eigenschaften: 1. Es ist kommerziell relevant und bezieht sich auf praktische großskalige Optimierungsprobleme, wie Routing, Zeitplanung und Netzwerkentwurf. 2. Es wird aus dem hochausdrucksstarken Rahmen der Monadischen Zweiten Ordnung (MSO) Logik auf Graphen generiert, was den Weg für automatische Problemgenerierung in Massstab ebnet. 3. Viele der Probleme sind eng mit den Grenzen der theoretischen Informatik und zentralen Annahmen wie der Starken Exponentialzeit-Hypothese (SETH) verbunden. Die Probleme in FormulaOne sind außergewöhnlich anspruchsvoll und erfordern eine Vielzahl von Reasoning-Schritten, darunter topologische und geometrische Erkenntnisse, mathematisches Wissen, kombinatorische Überlegungen, genaue Implementierung und mehr. Moderne Modelle wie OpenAI's o3 versagen völlig in FormulaOne, lösen weniger als 1% der Fragen, selbst wenn 10 Versuche und explanatory fewshot Beispiele vorgegeben werden. Dies unterstreicht, wie weit diese Modelle von einem expertenniveau in bestimmten Domänen entfernt sind. FormulaOne besteht aus einer breiten Palette von dynamischen Programmierungsproblemen auf Graphen, die mithilfe der Monadischen Zweiten Ordnung (MSO) Logik generiert werden. Die Probleme sind darauf ausgelegt, die Beherrschung der abstrakten Problemlösung, multiplen kombinatorischen Reasoning und praktische Implementierung zu messen. Das Datenset enthält zwei Teile: 1. FormulaOne: Ein Datenset von 120 anspruchsvollen dynamischen Programmierungsproblemen, die Kreativität, Komplexität und expertenniveau Reasoning bewerten. 2. FormulaOne-Warmup: Ein Hilfsdatensatz mit 100 einfacheren Problemen, um Forschung und Bewertung in dieser anspruchsvollen Umgebung zu erleichtern. Der Maßstab wird mit einem umfassenden Rahmen bewertet, der sowohl die systematische Generierung von dynamischen Programmierungsproblemen als auch die Verifizierung vorgeschlagener Lösungen ermöglicht. Die Bewertung umfasst mehrere wichtige Arten von Testsuites, jede darauf ausgelegt, einen anderen Aspekt der Gültigkeit einer Lösung zu untersuchen. Die Ergebnisse zeigen, dass selbst die besten Vorderfront Reasoning-Modelle wie OpenAI's o3 auf dem FormulaOne-Datensatz vollständig versagen und eine dramatische <1%-Erfolgsquote erreichen. Dies unterstreicht die Notwendigkeit tiefergehender Reasoning-Umgebungen und besserer Maßstäbe, um steigende Komplexitätslevel zu erfassen.


Empfohlene Papiere

Der JWST-Wetterbericht: Temperaturänderungen, Aurora-Heizung und ständige Wolkenbedeckung auf SIMP-0136 abrufen

DiffuMeta: Algebraische Sprachmodelle für umgekehrtes Design von Metamaterialien über Diffusions-Transformer

KMT-2024-BLG-0404L: Ein dreifaches Mikrolinsen-System, bestehend aus einem Stern, einem Braunen Zwerg und einem Planeten

Neues Denken an HSM- und TPM-Sicherheit in der Cloud: Echtzeit-Angriffe und nächste Generation der Abwehrmechanismen

VideoITG: Multimodales Videoverständnis mit instruiertem zeitraumbezogenem Bezug

Ein neuer Faktor zur Messung der Übereinstimmung zwischen kontinuierlichen Variablen

Ein Vorhersagerahmen für den galaktischen Kosmischen Strahlfluss in Anwendungen der Raumwettervorhersage

Über die Komplexität des Skolemproblems bei niedrigen Ordnungen

Baryonifikation: Eine Alternative zu hydrodynamischen Simulationen für kosmologische Studien

Einzeiliges Magnetoptisches Fangsystem in rückseitig angeordneten Pyramiden- und Konus spiegeln