Resumen - FormulaOne: Medición de la Profundidad del Razonamiento Algorítmico Fuera del Programación Competitiva

Título
FormulaOne: Medición de la Profundidad del Razonamiento Algorítmico Fuera del Programación Competitiva

Tiempo
2025-07-17 17:53:55

Autor
{"Gal Beniamini","Yuval Dor","Alon Vinnikov","Shir Granot Peled","Or Weinstein","Or Sharir","Noam Wies","Tomer Nussbaum","Ido Ben Shaul","Tomer Zekharya","Yoav Levine","Shai Shalev-Shwartz","Amnon Shashua"}

Categoría
{cs.AI,cs.CC,math.LO}

Enlace
http://arxiv.org/abs/2507.13337v1

PDF Enlace
http://arxiv.org/pdf/2507.13337v1

Resumen

FormulaOne es un punto de referencia diseñado para medir la profundidad del razonamiento algorítmico en los modelos de IA, enfocado en problemas de investigación en la vida real en lugar de en acertijos de programación competitiva inventados. El punto de referencia se encuentra en la intersección de la teoría de grafos, la lógica y los algoritmos, todos ellos dentro de la distribución de entrenamiento de los modelos fronterizos. La base de datos tiene tres propiedades clave: 1. Es de interés comercial y se relaciona con problemas de optimización a gran escala prácticos, como la planificación de rutas, la programación y el diseño de redes. 2. Se genera a partir del altamente expresivo marco de la lógica Monadic Segunda Orden (MSO) en grafos, abriendo el camino para la generación automática de problemas a escala. 3. Muchos de los problemas están íntimamente relacionados con la frontera de la informática teórica y con conjeturas centrales como la Hipótesis del Tiempo Exponencial Fuerte (SETH). Los problemas en FormulaOne son increíblemente exigentes, requiriendo una serie de pasos de razonamiento, que involucran intuiciones topológicas y geométricas, conocimientos matemáticos, consideraciones combinatorias, implementación precisa y más. Los modelos punteros como el o3 de OpenAI fallan completamente en FormulaOne, resolviendo menos del 1% de las preguntas, incluso cuando se les dan 10 intentos y ejemplos fewshot explicativos. Esto subraya cuán lejos están estos modelos de la comprensión de nivel experto en algunos dominios. FormulaOne consta de una amplia gama de problemas de programación dinámica en grafos, generados utilizando la lógica Monadic Segunda Orden (MSO). Los problemas están diseñados para medir el dominio de la resolución de problemas abstractos, el razonamiento combinatorio de múltiples pasos y la implementación práctica. La base de datos incluye dos partes: 1. FormulaOne: Una base de datos de 120 problemas de programación dinámica desafiantes que evalúan la creatividad, la sofisticación y el razonamiento de nivel experto. 2. FormulaOne-Warmup: Una base de datos auxiliar que contiene 100 problemas más simples para facilitar la investigación y la evaluación en este entorno exigente. El punto de referencia se evalúa utilizando un marco exhaustivo que permite tanto la generación sistemática de problemas de programación dinámica como la verificación de las soluciones propuestas a los mismos. La evaluación incluye varios tipos de conjuntos de pruebas, cada uno diseñado para explorar un aspecto diferente de la validez de una solución. Los resultados muestran que incluso los mejores modelos de razonamiento fronterizos, como el o3 de OpenAI, fallan completamente en la base de datos FormulaOne, alcanzando una tasa de éxito estremecedoramente baja de <1%. Esto subraya la necesidad de entornos de razonamiento más profundos y mejores puntos de referencia para capturar niveles cada vez más altos de complejidad.


Artículos Recomendados

Asignación de pilotos asistida por una Red Neuronal Convolucional Cuántica Híbrida en Sistemas de MIMO Masivo sin Célula

KMT-2024-BLG-0404L: Un sistema de microlente triple compuesto por una estrella, un enano marrón y un planeta.

Problemas de coloreo de bordes con patrones prohibidos y colores plantados

Nuevas propiedades del inverso generalizado del núcleo-EP ponderado en álgebras de Banach

Salida: Colaboración entre humanos y AI basada en lo físico

PRACtical: Actualización de contadores a nivel de subarreglo y aislamiento de recuperación a nivel de banco para la mitigación eficiente de Rowhammer

Habilitando la educación en ciberseguridad a través de gemelos digitales y AI generativa

DENSE: Generación de notas de progreso longitudinal con modelado temporal de notas clínicas heterogéneas a lo largo de las visitas al hospital

Diseño computacional de medicamentos personalizados mediante optimización robusta bajo incertidumbre

Límites Inferiores más Rígidos para el Personalized PageRank de Origen Único