Resumen - Rubricas como Recompensas: Aprendizaje por Refuerzo Fuera de Dominios Verificables

Título
Rubricas como Recompensas: Aprendizaje por Refuerzo Fuera de Dominios Verificables

Tiempo
2025-07-23 17:57:55

Autor
{"Anisha Gunjal","Anthony Wang","Elaine Lau","Vaskar Nath","Bing Liu","Sean Hendryx"}

Categoría
{cs.LG,cs.AI,cs.CL}

Enlace
http://arxiv.org/abs/2507.17746v1

PDF Enlace
http://arxiv.org/pdf/2507.17746v1

Resumen

El documento "Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains" introduce un nuevo marco llamado Rubrics as Rewards (RaR) para entrenar modelos de lenguaje utilizando señales de recompensa interpretables. Este enfoque aborda las limitaciones de los métodos de aprendizaje reforzado existentes que dependen de recompensas verificables (RLVR) y modelos de recompensa basados en preferencias (RaR). **Desafíos Clave en el Aprendizaje Reforzado**: * **Recompensas Verificables (RLVR)**: RLVR requiere una única y clara verdad de referencia para cada tarea, lo cual a menudo es difícil de obtener en escenarios del mundo real. Esto hace que sea desafiante definir señales de recompensa confiables para modelos de lenguaje entrenados después del entrenamiento. * **Modelos de Recompensa Basados en Preferencias (RaR)**: Los métodos RaR dependen de funciones de recompensa opacas que son difíciles de interpretar y propensas a correlaciones erróneas. También requieren grandes volúmenes de comparaciones de pares, lo que los hace frágiles y costosos. **Rubrics as Rewards (RaR)**: RaR introduce un marco que utiliza rubricas estructuradas y de estilo de lista de verificación como señales de recompensa interpretables para el entrenamiento on-policy con Optimización de Predicción de Recompensa Generativa (GRPO). Las rubricas proporcionan un punto intermedio entre señales de corrección binarias y clasificaciones preferenciales generales, descomponiendo "qué hace a una respuesta buena" en criterios tangibles e interpretables por el humano. **Contribuciones Clave**: 1. **Rubrics as Rewards (RaR)**: Un marco de aprendizaje reforzado on-policy que utiliza rubricas de estilo de lista de verificación para supervisar tareas multi-criterio, permitiendo un entrenamiento estable y una mejora en el rendimiento tanto en dominios de razonamiento como en el mundo real. 2. **Generación de Rubricas**: Un enfoque para generar rubricas utilizando grandes modelos de lenguaje (LLM) guiados por orientación experta y respuestas de referencia. 3. **Experimentos**: Evaluación de RaR en dos dominios de razonamiento (medicina y ciencia) utilizando los conjuntos de datos RaR-Medicine-20k y RaR-Science-20k. RaR supera a los baselines fuertes y logra ganancias notables en precisión en diversos dominios. 4. **Generalización**: RaR permite que modelos de juez más pequeños alcancen una mejor alineación con las preferencias humanas y mantengan un rendimiento robusto a través de diferentes escalas de modelos. **Generación de Rubricas**: El documento propone un enfoque de generación de rubricas que utiliza LLM como intermediarios expertos para generar rubricas mientras asegura el cumplimiento de los siguientes deseos: * **Fundado en Referencias Guiadas por Expertos**: Las rubricas se fundamentan en respuestas de referencia producidas por expertos humanos o LLM más fuertes para capturar hechos clave, pasos de razonamiento y conclusiones necesarios para la corrección. * **Cobertura Completa**: Las rubricas están diseñadas para abarcar múltiples dimensiones de calidad, incluyendo precisión factual, estructura lógica, completitud, estilo y trampas comunes. * **Ponderación Semántica**: Cada criterio se etiqueta con un nivel categorial de importancia (por ejemplo, Esencial, Importante, Opcional, Trampa) que refleja su prioridad relativa en la recompensa final. **Experimentos**: El documento evalúa RaR en dos dominios de razonamiento (medicina y ciencia) utilizando los conjuntos de datos RaR-Medicine-20k y RaR-Science-20k. Los resultados demuestran que RaR supera a los baselines fuertes y logra ganancias notables en precisión en diversos dominios. Además, el documento investiga el impacto del diseño de rubricas y la experiencia del LLM en la calidad de la rubrica y el rendimiento descendente. **Conclusión**: Rubrics as Rewards (RaR) proporciona un enfoque prometedor para entrenar modelos de lenguaje utilizando señales de recompensa interpretables. Este marco aborda las limitaciones de los métodos de aprendizaje reforzado existentes y ofrece una solución flexible para especificar recompensas confiables y escalables en escenarios del mundo real.


Artículos Recomendados

Problemas de coloreo de bordes con patrones prohibidos y colores plantados

Fotogrametría de sistemas $DN$ y $\bar{D}N$

Mejores prácticas para la Ingeniería de Proteínas Asistida por Aprendizaje Automático

Interiores de árboles de distancia sobre conjuntos de Cantor delgados

Strong Sparsification for 1-in-3-SAT via Polynomial Freiman-Ruzsa se traduce al español como: "Sparsificación Fuerte para 1-in-3-SAT a través de Polinómico Freiman-Ruzsa".

RoadBench: Un Modelo de Base de Conocimiento de Visión-Lenguaje y Marco de Referencia para la Comprensión del Daño en las Carreteras

Un método novedoso de optimización de topologías de múltiples espesores para equilibrar el rendimiento estructural y la fabricabilidad

Un límite inferior incondicional para el método del conjunto activo en la maximización cuadrática convexa

Superconductividad sin nodos en 4H$_{b}$-TaS$_{2}$ con simetría de tiempo roto

Espectro de X-SHOOTER del cometa C/2025 N1: Perspectivas sobre un Visitante Interestelar Distantes