Resumen - Las listas de verificación son mejores que los modelos de recompensa para alinear modelos de lenguaje.
Título
Las listas de verificación son mejores que los modelos de recompensa para alinear modelos de lenguaje.
Tiempo
2025-07-24 17:58:00
Autor
{"Vijay Viswanathan","Yanchao Sun","Shuang Ma","Xiang Kong","Meng Cao","Graham Neubig","Tongshuang Wu"}
Categoría
{cs.CL}
Enlace
http://arxiv.org/abs/2507.18624v1
PDF Enlace
http://arxiv.org/pdf/2507.18624v1
Resumen
El documento propone "Aprendizaje por Refuerzo desde Retroalimentación de Listas de Verificación" (RLCF) como una nueva aproximación para mejorar el seguimiento de instrucciones en modelos de lenguaje. En lugar de utilizar criterios de recompensa fijos como "utilidad" o "daño", RLCF extrae listas de verificación dinámicas de las instrucciones y evalúa las respuestas en función de cuánto satisfacen cada ítem de la lista. Esta aproximación se muestra como más efectiva que métodos existentes como modelos de recompensa o jueces de IA incentivados.
Puntos clave:
- Los modelos de lenguaje deben entrenarse para seguir instrucciones de los usuarios para su uso práctico.
- El aprendizaje por refuerzo se utiliza comúnmente para facilitar esto, pero sigue siendo desafiante para tareas ambiguas o "no verificables" como el seguimiento de instrucciones.
- RLCF extrae listas de verificación dinámicas de las instrucciones y evalúa las respuestas en función de cuánto satisfacen cada ítem de la lista.
- El documento presenta WildChecklists, un conjunto de datos de 130,000 instrucciones y correspondientes listas de verificación.
- RLCF se compara con baselines como el ajuste fino de instrucciones, modelos de recompensa y jueces de IA incentivados en múltiples benchmarks.
- RLCF supera consistentemente a los baselines, mejorando el rendimiento en varios benchmarks de seguimiento de instrucciones.
- RLCF proporciona una señal de aprendizaje más fuerte que las alternativas y está bien correlacionada con los juicios de preferencia humana.
- El documento demuestra que RLCF puede aplicarse a diversos idiomas o dominios.
En resumen, RLCF es una aproximación prometedora para mejorar el seguimiento de instrucciones en modelos de lenguaje. Ofrece varias ventajas sobre los métodos existentes y muestra potencial para futuras investigaciones y desarrollo.
Artículos Recomendados
Marco de Evaluación Completo para el Estudio de los Efectos de los Filtros Faciales en la Precisión del Reconocimiento Facial
RealBench: Comparación de modelos de generación de Verilog con diseños de IP del mundo real
Teoría cuántica del trampa óptica magnética
Estados de cuerdas atrapadas en la geometría del agujero negro AdS$_5$: Un camino hacia la radiación de Hawking
La álgebra de Jacobi de rango dos
Un nuevo coeficiente para medir el acuerdo entre variables continuas
SynC: Refinamiento del Conjunto de Datos de Títulos de Imágenes Sintéticas con Mapeo Uno-a-muchos para la Captura de Títulos de Imágenes a Cero Sesiones
Un Análogo Discreto de las Incrustaciones Barycentricas de Tutte en Superficies
Presión Topológica Inducida para Sistemas Dinámicos
El efecto de la plasticidad de la fibra en la formación de dominios en compuestos biológicos blandos -- Parte I: un análisis de bifurcación