Resumen - Las listas de verificación son mejores que los modelos de recompensa para alinear modelos de lenguaje.

Título

Las listas de verificación son mejores que los modelos de recompensa para alinear modelos de lenguaje.

Tiempo

2025-07-24 17:58:00

Autor

{"Vijay Viswanathan","Yanchao Sun","Shuang Ma","Xiang Kong","Meng Cao","Graham Neubig","Tongshuang Wu"}

Categoría

{cs.CL}

Enlace
http://arxiv.org/abs/2507.18624v1

PDF Enlace
http://arxiv.org/pdf/2507.18624v1

Resumen

El documento propone "Aprendizaje por Refuerzo desde Retroalimentación de Listas de Verificación" (RLCF) como una nueva aproximación para mejorar el seguimiento de instrucciones en modelos de lenguaje. En lugar de utilizar criterios de recompensa fijos como "utilidad" o "daño", RLCF extrae listas de verificación dinámicas de las instrucciones y evalúa las respuestas en función de cuánto satisfacen cada ítem de la lista. Esta aproximación se muestra como más efectiva que métodos existentes como modelos de recompensa o jueces de IA incentivados. Puntos clave: - Los modelos de lenguaje deben entrenarse para seguir instrucciones de los usuarios para su uso práctico. - El aprendizaje por refuerzo se utiliza comúnmente para facilitar esto, pero sigue siendo desafiante para tareas ambiguas o "no verificables" como el seguimiento de instrucciones. - RLCF extrae listas de verificación dinámicas de las instrucciones y evalúa las respuestas en función de cuánto satisfacen cada ítem de la lista. - El documento presenta WildChecklists, un conjunto de datos de 130,000 instrucciones y correspondientes listas de verificación. - RLCF se compara con baselines como el ajuste fino de instrucciones, modelos de recompensa y jueces de IA incentivados en múltiples benchmarks. - RLCF supera consistentemente a los baselines, mejorando el rendimiento en varios benchmarks de seguimiento de instrucciones. - RLCF proporciona una señal de aprendizaje más fuerte que las alternativas y está bien correlacionada con los juicios de preferencia humana. - El documento demuestra que RLCF puede aplicarse a diversos idiomas o dominios. En resumen, RLCF es una aproximación prometedora para mejorar el seguimiento de instrucciones en modelos de lenguaje. Ofrece varias ventajas sobre los métodos existentes y muestra potencial para futuras investigaciones y desarrollo.

Artículos Recomendados

Marco de Evaluación Completo para el Estudio de los Efectos de los Filtros Faciales en la Precisión del Reconocimiento Facial

RealBench: Comparación de modelos de generación de Verilog con diseños de IP del mundo real

Teoría cuántica del trampa óptica magnética

Estados de cuerdas atrapadas en la geometría del agujero negro AdS$_5$: Un camino hacia la radiación de Hawking

La álgebra de Jacobi de rango dos

Un nuevo coeficiente para medir el acuerdo entre variables continuas

SynC: Refinamiento del Conjunto de Datos de Títulos de Imágenes Sintéticas con Mapeo Uno-a-muchos para la Captura de Títulos de Imágenes a Cero Sesiones

Un Análogo Discreto de las Incrustaciones Barycentricas de Tutte en Superficies

Presión Topológica Inducida para Sistemas Dinámicos

El efecto de la plasticidad de la fibra en la formación de dominios en compuestos biológicos blandos -- Parte I: un análisis de bifurcación