Résumé - Rubriques comme récompenses : Apprentissage par renforcement au-delà des domaines vérifiables

Titre
Rubriques comme récompenses : Apprentissage par renforcement au-delà des domaines vérifiables

Temps
2025-07-23 17:57:55

Auteur
{"Anisha Gunjal","Anthony Wang","Elaine Lau","Vaskar Nath","Bing Liu","Sean Hendryx"}

Catégorie
{cs.LG,cs.AI,cs.CL}

Lien
http://arxiv.org/abs/2507.17746v1

PDF Lien
http://arxiv.org/pdf/2507.17746v1

Résumé

L'article "Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains" présente un cadre innovant appelé Rubrics as Rewards (RaR) pour entraîner des modèles de langage à l'aide de signaux de récompense interprétables. Cette approche pallie les limites des méthodes existantes de renforcement par récompense qui dépendent des récompenses vérifiables (RLVR) et des modèles de récompense basés sur les préférences (RaR). **Défis Clés en Reinforcement Learning** : * **Récompenses Vérifiables (RLVR)** : RLVR nécessite une vérité de référence unique et claire pour chaque tâche, ce qui est souvent difficile à obtenir dans des scénarios réels. Cela rend difficile la définition de signaux de récompense fiables pour des modèles de langage entraînés après la formation. * **Modèles de Récompense Basés sur les Préférences (RaR)** : Les méthodes RaR dépendent de fonctions de récompense opaques qui sont difficiles à interpréter et sujettes à des corrélations erronées. Elles nécessitent également de grandes quantités de comparaisons jumeau, ce qui les rend fragiles et coûteuses. **Rubrics as Rewards (RaR)** : RaR introduit un cadre qui utilise des rubriques structurées et à liste pour des signaux de récompense interprétables dans l'entraînement on-policy avec l'Optimisation de Prédiction de Récompense Générationnelle (GRPO). Les rubriques offrent un compromis entre des signaux de correction binaires et des classements de préférences grossiers en décomposant "quoi fait une bonne réponse" en critères tangibles et interprétables par l'homme. **Contributions Clés** : 1. **Rubrics as Rewards (RaR)** : Un cadre de renforcement par récompense on-policy qui utilise des rubriques à liste pour superviser des tâches multicritères, permettant un entraînement stable et une amélioration de la performance dans les domaines du raisonnement et du monde réel. 2. **Génération de Rubriques** : Une approche pour générer des rubriques en utilisant des grands modèles de langage (LLM) guidés par des conseils d'experts et des réponses de référence. 3. **Expériences** : Évaluation de RaR sur deux domaines de raisonnement (médecine et science) en utilisant les ensembles de données RaR-Medicine-20k et RaR-Science-20k. RaR surpasse des baselines solides et atteint des gains notables en termes d'exactitude dans divers domaines. 4. **Généralisation** : RaR permet aux modèles de juge plus petits d'atteindre une meilleure adéquation avec les préférences humaines et de maintenir une performance robuste à différentes échelles de modèle. **Génération de Rubriques** : Le papier propose une approche de génération de rubriques qui utilise des LLM en tant que proxies d'experts pour générer des rubriques tout en assurant le respect des desiderata suivants : * **Fondé sur des Réponses de Référence Guider par des Experts** : Les rubriques sont fondées sur des réponses de référence produites par des experts humains ou des LLM plus forts pour capturer des faits clés, des étapes de raisonnement et des conclusions nécessaires à la justesse. * **Couverture Complète** : Les rubriques sont conçues pour couvrir plusieurs dimensions de qualité, y compris l'exactitude factuelle, la structure logique, la complétude, le style et les erreurs courantes. * **Pondération Sémantique** : Chaque critère est étiqueté avec un niveau d'importance catégorique (par exemple, Essentiel, Important, Optionnel, Erreur Courante) qui reflète son priorité relative dans la récompense finale. **Expériences** : Le papier évalue RaR sur deux domaines de raisonnement (médecine et science) en utilisant les ensembles de données RaR-Medicine-20k et RaR-Science-20k. Les résultats montrent que RaR surpasse des baselines solides et atteint des gains notables en termes d'exactitude dans divers domaines. De plus, le papier examine l'impact de la conception des rubriques et de l'expertise des LLM sur la qualité des rubriques et la performance descendante. **Conclusion** : Rubrics as Rewards (RaR) offre une approche prometteuse pour entraîner des modèles de langage à l'aide de signaux de récompense interprétables. Ce cadre pallie les limites des méthodes existantes de renforcement par récompense et propose une solution flexible pour spécifier des récompenses fiables et à l'échelle dans des scénarios réels.


Articles Recommandés

MOFCO : Déchargement de tâches conscient de la mobilité et de la migration dans des environnements de calcul nuageux à trois couches

RoadBench : Un modèle fondation de vision et un cadre de référence pour la compréhension des dommages routiers

L'effet de la plasticité des fibres sur la formation de domaines dans les composites biologiques mous -- Partie I : une analyse de bifurcation

GENIAL : Exploration de l'espace de conception générique via l'inversion de réseau pour des unités logiques algorithmiques à faible consommation d'énergie

TrinityDNA : Un modèle fondamental bio-inspiré pour la modélisation efficace des séquences longues d'ADN

Problèmes de coloration des bords avec des motifs interdits et couleurs plantées

De l'infini spatial à l'infini nul : Connecter les données initiales à l'écaillage

Modèles continuels de premier ordre pour les ondes dispersives non linéaires dans la lattice de cristal granulaire

Quantification contrainte pour les distributions discrètes

Problème de Robin avec des données de mesure et des singularités non linéaires sur la frontière