Résumé - Les listes de contrôle sont meilleures que les modèles de récompense pour aligner les modèles de langage.

Titre
Les listes de contrôle sont meilleures que les modèles de récompense pour aligner les modèles de langage.

Temps
2025-07-24 17:58:00

Auteur
{"Vijay Viswanathan","Yanchao Sun","Shuang Ma","Xiang Kong","Meng Cao","Graham Neubig","Tongshuang Wu"}

Catégorie
{cs.CL}

Lien
http://arxiv.org/abs/2507.18624v1

PDF Lien
http://arxiv.org/pdf/2507.18624v1

Résumé

Le document propose "Reinforcement Learning from Checklist Feedback" (RLCF) comme une approche nouvelle pour améliorer le suivi des instructions dans les modèles de langage. Au lieu d'utiliser des critères de récompense fixes comme "utile" ou "dangereux", RLCF extrait des listes de contrôle dynamiques à partir des instructions et évalue les réponses en fonction de la manière dont elles satisfont chaque élément de la liste de contrôle. Cette approche s'est révélée plus efficace que les méthodes existantes telles que les modèles de récompense ou les juges IA invités. Points clés : - Les modèles de langage doivent être formés pour suivre les instructions des utilisateurs à des fins pratiques. - L'apprentissage par renforcement est couramment utilisé pour faciliter cela, mais il reste difficile pour des tâches ambiguës ou "non vérifiables" comme le suivi des instructions. - RLCF extrait des listes de contrôle dynamiques à partir des instructions et évalue les réponses en fonction de la manière dont elles satisfont chaque élément de la liste de contrôle. - Le document présente WildChecklists, un ensemble de données de 130 000 instructions et des listes de contrôle correspondantes. - RLCF est comparé à des points de référence comme le finement réglage des instructions, les modèles de récompense et les juges IA invités sur plusieurs indicateurs de performance. - RLCF surperforme constamment les points de référence, améliorant les résultats sur divers indicateurs de suivi des instructions. - RLCF fournit un signal d'apprentissage plus fort que les alternatives et est bien corrélé avec les jugements de préférence humaine. - Le document montre que RLCF peut être appliqué à diverses langues ou domaines. Dans l'ensemble, RLCF est une approche prometteuse pour améliorer le suivi des instructions dans les modèles de langage. Elle offre plusieurs avantages par rapport aux méthodes existantes et montre un potentiel pour des recherches et des développements supplémentaires.


Articles Recommandés

SafeWork-R1 : Évolution conjointe de la sécurité et de l'intelligence sous la loi AI-45°

Simulation des interactions Binaires-Single dans les Disques des AGN II : Probabilité de Fusion des Binaires Noirs During le Processus Chaotique Triplo

Dynamique des faisceaux non linéaire de particules isolées

Exploration des neutrinos d'énergie ultra-haute avec l'array radio in-ice IceCube-Gen2

Un Cadre d'Évaluation Complet pour l'Étude des Effets des Filtres Faciaux sur l'Exactitude de la Reconnaissance Faciale

A3D-MoE : Accélération des grands modèles de langage avec Mixture of Experts via l'intégration hétérogène 3D

Invertibilité globale des mappings de Sobolev avec des valeurs limites homeomorphes prescrites

Optimisation à grande échelle des portefeuilles avec l'annealing neural variationnel

Une nouvelle méthode d'optimisation topologique à plusieurs épaisseurs pour équilibrer les performances structurelles et la fabricabilité

Transition de phase ferromagnétique à antiferromagnétique induite par la pression dans le chalcogénure de métaux de transition Cr$_{3}$Te$_{4}$