Résumé - Pré-entraînement sur le jeu de test n'est plus tout ce qu'il faut : Une approche basée sur le débat pour les benchmarks de QAC

Titre
Pré-entraînement sur le jeu de test n'est plus tout ce qu'il faut : Une approche basée sur le débat pour les benchmarks de QAC

Temps
2025-07-23 17:58:14

Auteur
{"Linbo Cao","Jinman Zhao"}

Catégorie
{cs.CL,cs.AI}

Lien
http://arxiv.org/abs/2507.17747v1

PDF Lien
http://arxiv.org/pdf/2507.17747v1

Résumé

Cet article présente une approche innovante pour évaluer les modèles de langage en transformant des ensembles de données QA structurés en débats adversitaires structurés. Le cadre répond aux défis tels que la contamination des données et la saturation des repères en encourageant une réflexion plus approfondie et en pénalisant la mémorisation superficielle. ### Contributions clés : 1. **Pipeline d'évaluation** : L'article présente une approche systématique pour convertir des tâches QA en débats structurés, réduire la subjectivité et mettre en lumière les capacités de raisonnement. 2. **Répertoire public** : Un répertoire public démontre l'efficacité du paradigme sur un sous-ensemble des questions MMLU-Pro, avec des protocoles normalisés et des modèles de référence. ### Méthodologie : Le cadre proposé implique les étapes suivantes : 1. **Transformation de débat** : Des ensembles de données QA avec des réponses claires sont transformés en débats structurés en supprimant les alternatives incorrectes. Le modèle Pro soutient la réponse officielle, tandis que le modèle Con propose et défend une alternative. 2. **Débats multi-tours** : Les débats consistent en plusieurs tours (2-5) pour équilibrer la profondeur des arguments et l'efficacité computationnelle. Le modèle Pro défend la réponse officielle, tandis que le modèle Con le challenge. 3. **Juridiction aveugle** : Les juges évaluent les débats de manière aveugle, sur la base de la qualité des arguments uniquement, garantissant une évaluation impartiale. ### Expériences : L'article évalue le cadre proposé sur le répertoire MMLU-Pro en utilisant divers modèles. Les principaux résultats incluent : - **Évaluation améliorée** : L'approche dérivée de débat fournit une évaluation plus nuancée par rapport aux répertoires QA traditionnels. - **Contamination des données** : Les modèles affinés sur des questions de test montrent une meilleure précision dans les tâches QA mais sous-performent dans les débats, mettant en lumière les limites de la mémorisation superficielle. - **Variabilité des juges** : Même des juges plus faibles peuvent évaluer des débattants plus forts, démontrant la scalabilité du cadre pour des systèmes futurs, plus capables. ### Conclusion : Le cadre d'évaluation dérivé de débat proposé offre une approche robuste et durable pour évaluer les modèles de langage. En encourageant une réflexion plus approfondie et en pénalisant la mémorisation superficielle, il fournit une évaluation plus complète des capacités du modèle, répondant aux défis tels que la contamination des données et la saturation des repères.


Articles Recommandés

Problèmes de consensus des chaînes avec des échanges et des substitutions

Pourquoi la puissance des jets et la formation d'étoiles sont non corrélées dans les galaxies actives ?

Spectre de C/2025 N1 (X-SHOOTER) : Perspectives sur un visiteur interstellaire lointain

De l'infini spatial à l'infini nul : Connecter les données initiales à l'écaillage

Sur la complexité du problème de Skolem à basse ordre

Une classe d'algèbres de Nakayama avec une action du groupe de tresses sur les séquences exceptionnelles de $τ$

AQuilt : Tricoter la logique et l'auto-inspection dans la synthèse de données à bas coût, haute pertinence pour les LLM spécialisés

Le programme de Chaudronnerie des Guimauves avec IGRINS sur le télescope Gemini South III : Regarder plus profondément dans l'atmosphère appauvrie en métaux d'une géante gazeuse au seuil de la transition de Jupiter chaud à ultra-chaud

Mise en œuvre de la mitigation des erreurs quantiques par l'annulation d'erreurs aléatoires globales pour l'évolution adiabatique dans le modèle de Schwinger

Étude comparative des capacités physiques d'un argon liquide et d'un scintillateur liquide à base d'eau au DUNE