Résumé - ReCatcher : Vers le test de regression pour la génération de code des LLMs

Titre

ReCatcher : Vers le test de regression pour la génération de code des LLMs

Temps

2025-07-25 15:45:55

Auteur

{"Altaf Allah Abbassi","Leuson Da Silva","Amin Nikanjam","Foutse Khomh"}

Catégorie

{cs.SE,cs.AI}

Lien
http://arxiv.org/abs/2507.19390v1

PDF Lien
http://arxiv.org/pdf/2507.19390v1

Résumé

ReCatcher est un cadre de test de regression novateur conçu pour évaluer les capacités de génération de code des modèles de grande langue (LLM) tels que GPT-4 et CodeLlama. Il compare systématiquement les performances de deux LLM sur trois dimensions clés : la correction logique, la qualité du code statique (lisible, maintenable et sans erreurs) et la performance d'exécution. Cette évaluation complète aide les développeurs et les chercheurs à prendre des décisions éclairées concernant l'adoption de nouveaux LLM et à identifier les éventuelles régressions. ### Caractéristiques clés de ReCatcher : * **Évaluation multidimensionnelle** : ReCatcher évalue les LLM sur la base de la correction logique, de la qualité du code statique (lisible, maintenable et sans erreurs) et de l'efficacité de performance. Cette approche holistique assure une évaluation approfondie au-delà de la seule correction. * **Tests automatisés** : Le cadre tire parti des outils de test de logiciels existants comme les tests unitaires, l'analyse statique et les outils de profilage pour automatiser le processus d'évaluation. Cela réduit le besoin de tests manuels et assure des résultats cohérents. * **Analyse comparative** : ReCatcher compare les performances de deux LLM, permettant aux développeurs de repérer les régressions potentielles et les améliorations. Cela aide à prendre des décisions éclairées concernant l'adoption de nouveaux LLM. * **Spécifique à Python** : ReCatcher se concentre sur la génération de code Python, en raison de sa popularité et de son utilisation répandue dans le développement de logiciels. ### Scénarios d'évaluation : ReCatcher évalue les LLM sur trois scénarios d'update courants : 1. **Affinage** : Ce scénario évalue l'impact de l'affinage d'un LLM sur un nouveau jeu de données. Il aide à identifier les régressions potentielles et les améliorations dans divers aspects du code. 2. **Fusion** : Ce scénario examine l'impact de la fusion de plusieurs LLM pour créer un nouveau modèle. Il aide à identifier comment la combinaison de différents LLM affecte la qualité de génération du code. 3. **Publication de modèle** : Ce scénario évalue l'impact de la publication d'une nouvelle version d'un LLM dans une famille de modèles. Il aide à identifier les régressions potentielles et les améliorations introduites par la nouvelle version. ### Résultats expérimentaux : Les auteurs ont évalué ReCatcher en utilisant trois LLM populaires : CodeLlama, DeepSeek-Coder et GPT-4. Les résultats ont mis en lumière plusieurs observations clés : * **Affinage** : L'affinage avec des jeux de données cross-langues peut introduire des erreurs de syntaxe et des incohérences logiques. Cependant, l'affinage peut également améliorer la raison logique et la maintenabilité. * **Fusion** : La fusion avec des LLM à usage général peut entraîner des régressions dans la correction logique et la maintenabilité. Cependant, la fusion avec des LLM formés spécifiquement pour des tâches de codage peut améliorer les performances et la maintenabilité. * **Publication de modèle** : Les nouvelles versions des LLM peuvent introduire des régressions dans la gestion des imports manquants et le temps d'exécution. Cependant, elles peuvent également améliorer la raison logique et la maintenabilité. ### Conclusion : ReCatcher offre un outil précieux pour évaluer les capacités de génération de code des LLM. Son approche d'évaluation complète et ses capacités de tests automatisés le rendent une ressource précieuse pour les développeurs et les chercheurs. En utilisant ReCatcher, les utilisateurs peuvent prendre des décisions éclairées concernant l'adoption de nouveaux LLM et identifier les régressions potentielles, menant ainsi à une meilleure qualité de génération de code.

Articles Recommandés

TRPrompt : Amorçage de l'optimisation des prompts-aware aux requêtes à partir des récompenses textuelles

Corrélations et circuits quantiques avec ordre causal dynamique

Quels paramètres de motif de graphes sont comptés ?

Production, Assurance de la Qualité et Contrôle de la Qualité des Tuiles SiPM pour la Chambre à Projections Temporelles DarkSide-20k

Introduction à distance généralisée dans les génomes des graminées

Le problème de sous-groupe caché pour les groupes infinis

Régression krigeage sans fonction de的特征

Étude comparative des capacités physiques d'un argon liquide et d'un scintillateur liquide à base d'eau au DUNE

pilotage politique latent avec des modèles mondiaux prédéfinis agnostiques à l'égard de l'incarnation

Arbres de dépliage co-compactes