Resumen - ReCatcher: Hacia la Prueba de Regresión para la Generación de Código de los LLMs

Título

ReCatcher: Hacia la Prueba de Regresión para la Generación de Código de los LLMs

Tiempo

2025-07-25 15:45:55

Autor

{"Altaf Allah Abbassi","Leuson Da Silva","Amin Nikanjam","Foutse Khomh"}

Categoría

{cs.SE,cs.AI}

Enlace
http://arxiv.org/abs/2507.19390v1

PDF Enlace
http://arxiv.org/pdf/2507.19390v1

Resumen

ReCatcher es un innovador framework de pruebas de regresión diseñado para evaluar las capacidades de generación de código de Modelos de Lenguaje Grandes (LLMs) como GPT-4 y CodeLlama. Sistemáticamente compara el rendimiento de dos LLMs a lo largo de tres dimensiones clave: corrección lógica, calidad del código estático y rendimiento de ejecución. Esta evaluación integral ayuda a los desarrolladores y los investigadores a tomar decisiones informadas sobre la adopción de nuevos LLMs e identificar posibles regresiones. ### Características clave de ReCatcher: * **Evaluación Multidimensional**: ReCatcher evalúa a los LLMs basándose en corrección lógica, calidad del código estático (legibilidad, mantenibilidad y errores) y eficiencia del rendimiento. Este enfoque holístico asegura una evaluación exhaustiva más allá de la sola corrección. * **Pruebas Automatizadas**: El framework aprovecha herramientas de pruebas de software existentes como pruebas unitarias, análisis estático y herramientas de perfilado para automatizar el proceso de evaluación. Esto reduce la necesidad de pruebas manuales y asegura resultados consistentes. * **Análisis Comparativo**: ReCatcher compara el rendimiento de dos LLMs, permitiendo a los desarrolladores identificar posibles regresiones y mejoras. Esto ayuda a tomar decisiones informadas sobre la adopción de nuevos LLMs. * **Especializado en Python**: ReCatcher se enfoca en la generación de código en Python, considerando su popularidad y uso generalizado en el desarrollo de software. ### Escenarios de Evaluación: ReCatcher evalúa a los LLMs a través de tres escenarios comunes de actualización: 1. **Ajuste fino (Fine-tuning)**: Este escenario evalúa el impacto de ajustar un LLM en un nuevo conjunto de datos. Ayuda a identificar posibles regresiones y mejoras en varios aspectos del código. 2. **Fusión (Merging)**: Este escenario examina el impacto de fusionar múltiples LLMs para crear un nuevo modelo. Ayuda a identificar cómo la combinación de diferentes LLMs afecta la calidad de la generación de código. 3. **Lanzamiento de modelo (Model Release)**: Este escenario evalúa el impacto de lanzar una nueva versión de un LLM dentro de una familia de modelos. Ayuda a identificar posibles regresiones y mejoras introducidas por la nueva versión. ### Resultados Experimentales: Los autores evaluaron a ReCatcher utilizando tres LLMs populares: CodeLlama, DeepSeek-Coder y GPT-4. Los resultados destacaron varios hallazgos clave: * **Ajuste fino**: El ajuste fino con conjuntos de datos de múltiples lenguajes puede introducir errores de sintaxis e incoherencias lógicas. Sin embargo, el ajuste fino puede mejorar la razón lógica y la mantenibilidad. * **Fusión**: La fusión con LLMs de propósito general puede llevar a regresiones en la corrección lógica y mantenibilidad. Sin embargo, la fusión con LLMs entrenados específicamente para tareas de codificación puede mejorar el rendimiento y la mantenibilidad. * **Lanzamiento de modelo**: Las nuevas versiones de LLMs pueden introducir regresiones en el manejo de importaciones ausentes y el tiempo de ejecución. Sin embargo, también pueden mejorar la razón lógica y la mantenibilidad. ### Conclusión: ReCatcher proporciona una herramienta valiosa para evaluar las capacidades de generación de código de los LLMs. Su enfoque de evaluación integral y las capacidades de pruebas automatizadas lo convierten en un recurso valioso para desarrolladores e investigadores. Al utilizar ReCatcher, los usuarios pueden tomar decisiones informadas sobre la adopción de nuevos LLMs e identificar posibles regresiones, lo que lleva a una mejor calidad de generación de código.

Artículos Recomendados

Agentar-DeepFinance-300K: Un Gran Conjunto de Datos Financieros mediante Optimización Sistemática de Síntesis de Cadena de Pensamiento

Estados de cuerdas atrapadas en la geometría del agujero negro AdS$_5$: Un camino hacia la radiación de Hawking

Subconjunto Sensible a Certificados: Realización de Complejidad de Instancia

Rubricas como Recompensas: Aprendizaje por Refuerzo Fuera de Dominios Verificables

CASCADE: Desobfuscador de JavaScript impulsado por LLM en Google

Estructura hiperbólica del pentágono equilátero

Orbitas de curvas racionales suaves en superficies de Enriques

DRWKV: Enfocándose en los bordes de los objetos para la mejora de imágenes en condiciones de poca luz

SynC: Refinamiento del Conjunto de Datos de Títulos de Imágenes Sintéticas con Mapeo Uno-a-muchos para la Captura de Títulos de Imágenes a Cero Sesiones

Mesofases de onda corta en los estados fundamentales de partículas suavizadas en el núcleo en dos dimensiones