Zusammenfassung - ReCatcher: hin zu Regressionstests für Code-Generierung mit Large Language Models (LLMs)
Titel
ReCatcher: hin zu Regressionstests für Code-Generierung mit Large Language Models (LLMs)
Zeit
2025-07-25 15:45:55
Autor
{"Altaf Allah Abbassi","Leuson Da Silva","Amin Nikanjam","Foutse Khomh"}
Kategorie
{cs.SE,cs.AI}
Link
http://arxiv.org/abs/2507.19390v1
PDF Link
http://arxiv.org/pdf/2507.19390v1
Zusammenfassung
ReCatcher ist ein innovatives Regressionstest-Framework, das darauf ausgelegt ist, die Code-Generierungsfähigkeiten großer Sprachmodelle (LLMs) wie GPT-4 und CodeLlama zu bewerten. Es vergleicht systematisch die Leistung von zwei LLMs entlang dreier zentraler Dimensionen: logischer Korrektheit, statischer Codequalität und Ausführungsleistung. Diese umfassende Bewertung hilft Entwicklern und Forschern, informierte Entscheidungen über die Einführung neuer LLMs zu treffen und potenzielle Regressionen zu identifizieren.
### Hauptfunktionen von ReCatcher:
* **Mehrdimensionale Bewertung**: ReCatcher bewertet LLMs basierend auf logischer Korrektheit, statischer Codequalität (Lesbarkeit, Wartbarkeit und Fehler) und Performance-Effizienz. Dieser umfassende Ansatz stellt sicher, dass eine gründliche Bewertung über die Korrektheit hinaus stattfindet.
* **Automatisierte Tests**: Das Framework nutzt bestehende Softwaretestwerkzeuge wie Unit-Tests, statische Analyse und Profiling-Tools, um den Bewertungsprozess zu automatisieren. Dies reduziert den Bedarf an manueller Testung und stellt konsistente Ergebnisse sicher.
* **Vergleichende Analyse**: ReCatcher vergleicht die Leistung von zwei LLMs, was Entwicklern hilft, potenzielle Regressionen und Verbesserungen zu identifizieren. Dies unterstützt informierte Entscheidungen über die Einführung neuer LLMs.
* **Python-spezifisch**: ReCatcher konzentriert sich auf die Code-Generierung in Python, berücksichtigt seine Beliebtheit und breite Verwendung im Softwareentwicklungsprozess.
### Bewertungszenarien:
ReCatcher bewertet LLMs in drei gängigen Aktualisierungsszenarien:
1. **Feinabstimmung**: Dieses Szenario bewertet den Einfluss der Feinabstimmung eines LLM auf ein neues Datensatz. Es hilft, potenzielle Regressionen und Verbesserungen in verschiedenen Codeaspekten zu identifizieren.
2. **Zusammenführung**: Dieses Szenario untersucht den Einfluss der Zusammenführung mehrerer LLMs zur Erstellung eines neuen Modells. Es hilft, zu identifizieren, wie die Kombination verschiedener LLMs die Qualität der Code-Generierung beeinflusst.
3. **Modellveröffentlichung**: Dieses Szenario bewertet den Einfluss der Veröffentlichung einer neuen Version eines LLM innerhalb einer Modellfamilie. Es hilft, potenzielle Regressionen und Verbesserungen, die durch die neue Version eingeführt wurden, zu identifizieren.
### Experimenteller Ergebnisse:
Die Autoren bewerteten ReCatcher mit drei populären LLMs: CodeLlama, DeepSeek-Coder und GPT-4. Die Ergebnisse zeigten mehrere zentrale Erkenntnisse:
* **Feinabstimmung**: Feinabstimmung mit mehrsprachigen Datensätzen kann Syntaxfehler und logische Inkonsistenzen verursachen. Allerdings kann Feinabstimmung auch die logische Durchdringung und Wartbarkeit verbessern.
* **Zusammenführung**: Die Zusammenführung mit allgemeinsprachlichen LLMs kann Regressionen in logischer Korrektheit und Wartbarkeit verursachen. Allerdings kann die Zusammenführung mit LLMs, die speziell für codierende Aufgaben trainiert wurden, die Leistung und Wartbarkeit verbessern.
* **Modellveröffentlichung**: Neue Versionen von LLMs können Regressionen bei fehlenden Imports und Ausführungszeiten verursachen. Allerdings können sie auch die logische Durchdringung und Wartbarkeit verbessern.
### Schlussfolgerung:
ReCatcher bietet ein wertvolles Werkzeug zur Bewertung der Code-Generierungsfähigkeiten von LLMs. Sein umfassender Bewertungsansatz und die automatisierten Testfunktionen machen es zu einer wertvollen Ressource für Entwickler und Forscher. Durch die Nutzung von ReCatcher können Benutzer informierte Entscheidungen über die Einführung neuer LLMs und die Identifizierung potenzieller Regressionen treffen, was letztlich zu einer höheren Qualität der Code-Generierung führt.
Empfohlene Papiere
Pseudozufälligkeit von Expander-Walks durch Fourieranalyse auf Gruppen
ThermoRL: Struktur-bewusstes Reinforcement Learning zur Proteinfunktionsmutation für die Verbesserung der Thermostabilität
DENSE: Erstellung von Längsschnitt-Notizen mit zeitlicher Modellierung heterogener klinischer Notizen über mehrere Krankenhausaufenthalte
Spin-nur-Dynamik des mehrspeciesnonreciprokalen Dicke-Modells
Rahmenwerk basierend auf der Schichtungs-Instrumentenvarianzanalyse zur Analyse nichtlinearer Effekte
Fisher-Score-Abgleich für simulationsbasierte Prognose und Inferenz
Makroskopische Dynamik von Oszillatorensembles mit Gemeinschaften, höheren Interaktionen und Phasenverzögerungen
Ein bayesianisches Framework zur Quellzuordnung und Parameterinferenz für UHECR
Vortrainieren auf dem Testset ist nicht mehr alles, was Sie benötigen: Ein diskussionsgeleitetes Ansatz zur Erstellung von QA-Benchmarks
Schärferer untere Schranken für Single-Source Personalisierten PageRank