Zusammenfassung - GEPA: Reflektierende Prompt-Evolution kann sich Reinforcement Learning übertreffen
Titel
GEPA: Reflektierende Prompt-Evolution kann sich Reinforcement Learning übertreffen
Zeit
2025-07-25 17:42:32
Autor
{"Lakshya A Agrawal","Shangyin Tan","Dilara Soylu","Noah Ziems","Rishi Khare","Krista Opsahl-Ong","Arnav Singhvi","Herumb Shandilya","Michael J Ryan","Meng Jiang","Christopher Potts","Koushik Sen","Alexandros G. Dimakis","Ion Stoica","Dan Klein","Matei Zaharia","Omar Khattab"}
Kategorie
{cs.CL,cs.AI,cs.LG,cs.SE,"I.2.7; I.2.6; I.2.4; I.2.8"}
Link
http://arxiv.org/abs/2507.19457v1
PDF Link
http://arxiv.org/pdf/2507.19457v1
Zusammenfassung
GEPA (Genetic-Pareto) ist ein innovativer Prompt-Optimierer für große Sprachmodelle (LLMs), der die Effizienz und Effektivität der Prompt-Optimierung erheblich verbessert. Im Gegensatz zu traditionellen Reinforcement-Learning-Ansätzen nutzt GEPA die Deutbarkeit der Sprache, um aus Versuch und Irrtum hochstufige Regeln zu lernen, was zu einer effizienteren und effektiveren Prompt-Optimierung führt.
**Hauptfunktionen von GEPA**:
* **Reflektive Prompt-Evolution**: GEPA nutzt natürliche Sprachreflexion, um Probleme zu diagnostizieren, Prompt-Updates vorzuschlagen und zu testen sowie complementaryen Lerninhalten aus der Pareto-Oberfläche seiner eigenen Versuche zu kombinieren. Dies ermöglicht es GEPA, selbst aus wenigen Rollouts einen großen Qualitätszuwachs zu erzielen.
* **Effizienz bei der Stichprobe**: GEPA übertrifft im Durchschnitt Methoden wie GRPO und MIPROv2 um bis zu 10% und um bis zu 20%, wobei bis zu 35-mal weniger Rollouts verwendet werden.
* **Robuste Generalisierung**: GEPA zeigt eine starke Generalisierung über verschiedene Aufgaben und Modelle hinweg und ist daher eine praktische Lösung für die Optimierung komplexer, realer AI-Arbeitsabläufe.
* **Systembewusstsein**: GEPA integriert systemebene Trajektorien (z.B. Reasoning, Tool-Aufrufe und Tool-Ausgaben) in seinen Optimierungsprozess und ermöglicht es ihm, Prompts auf höherer Ebene zu optimieren und die Gesamtleistung des Systems zu verbessern.
**Komponenten von GEPA**:
1. **Genetischer Optimierungszyklus**: GEPA mutiert iterativ Prompts innerhalb des AI-Systems, informiert durch Lernsignale aus neu gesammelten Rollouts und durch die Verfolgung der Abstammung jedes neuen Kandidaten.
2. **Reflektive Prompt-Mutation**: GEPA nutzt LLMs, um systemische Ausführungstraces reflektiv zu untersuchen und die Effektivität individueller Modulprompts zu bewerten, und neue Anweisungen für Verbesserungen vorzuschlagen.
3. **Pareto-basierte Kandidatenauswahl**: GEPA führt eine Pareto-Oberfläche von Kandidatenprompts, wählt vielseitige und hochperformante Kandidaten für weitere Optimierung aus, vermeidet lokale Optima und fördert eine robuste Generalisierung.
**Anwendungen von GEPA**:
GEPA wurde erfolgreich in verschiedenen Aufgaben angewendet, einschließlich:
* **Multi-hop Reasoning**: HotpotQA
* **Anweisungsfollowen**: IFBench
* **Privatsphäre-bezogene Delegation**: PUPA
* **Retrieval-Augmented Verification**: HoVer
* **Code-Optimierung**: NPUEval und KernelBench
**Vorteile von GEPA**:
* **Verbesserte Effizienz bei der Stichprobe**: GEPA reduziert die Anzahl der Rollouts, die für eine effektive Prompt-Optimierung erforderlich sind, erheblich und macht es daher realistischer, komplexe AI-Arbeitsabläufe zu optimieren.
* **Erhöhte Leistung**: GEPA führt zu erheblichen Verbesserungen der Aufgabenleistung und übertrifft in vielen Fällen state-of-the-art-Methoden.
* **Robuste Generalisierung**: GEPA zeigt eine starke Generalisierung über verschiedene Aufgaben und Modelle hinweg und ist daher eine vielseitige Lösung für die Optimierung von AI-Arbeitsabläufen.
**Schlussfolgerung**:
GEPA stellt einen bedeutenden Fortschritt in der Prompt-Optimierung für LLMs dar. Durch die Nutzung der Deutbarkeit der Sprache und die Integration systembezogener Kenntnisse bietet GEPA eine effizientere, effektivere und robustere Herangehensweise zur Optimierung von AI-Arbeitsabläufen.
Empfohlene Papiere
Multilevel-Monte-Carlo-Sampling mit Parallel-in-Time-Integration zur Unsicherheitsquantifizierung in der Elektromaschinensimulation
Effekte der Optimierung der Einpartikel-Verminderten Dichtematrix in Variationalen Quanten-Eigenlösungsstrategien
Phasenstabilität und Transformationsvorgänge in Blei-Mischhalogen-Peroxid-Kristallen aus maschinellen Kraftfeldern
Symmetrischer Private Information Retrieval (SPIR) auf graphbasierten replizierten Systemen
Eine umfassende Studie über Radialgeschwindigkeitssignale mit ESPRESSO: Präzision auf das 10 cm/s-Niveau heben
Druckinduzierter ferro-magnetischer bis antiferro-magnetischer Phasenübergang im Übergangsmetall-Chalsogen Cr$_{3}$Te$_{4}$
MHD-Rankine-Hugoniot-Sprungbedingungen für Stoßwellen in Van-der-Waals-Gasen
Übermäßige Beobachtbare offenbaren Nicht-Wechselseitigkeit in integrierten Kovarianzen
In Richtung konservativer Inferenz in Glaubwürdigkeitsnetzwerken mittels Glaubwürdigkeitsfunktionen: der Fall von Glaubwürdigkeitsketten
Funktionelle Zeitreihenprognose von Verteilungen: Ein Koopman-Wasserstein-Ansatz