Zusammenfassung - GEPA: Reflektierende Prompt-Evolution kann sich Reinforcement Learning übertreffen

Titel

GEPA: Reflektierende Prompt-Evolution kann sich Reinforcement Learning übertreffen

Zeit

2025-07-25 17:42:32

Autor

{"Lakshya A Agrawal","Shangyin Tan","Dilara Soylu","Noah Ziems","Rishi Khare","Krista Opsahl-Ong","Arnav Singhvi","Herumb Shandilya","Michael J Ryan","Meng Jiang","Christopher Potts","Koushik Sen","Alexandros G. Dimakis","Ion Stoica","Dan Klein","Matei Zaharia","Omar Khattab"}

Kategorie

{cs.CL,cs.AI,cs.LG,cs.SE,"I.2.7; I.2.6; I.2.4; I.2.8"}

Link
http://arxiv.org/abs/2507.19457v1

PDF Link
http://arxiv.org/pdf/2507.19457v1

Zusammenfassung

GEPA (Genetic-Pareto) ist ein innovativer Prompt-Optimierer für große Sprachmodelle (LLMs), der die Effizienz und Effektivität der Prompt-Optimierung erheblich verbessert. Im Gegensatz zu traditionellen Reinforcement-Learning-Ansätzen nutzt GEPA die Deutbarkeit der Sprache, um aus Versuch und Irrtum hochstufige Regeln zu lernen, was zu einer effizienteren und effektiveren Prompt-Optimierung führt. **Hauptfunktionen von GEPA**: * **Reflektive Prompt-Evolution**: GEPA nutzt natürliche Sprachreflexion, um Probleme zu diagnostizieren, Prompt-Updates vorzuschlagen und zu testen sowie complementaryen Lerninhalten aus der Pareto-Oberfläche seiner eigenen Versuche zu kombinieren. Dies ermöglicht es GEPA, selbst aus wenigen Rollouts einen großen Qualitätszuwachs zu erzielen. * **Effizienz bei der Stichprobe**: GEPA übertrifft im Durchschnitt Methoden wie GRPO und MIPROv2 um bis zu 10% und um bis zu 20%, wobei bis zu 35-mal weniger Rollouts verwendet werden. * **Robuste Generalisierung**: GEPA zeigt eine starke Generalisierung über verschiedene Aufgaben und Modelle hinweg und ist daher eine praktische Lösung für die Optimierung komplexer, realer AI-Arbeitsabläufe. * **Systembewusstsein**: GEPA integriert systemebene Trajektorien (z.B. Reasoning, Tool-Aufrufe und Tool-Ausgaben) in seinen Optimierungsprozess und ermöglicht es ihm, Prompts auf höherer Ebene zu optimieren und die Gesamtleistung des Systems zu verbessern. **Komponenten von GEPA**: 1. **Genetischer Optimierungszyklus**: GEPA mutiert iterativ Prompts innerhalb des AI-Systems, informiert durch Lernsignale aus neu gesammelten Rollouts und durch die Verfolgung der Abstammung jedes neuen Kandidaten. 2. **Reflektive Prompt-Mutation**: GEPA nutzt LLMs, um systemische Ausführungstraces reflektiv zu untersuchen und die Effektivität individueller Modulprompts zu bewerten, und neue Anweisungen für Verbesserungen vorzuschlagen. 3. **Pareto-basierte Kandidatenauswahl**: GEPA führt eine Pareto-Oberfläche von Kandidatenprompts, wählt vielseitige und hochperformante Kandidaten für weitere Optimierung aus, vermeidet lokale Optima und fördert eine robuste Generalisierung. **Anwendungen von GEPA**: GEPA wurde erfolgreich in verschiedenen Aufgaben angewendet, einschließlich: * **Multi-hop Reasoning**: HotpotQA * **Anweisungsfollowen**: IFBench * **Privatsphäre-bezogene Delegation**: PUPA * **Retrieval-Augmented Verification**: HoVer * **Code-Optimierung**: NPUEval und KernelBench **Vorteile von GEPA**: * **Verbesserte Effizienz bei der Stichprobe**: GEPA reduziert die Anzahl der Rollouts, die für eine effektive Prompt-Optimierung erforderlich sind, erheblich und macht es daher realistischer, komplexe AI-Arbeitsabläufe zu optimieren. * **Erhöhte Leistung**: GEPA führt zu erheblichen Verbesserungen der Aufgabenleistung und übertrifft in vielen Fällen state-of-the-art-Methoden. * **Robuste Generalisierung**: GEPA zeigt eine starke Generalisierung über verschiedene Aufgaben und Modelle hinweg und ist daher eine vielseitige Lösung für die Optimierung von AI-Arbeitsabläufen. **Schlussfolgerung**: GEPA stellt einen bedeutenden Fortschritt in der Prompt-Optimierung für LLMs dar. Durch die Nutzung der Deutbarkeit der Sprache und die Integration systembezogener Kenntnisse bietet GEPA eine effizientere, effektivere und robustere Herangehensweise zur Optimierung von AI-Arbeitsabläufen.

Empfohlene Papiere

Multilevel-Monte-Carlo-Sampling mit Parallel-in-Time-Integration zur Unsicherheitsquantifizierung in der Elektromaschinensimulation

Effekte der Optimierung der Einpartikel-Verminderten Dichtematrix in Variationalen Quanten-Eigenlösungsstrategien

Phasenstabilität und Transformationsvorgänge in Blei-Mischhalogen-Peroxid-Kristallen aus maschinellen Kraftfeldern

Symmetrischer Private Information Retrieval (SPIR) auf graphbasierten replizierten Systemen

Eine umfassende Studie über Radialgeschwindigkeitssignale mit ESPRESSO: Präzision auf das 10 cm/s-Niveau heben

Druckinduzierter ferro-magnetischer bis antiferro-magnetischer Phasenübergang im Übergangsmetall-Chalsogen Cr$_{3}$Te$_{4}$

MHD-Rankine-Hugoniot-Sprungbedingungen für Stoßwellen in Van-der-Waals-Gasen

Übermäßige Beobachtbare offenbaren Nicht-Wechselseitigkeit in integrierten Kovarianzen

In Richtung konservativer Inferenz in Glaubwürdigkeitsnetzwerken mittels Glaubwürdigkeitsfunktionen: der Fall von Glaubwürdigkeitsketten

Funktionelle Zeitreihenprognose von Verteilungen: Ein Koopman-Wasserstein-Ansatz