概要 - GEPA: 反映的なプルミプト進化が强化学習を超える可能性があります
タイトル
GEPA: 反映的なプルミプト進化が强化学習を超える可能性があります
時間
2025-07-25 17:42:32
著者
{"Lakshya A Agrawal","Shangyin Tan","Dilara Soylu","Noah Ziems","Rishi Khare","Krista Opsahl-Ong","Arnav Singhvi","Herumb Shandilya","Michael J Ryan","Meng Jiang","Christopher Potts","Koushik Sen","Alexandros G. Dimakis","Ion Stoica","Dan Klein","Matei Zaharia","Omar Khattab"}
カテゴリ
{cs.CL,cs.AI,cs.LG,cs.SE,"I.2.7; I.2.6; I.2.4; I.2.8"}
リンク
http://arxiv.org/abs/2507.19457v1
PDF リンク
http://arxiv.org/pdf/2507.19457v1
概要
GEPA(遺伝的-Pareto)は、大規模言語モデル(LLM)用の新しいプルーム最適化オプティマイザーで、プルーム最適化の効率と効果を大幅に向上させます。従来の強化学習(RL)アプローチとは異なり、GEPAは言語の解釈可能性を利用して、試行錯誤から高次のルールを学習し、より効率的で効果的なプルーム最適化を実現します。
**GEPAの主要な機能**:
* **反復的なプルーム進化**:GEPAは自然言語の反復を利用して問題を診断し、プルームの更新を提案・テストし、自身の試行のPareto前線からの補完的な教訓を組み合わせます。これにより、GEPAはわずかなロールアウトでも大幅な品質向上を達成できます。
* **サンプル効率**:GEPAはGRPOやMIPROv2などの最先端の方法を平均で10%、最大で20%以上上回りながら、35倍も少ないロールアウトを使用します。
* **堅牢な一般化**:GEPAは様々なタスクとモデルに対して強い一般化を示し、複雑な実世界のAIワークフローの最適化のための実用的なソリューションとなります。
* **システム意識**:GEPAはシステムレベルの軌跡(例:推論、ツール呼び出し、ツールの出力)を最適化プロセスに組み込み、もっと高次にプルームを最適化し、全体のシステム性能を向上させます。
**GEPAの構成要素**:
1. **遺伝的最適化ループ**:GEPAはAIシステム内のプルームを反復的に変異させ、新しいロールアウトから得られた学習信号に基づいて最適化し、各候補の血統を追跡します。
2. **反復的なプルーム変異**:GEPAはLLMを使用してシステム実行トレースを反復的に検討し、個々のモジュールプルームの効果を評価し、改善のための新しい指示を提案します。
3. **Paretoに基づく候補選択**:GEPAは候補プルームのPareto前線を維持し、多様で高パフォーマンスな候補を選択し、局所的な最適値を避け、堅牢な一般化を促進します。
**GEPAの適用**:
GEPAは以下のような様々なタスクに成功して応用されています:
* **多段階推論**:HotpotQA
* **指示に従うこと**:IFBench
* **プライバシー意識のデリゲーション**:PUPA
* **検索強化型確認**:HoVer
* **コード最適化**:NPUEvalとKernelBench
**GEPAの利点**:
* **向上したサンプル効率**:GEPAは効果的なプルーム最適化に必要なロールアウトの数を大幅に減少させ、複雑なAIワークフローの最適化をより実現可能にします。
* **向上したパフォーマンス**:GEPAは多くのケースで最適な方法を超えるタスク性能の向上をもたらします。
* **堅牢な一般化**:GEPAは様々なタスクとモデルに対して強い一般化を示し、AIワークフローの最適化のための多様なソリューションを提供します。
**結論**:
GEPAはLLMのプルーム最適化における重要な進歩を示しています。言語の解釈可能性を利用し、システムレベルの知識を取り入れることで、GEPAはより効率的で効果的で堅牢なAIワークフローの最適化方法を提供します。
推奨論文
多変量金融時系列予測のための時系列基盤モデル
時領域におけるマクスウェル方程式の安定化二段階法式
三次元無慣性電子磁気流体力学におけるユニバーサルエネルギーカスケードとリラクゼーション
SafeWork-R1: AI-45°法のもとでの共生進化する安全と知能
エルク:深層学習コンパイラ技術を用いて、インターコア接続AIチップの効率を探求する
医学における埋め込みモデルの分野指定への進展
タイム有限状態機械の遠位復帰と同期シーケンスの研究
機械学習支援のタンパク質工学のためのベストプラクティス
進行中:フェイクチップを学習機会に変える
ASPに基づくインタラクティブな設定のためのスマートな拡張技術