概要 - GEPA: 反映的なプルミプト進化が强化学習を超える可能性があります

タイトル

GEPA: 反映的なプルミプト進化が强化学習を超える可能性があります

時間

2025-07-25 17:42:32

著者

{"Lakshya A Agrawal","Shangyin Tan","Dilara Soylu","Noah Ziems","Rishi Khare","Krista Opsahl-Ong","Arnav Singhvi","Herumb Shandilya","Michael J Ryan","Meng Jiang","Christopher Potts","Koushik Sen","Alexandros G. Dimakis","Ion Stoica","Dan Klein","Matei Zaharia","Omar Khattab"}

カテゴリ

{cs.CL,cs.AI,cs.LG,cs.SE,"I.2.7; I.2.6; I.2.4; I.2.8"}

リンク
http://arxiv.org/abs/2507.19457v1

PDF リンク
http://arxiv.org/pdf/2507.19457v1

概要

GEPA（遺伝的-Pareto）は、大規模言語モデル（LLM）用の新しいプルーム最適化オプティマイザーで、プルーム最適化の効率と効果を大幅に向上させます。従来の強化学習（RL）アプローチとは異なり、GEPAは言語の解釈可能性を利用して、試行錯誤から高次のルールを学習し、より効率的で効果的なプルーム最適化を実現します。 **GEPAの主要な機能**： * **反復的なプルーム進化**：GEPAは自然言語の反復を利用して問題を診断し、プルームの更新を提案・テストし、自身の試行のPareto前線からの補完的な教訓を組み合わせます。これにより、GEPAはわずかなロールアウトでも大幅な品質向上を達成できます。 * **サンプル効率**：GEPAはGRPOやMIPROv2などの最先端の方法を平均で10%、最大で20%以上上回りながら、35倍も少ないロールアウトを使用します。 * **堅牢な一般化**：GEPAは様々なタスクとモデルに対して強い一般化を示し、複雑な実世界のAIワークフローの最適化のための実用的なソリューションとなります。 * **システム意識**：GEPAはシステムレベルの軌跡（例：推論、ツール呼び出し、ツールの出力）を最適化プロセスに組み込み、もっと高次にプルームを最適化し、全体のシステム性能を向上させます。 **GEPAの構成要素**： 1. **遺伝的最適化ループ**：GEPAはAIシステム内のプルームを反復的に変異させ、新しいロールアウトから得られた学習信号に基づいて最適化し、各候補の血統を追跡します。 2. **反復的なプルーム変異**：GEPAはLLMを使用してシステム実行トレースを反復的に検討し、個々のモジュールプルームの効果を評価し、改善のための新しい指示を提案します。 3. **Paretoに基づく候補選択**：GEPAは候補プルームのPareto前線を維持し、多様で高パフォーマンスな候補を選択し、局所的な最適値を避け、堅牢な一般化を促進します。 **GEPAの適用**： GEPAは以下のような様々なタスクに成功して応用されています： * **多段階推論**：HotpotQA * **指示に従うこと**：IFBench * **プライバシー意識のデリゲーション**：PUPA * **検索強化型確認**：HoVer * **コード最適化**：NPUEvalとKernelBench **GEPAの利点**： * **向上したサンプル効率**：GEPAは効果的なプルーム最適化に必要なロールアウトの数を大幅に減少させ、複雑なAIワークフローの最適化をより実現可能にします。 * **向上したパフォーマンス**：GEPAは多くのケースで最適な方法を超えるタスク性能の向上をもたらします。 * **堅牢な一般化**：GEPAは様々なタスクとモデルに対して強い一般化を示し、AIワークフローの最適化のための多様なソリューションを提供します。 **結論**： GEPAはLLMのプルーム最適化における重要な進歩を示しています。言語の解釈可能性を利用し、システムレベルの知識を取り入れることで、GEPAはより効率的で効果的で堅牢なAIワークフローの最適化方法を提供します。

推奨論文

多変量金融時系列予測のための時系列基盤モデル

時領域におけるマクスウェル方程式の安定化二段階法式

三次元無慣性電子磁気流体力学におけるユニバーサルエネルギーカスケードとリラクゼーション

SafeWork-R1: AI-45°法のもとでの共生進化する安全と知能

エルク：深層学習コンパイラ技術を用いて、インターコア接続AIチップの効率を探求する

医学における埋め込みモデルの分野指定への進展

タイム有限状態機械の遠位復帰と同期シーケンスの研究

機械学習支援のタンパク質工学のためのベストプラクティス

進行中：フェイクチップを学習機会に変える

ASPに基づくインタラクティブな設定のためのスマートな拡張技術