概要 - TRPrompt: テキストベースの報酬からクエリ意識的なプロンプト最適化をブートストラップする

タイトル

TRPrompt: テキストベースの報酬からクエリ意識的なプロンプト最適化をブートストラップする

時間

2025-07-24 17:54:44

著者

{"Andreea Nica","Ivan Zakazov","Nicolas Mario Baldwin","Saibo Geng","Robert West"}

カテゴリ

{cs.CL,cs.LG}

リンク
http://arxiv.org/abs/2507.18618v1

PDF リンク
http://arxiv.org/pdf/2507.18618v1

概要

論文「TRPrompt: テキスト的な報酬を利用したクエリ意識型プロンプト最適化の自己起動」は、数値的な報酬ではなくテキスト的な報酬を利用して大規模言語モデル（LLM）のプロンプトを最適化する新しいアプローチを提案しています。この方法、TRPromptは、数値的な報酬に依存する既存のプロンプト最適化技術の限界を克服することを目指しています。 **TRPromptのキーポイント**： * **テキスト的な報酬**：TRPromptは、プロンプト最適化のための主要なトレーニングシグナルとしてテキスト的な報酬の使用を導入しています。数値的な報酬とは異なり、テキスト的な報酬はより豊富で繊細なフィードバックを提供し、プロンプトモデルが生成したプロンプトの品質をよりよく理解できるようにします。 * **クエリ意識型**：TRPromptは、個々の入力クエリに合わせたプロンプトを生成するクエリ依存型プロンプト最適化に焦点を当てています。このアプローチは、クエリの文脈が望ましい出力に大きな影響を与える数学的推論などのタスクに特に効果的です。 * **反復トレーニング**：TRPromptは、以下の三つの主なステップを含む反復トレーニングプロセスを用いています： 1. **クエリ依存型プロンプト生成とテキスト的な報酬計算**：プロンプトモデルがクエリ特定のプロンプトを生成し、テキスト的な報酬モデルがその品質に対してフィードバックを提供します。 2. **プロンプトモデルの微調整**：テキスト的な報酬に基づいて監督学習を使用してプロンプトモデルを微調整します。 3. **最適なテキスト的な報酬の更新**：テキストgradのようなトレーニングなしの最適化戦略を使用して最適なテキスト的な報酬を更新します。 * **利点**： * **豊富なフィードバック**：テキスト的な報酬は数値的な報酬よりも情報量が高く、繊細なフィードバックを提供し、プロンプト最適化がより良い結果をもたらします。 * **専門家のプロンプトに依存しない**：TRPromptは、専門家が提供するプロンプトに依存せずにゼロからプロンプトを学習できるため、よりスケーラブルで適応性が高くなります。 * **性能向上**：難しい数学データセットでの実験では、TRPromptが既存の方法と比較して優れた性能を達成することが示されています。 **実験と結果**：論文は、TRPromptの効果を評価するために、3つの数学的推論データセット（GSM8K、GSMHard、MATH）での実験を紹介しています。結果は、TRPromptが特にGSMHardやMATHなどの難しいデータセットにおいて、既存の方法を顕著に上回ることを示しています。反復トレーニングプロセスにより、プロンプトモデルは自分のエラーとフィードバックから学習して、性能を徐々に向上させます。 **限界と今後の課題**： * **簡単なデータセットでの効果減少**：TRPromptは、ターゲットモデルが既に良好なパフォーマンスを示す簡単なデータセットでは、顕著な改善を生み出す可能性が低いです。 * **高い計算コスト**：テキストgradを使用した最適な報酬検索ステップは、計算コストが高く、並列化が難しいです。 * **テキスト的な報酬のさらに活用**：このフレームワークは、数値的な報酬を定義するのが難しい他のタスク（例えば、創作や詩）にも拡張することができます。 **結論**： TRPromptは、テキスト的な報酬の表現力を利用してLLMのプロンプトを最適化する有望なアプローチを提供しています。この方法は、特に繊細な理解と推論が必要なタスクにおいて、LLMの性能を大幅に向上させる可能性があります。

推奨論文

自回归時間序列のための効率的な因果発見

未来の知能のためのヴォン・ノイマンのアーキテクチャを強化する

「デュアル戦略統合による需要予測のためのベースモデル」

三次元体形からの $2\times2$ マトリックスのストラッセン乗算

ノイズのあるラベル学習のための対称非対称損失の連結

DEFNet: ブラインド画像品質評価のためのマルチタスクに基づく深層推論融合ネットワーク

室温での宏观非局所電圧と流体力学電子流の観測

RealBench：リアルワールドIPデザインを使用したVerilog生成モデルのベンチマーク評価

顔認識精度に与える顔フィルタの影響を研究するための包括的評価枠組み

HTTPを介したバーチャルローカルエリアネットワークによる内部攻撃の起動