Résumé - TRPrompt : Amorçage de l'optimisation des prompts-aware aux requêtes à partir des récompenses textuelles
Titre
TRPrompt : Amorçage de l'optimisation des prompts-aware aux requêtes à partir des récompenses textuelles
Temps
2025-07-24 17:54:44
Auteur
{"Andreea Nica","Ivan Zakazov","Nicolas Mario Baldwin","Saibo Geng","Robert West"}
Catégorie
{cs.CL,cs.LG}
Lien
http://arxiv.org/abs/2507.18618v1
PDF Lien
http://arxiv.org/pdf/2507.18618v1
Résumé
L'article "TRPrompt : Bootstrapping Query-Aware Prompt Optimization from Textual Rewards" propose une approche novatrice pour optimiser les prompts pour les modèles de langage grandement paramétrés (LLMs) en s'appuyant sur des récompenses textuelles plutôt que sur des récompenses numériques. Cette méthode, appelée TRPrompt, vise à combler les limites des techniques actuelles d'optimisation des prompts qui dépendent exclusivement des récompenses numériques.
**Points clés de TRPrompt** :
* **Récompenses textuelles** : TRPrompt introduit le concept d'utiliser des récompenses textuelles comme signal d'entraînement primaire pour l'optimisation des prompts. Contrairement aux récompenses numériques, les récompenses textuelles fournissent un feedback plus riche et plus nuancé, permettant au modèle de prompt de mieux comprendre la qualité de ses prompts générés.
* **Query-Aware** : TRPrompt se concentre sur l'optimisation des prompts dépendants de la requête, où l'objectif est de générer des prompts adaptés à chaque requête individuelle. Cette approche est particulièrement efficace pour des tâches telles que la raison mathématique, où le contexte de la requête a une incidence significative sur le résultat souhaité.
* **Entraînement itératif** : TRPrompt utilise un processus d'entraînement itératif qui implique trois étapes principales :
1. **Génération de prompts dépendants de la requête et calcul des récompenses textuelles** : Le modèle de prompt génère un prompt spécifique à la requête, et le modèle de récompense textuelle fournit un feedback sur sa qualité.
2. **Ajustement fin du modèle de prompt** : Le modèle de prompt est ajusté en utilisant l'apprentissage supervisé basé sur les récompenses textuelles.
3. **Mise à jour de la récompense textuelle optimale** : La récompense textuelle optimale est mise à jour en utilisant une stratégie d'optimisation sans entraînement comme Textgrad.
* **Avantages** :
* **Feedback plus détaillé** : Les récompenses textuelles fournissent un feedback plus informatif et plus nuancé par rapport aux récompenses numériques, conduisant à une meilleure optimisation des prompts.
* **Pas besoin de prompts d'experts** : TRPrompt peut apprendre des prompts de zéro sans s'appuyer sur des prompts fournis par des experts, ce qui le rend plus scalable et adaptable.
* **Performance améliorée** : Des expériences sur des ensembles de données mathématiques complexes montrent que TRPrompt atteint une performance de pointe par rapport aux méthodes existantes.
**Expériences et résultats** :
L'article présente des expériences sur trois ensembles de données de raison mathématique (GSM8K, GSMHard et MATH) pour évaluer l'efficacité de TRPrompt. Les résultats montrent que TRPrompt surpasse considérablement les méthodes existantes, en particulier sur des ensembles de données complexes comme GSMHard et MATH. Le processus d'entraînement itératif permet au modèle de prompt d'améliorer progressivement sa performance en apprenant de ses erreurs et de ses feedbacks.
**Limites et travaux futurs** :
* **Gains réduits sur les ensembles de données plus simples** : TRPrompt peut ne pas offrir d'améliorations significatives sur des ensembles de données simples où le modèle cible fonctionne déjà bien.
* **Coût de calcul élevé** : L'étape de recherche de la récompense optimale en utilisant Textgrad peut être coûteuse en termes de calcul et difficile à paralléliser.
* **Utilisation plus extensive des récompenses textuelles** : Le cadre peut être étendu à d'autres tâches où les récompenses numériques sont difficiles à définir, telles que la rédaction créative ou la poésie.
**Conclusion** :
TRPrompt offre une approche prometteuse pour optimiser les prompts pour les LLMs en exploitant l'expressivité des récompenses textuelles. Cette méthode a le potentiel de améliorer considérablement la performance des LLMs sur une large gamme de tâches, en particulier celles qui nécessitent une compréhension et une raison nuancées.
Articles Recommandés
Le comportement interscalaire de l'incertitude dans la turbulence des équations de Navier-Stokes en trois dimensions
Heure de réveil améliorée pour le problème du tagage à gel euclidien
Somme des chemins de Feynman en temps réel des polarons de grille en états d'opérateurs de produit matriciel
Complexité des Explications Facétialisées dans l'Abduction Propositionnelle
Optimisation de la segmentation HSI basée sur le DNN pour un SoC FPGA destiné aux ADS : Une approche pratique
Apprentissage par fusion tardive multi-tâche pour l'inférence semi-paramétrique avec des paramètres de nuance
Un seuil inférieur inconditionnel pour la méthode de l'ensemble actif en maximisation quadratique convexe
Hiérarchie de Whitham de genre zéro via les variétés de Hurwitz--Frobenius
Pas même métastable : double diamant cubique dans les fondus de copolymères en blocs bicarbones.
Systèmes dynamiques sur le tore liés aux équations générales de Heun : zones de verrouillage des phases et bris de rétrécissement