Résumé - TRPrompt : Amorçage de l'optimisation des prompts-aware aux requêtes à partir des récompenses textuelles

Titre

TRPrompt : Amorçage de l'optimisation des prompts-aware aux requêtes à partir des récompenses textuelles

Temps

2025-07-24 17:54:44

Auteur

{"Andreea Nica","Ivan Zakazov","Nicolas Mario Baldwin","Saibo Geng","Robert West"}

Catégorie

{cs.CL,cs.LG}

Lien
http://arxiv.org/abs/2507.18618v1

PDF Lien
http://arxiv.org/pdf/2507.18618v1

Résumé

L'article "TRPrompt : Bootstrapping Query-Aware Prompt Optimization from Textual Rewards" propose une approche novatrice pour optimiser les prompts pour les modèles de langage grandement paramétrés (LLMs) en s'appuyant sur des récompenses textuelles plutôt que sur des récompenses numériques. Cette méthode, appelée TRPrompt, vise à combler les limites des techniques actuelles d'optimisation des prompts qui dépendent exclusivement des récompenses numériques. **Points clés de TRPrompt** : * **Récompenses textuelles** : TRPrompt introduit le concept d'utiliser des récompenses textuelles comme signal d'entraînement primaire pour l'optimisation des prompts. Contrairement aux récompenses numériques, les récompenses textuelles fournissent un feedback plus riche et plus nuancé, permettant au modèle de prompt de mieux comprendre la qualité de ses prompts générés. * **Query-Aware** : TRPrompt se concentre sur l'optimisation des prompts dépendants de la requête, où l'objectif est de générer des prompts adaptés à chaque requête individuelle. Cette approche est particulièrement efficace pour des tâches telles que la raison mathématique, où le contexte de la requête a une incidence significative sur le résultat souhaité. * **Entraînement itératif** : TRPrompt utilise un processus d'entraînement itératif qui implique trois étapes principales : 1. **Génération de prompts dépendants de la requête et calcul des récompenses textuelles** : Le modèle de prompt génère un prompt spécifique à la requête, et le modèle de récompense textuelle fournit un feedback sur sa qualité. 2. **Ajustement fin du modèle de prompt** : Le modèle de prompt est ajusté en utilisant l'apprentissage supervisé basé sur les récompenses textuelles. 3. **Mise à jour de la récompense textuelle optimale** : La récompense textuelle optimale est mise à jour en utilisant une stratégie d'optimisation sans entraînement comme Textgrad. * **Avantages** : * **Feedback plus détaillé** : Les récompenses textuelles fournissent un feedback plus informatif et plus nuancé par rapport aux récompenses numériques, conduisant à une meilleure optimisation des prompts. * **Pas besoin de prompts d'experts** : TRPrompt peut apprendre des prompts de zéro sans s'appuyer sur des prompts fournis par des experts, ce qui le rend plus scalable et adaptable. * **Performance améliorée** : Des expériences sur des ensembles de données mathématiques complexes montrent que TRPrompt atteint une performance de pointe par rapport aux méthodes existantes. **Expériences et résultats** : L'article présente des expériences sur trois ensembles de données de raison mathématique (GSM8K, GSMHard et MATH) pour évaluer l'efficacité de TRPrompt. Les résultats montrent que TRPrompt surpasse considérablement les méthodes existantes, en particulier sur des ensembles de données complexes comme GSMHard et MATH. Le processus d'entraînement itératif permet au modèle de prompt d'améliorer progressivement sa performance en apprenant de ses erreurs et de ses feedbacks. **Limites et travaux futurs** : * **Gains réduits sur les ensembles de données plus simples** : TRPrompt peut ne pas offrir d'améliorations significatives sur des ensembles de données simples où le modèle cible fonctionne déjà bien. * **Coût de calcul élevé** : L'étape de recherche de la récompense optimale en utilisant Textgrad peut être coûteuse en termes de calcul et difficile à paralléliser. * **Utilisation plus extensive des récompenses textuelles** : Le cadre peut être étendu à d'autres tâches où les récompenses numériques sont difficiles à définir, telles que la rédaction créative ou la poésie. **Conclusion** : TRPrompt offre une approche prometteuse pour optimiser les prompts pour les LLMs en exploitant l'expressivité des récompenses textuelles. Cette méthode a le potentiel de améliorer considérablement la performance des LLMs sur une large gamme de tâches, en particulier celles qui nécessitent une compréhension et une raison nuancées.

Articles Recommandés

Le comportement interscalaire de l'incertitude dans la turbulence des équations de Navier-Stokes en trois dimensions

Heure de réveil améliorée pour le problème du tagage à gel euclidien

Somme des chemins de Feynman en temps réel des polarons de grille en états d'opérateurs de produit matriciel

Complexité des Explications Facétialisées dans l'Abduction Propositionnelle

Optimisation de la segmentation HSI basée sur le DNN pour un SoC FPGA destiné aux ADS : Une approche pratique

Apprentissage par fusion tardive multi-tâche pour l'inférence semi-paramétrique avec des paramètres de nuance

Un seuil inférieur inconditionnel pour la méthode de l'ensemble actif en maximisation quadratique convexe

Hiérarchie de Whitham de genre zéro via les variétés de Hurwitz--Frobenius

Pas même métastable : double diamant cubique dans les fondus de copolymères en blocs bicarbones.

Systèmes dynamiques sur le tore liés aux équations générales de Heun : zones de verrouillage des phases et bris de rétrécissement