Resumen - TRPrompt: Autoaprendizaje de Optimización de Prompts Conscientes de la Búsqueda a partir de Recompensas Textuales

Título

TRPrompt: Autoaprendizaje de Optimización de Prompts Conscientes de la Búsqueda a partir de Recompensas Textuales

Tiempo

2025-07-24 17:54:44

Autor

{"Andreea Nica","Ivan Zakazov","Nicolas Mario Baldwin","Saibo Geng","Robert West"}

Categoría

{cs.CL,cs.LG}

Enlace
http://arxiv.org/abs/2507.18618v1

PDF Enlace
http://arxiv.org/pdf/2507.18618v1

Resumen

El documento "TRPrompt: Bootstrapping Query-Aware Prompt Optimization from Textual Rewards" propone un nuevo enfoque para optimizar los prompts para modelos de lenguaje grandes (LLMs) aprovechando recompensas textuales en lugar de recompensas numéricas. Este método, llamado TRPrompt, tiene como objetivo abordar las limitaciones de las técnicas de optimización de prompts existentes que dependen únicamente de recompensas numéricas. **Puntos clave de TRPrompt**: * **Recompensas Textuales**: TRPrompt introduce el concepto de utilizar recompensas textuales como señal de entrenamiento primaria para la optimización de prompts. A diferencia de las recompensas numéricas, las recompensas textuales proporcionan una retroalimentación más rica y sutil, permitiendo que el modelo de prompt entienda mejor la calidad de sus prompts generados. * **Consciente de la Consulta**: TRPrompt se centra en la optimización de prompts dependientes de la consulta, donde el objetivo es generar prompts personalizados para cada consulta individual. Este enfoque es particularmente efectivo para tareas como el razonamiento matemático, donde el contexto de la consulta impacta significativamente en la salida deseada. * **Entrenamiento Iterativo**: TRPrompt emplea un proceso de entrenamiento iterativo que involucra tres pasos principales: 1. **Generación de Prompt Dependiente de la Consulta y Cálculo de Recompensa Textual**: El modelo de prompt genera un prompt específico de la consulta, y el modelo de recompensa textual proporciona retroalimentación sobre su calidad. 2. **Afinación del Modelo de Prompt**: El modelo de prompt se afinó utilizando aprendizaje supervisado basado en las recompensas textuales. 3. **Actualización de la Recompensa Textual Óptima**: La recompensa textual óptima se actualiza utilizando una estrategia de optimización sin entrenamiento como Textgrad. * **Ventajas**: * **Retroalimentación Más Rica**: Las recompensas textuales proporcionan una retroalimentación más informativa y sutil en comparación con las recompensas numéricas, lo que lleva a una mejor optimización de los prompts. * **Sin Necesidad de Prompts de Expertos**: TRPrompt puede aprender prompts desde cero sin depender de los prompts proporcionados por expertos, lo que lo hace más escalable y adaptable. * **Mejora de Rendimiento**: Los experimentos en conjuntos de datos matemáticos desafiantes demuestran que TRPrompt alcanza un rendimiento de vanguardia en comparación con los métodos existentes. **Experimentos y Resultados**: El documento presenta experimentos en tres conjuntos de datos de razonamiento matemático (GSM8K, GSMHard y MATH) para evaluar la efectividad de TRPrompt. Los resultados muestran que TRPrompt supera significativamente a los métodos existentes, especialmente en conjuntos de datos desafiantes como GSMHard y MATH. El proceso de entrenamiento iterativo permite que el modelo de prompt mejore progresivamente su rendimiento aprendiendo de sus propios errores y retroalimentación. **Limitaciones y Trabajo Futuro**: * **Ganancias Reducidas en Conjuntos de Datos Más Sencillos**: TRPrompt puede no generar mejoras significativas en conjuntos de datos más simples donde el modelo objetivo ya realiza bien. * **Costo Computacional Alto**: La búsqueda de la recompensa óptima utilizando Textgrad puede ser computacionalmente costosa y difícil de paralelizar. * **Mayor Aprovechamiento de las Recompensas Textuales**: El marco se puede ampliar a otras tareas donde es difícil definir recompensas numéricas, como la escritura creativa o la poesía. **Conclusión**: TRPrompt ofrece un enfoque prometedor para optimizar los prompts para LLMs aprovechando la expresividad de las recompensas textuales. Este método tiene el potencial de mejorar significativamente el rendimiento de LLMs en una amplia gama de tareas, especialmente aquellas que requieren un entendimiento y razonamiento sutil.

Artículos Recomendados

Codificadores explícitos de magnitud de signo habilitan multiplicadores de eficiencia energética

Desafíos de seguridad en software cuántico en entornos de computación cuántica compartida

Ondas Kelvin y de Rossby intrasezonales en modelos modernos de IA-ML

Aplanamiento $L^2$ de Medidas Auto-similares en Curvas No-degeneradas

Hess-MC2: Metodología de Monte Carlo Secuencial Cuadrado utilizando Información de Hessian y Propuestas de Segundo Orden

Un método novedoso de optimización de topologías de múltiples espesores para equilibrar el rendimiento estructural y la fabricabilidad

Subconjunto Sensible a Certificados: Realización de Complejidad de Instancia

Mitigación de errores cuánticos mediante cancelación de errores aleatorios globales para la evolución adiabática en el modelo de Schwinger

Modulación temporal de la generación de la segunda armónica en los ferroelectridos mediante un campo eléctrico pulsado

El Survey de Abundancias Químicas y Mapeo de los Grupos Abiertos: VIII. Análisis de Gradiente Químico Galáctico y Azimutal desde SDSS/MWM DR19