Resumen - WSM: Horario de Aprendizaje Sin Decaimiento mediante Fusion de Puntos de Control para el Preentrenamiento de LLM
Título
WSM: Horario de Aprendizaje Sin Decaimiento mediante Fusion de Puntos de Control para el Preentrenamiento de LLM
Tiempo
2025-07-23 16:02:06
Autor
{"Changxin Tian","Jiapeng Wang","Qian Zhao","Kunlong Chen","Jia Liu","Ziqi Liu","Jiaxin Mao","Wayne Xin Zhao","Zhiqiang Zhang","Jun Zhou"}
Categoría
{cs.CL,cs.LG,I.2.7}
Enlace
http://arxiv.org/abs/2507.17634v1
PDF Enlace
http://arxiv.org/pdf/2507.17634v1
Resumen
Este documento introduce WSM (Warmup-Stable and Merge), un nuevo enfoque de programación de tasas de aprendizaje sin descomposición para el preentrenamiento de grandes modelos de lenguaje (LLM). La idea principal es eliminar la fase tradicional de descomposición y, en su lugar, usar la fusión de puntos de control para simular diversas estrategias de descomposición, como la descomposición cósica, la descomposición lineal y la descomposición inversa del cuadrado de la raíz.
**Contribuciones clave**:
* **Marco WSM**: Establece una conexión formal entre la descomposición de la tasa de aprendizaje y la fusión de puntos de control, permitiendo que diversas estrategias de descomposición se implementen como esquemas de promedio de modelos basados en principios.
* **Duración de la fusión**: Identifica la duración de la fusión (ventana de entrenamiento para la agregación de puntos de control) como el factor más crítico que influye en el rendimiento del modelo, superando el intervalo de puntos de control y la cantidad de fusión.
* **Mejoras en el rendimiento**: Logra mejoras significativas sobre el método WSD en múltiples benchmarks, con mejoras de +3.5% en MATH, +2.9% en HumanEval y +5.5% en MMLU-Pro.
* **Refinamiento a largo plazo**: Demuestra el potencial para el refinamiento a largo plazo de modelos en escenarios de ajuste supervisado.
**Cómo funciona WSM**:
1. **Fase de calentamiento**: La tasa de aprendizaje aumenta linealmente desde un valor pequeño hasta un valor máximo.
2. **Fase de entrenamiento estable**: La tasa de aprendizaje se mantiene constante.
3. **Fusión de puntos de control**: Guardar puntos de control periódicamente y fusionarlos utilizando diversas estrategias de descomposición para simular la descomposición.
**Beneficios de WSM**:
* **Simplicidad**: Elimina la necesidad de especificar manualmente parámetros de descomposición.
* **Flexibilidad**: Permite la continuación suave del entrenamiento y la aproximación flexible del comportamiento de descomposición.
* **Rendimiento**: Logra mejoras significativas sobre métodos basados en descomposición tradicionales.
**Trabajo futuro**:
* Ampliar el marco WSM para incluir estrategias de descomposición adicionales.
* Adaptar WSM a escenarios de ajuste más complejos, como la optimización de la mezcla de conjuntos de datos.
**En resumen, WSM presenta una dirección prometedora para desarrollar enfoques efectivos de programación de tasas de aprendizaje sin descomposición para el preentrenamiento de LLM**.
Artículos Recomendados
Pedir según el tamaño de los discos en un canal estrecho
Fundamentación del sujeto para reducir la interferencia electromagnética en escáneres de RMN operando en entornos no blindados
Escala de valles de radio entre estrellas de baja masa con TESS
Revisando la Fiabilidad en el Marco de Evaluación de Estimación de Poses Basada en la Razonamiento
MOFCO: Descarga de Tareas Consciente de la Movilidad y la Migración en Entornos de Computación en Niebla de Tres Capas
Un Marco de Minimización de Riesgo Empírico Unificado para Supervisión Débil Flexible de N-Tuplos
Barreras computacionales para problemas basados en permutaciones y cumulantes de variables aleatorias débilmente dependientes.
Soluciones fuertemente periódicas a un problema de interacción fluido-estructura en capas múltiples
Estados de alta energía de trayectorias caóticas recurrentes en un pozo potencial dependiente del tiempo
Análisis Térmico de Espectros de Momentum Transversal en Colisiones Pb-Pb a 2.76 TeV: Dependencia de la Centralidad de la Temperatura, Parámetros de Congelamiento y No-Extensividad