Résumé - WSM : Plan d'apprentissage sans dégradation via fusion de points de contrôle pour le pré-entraînement des LLM

Titre
WSM : Plan d'apprentissage sans dégradation via fusion de points de contrôle pour le pré-entraînement des LLM

Temps
2025-07-23 16:02:06

Auteur
{"Changxin Tian","Jiapeng Wang","Qian Zhao","Kunlong Chen","Jia Liu","Ziqi Liu","Jiaxin Mao","Wayne Xin Zhao","Zhiqiang Zhang","Jun Zhou"}

Catégorie
{cs.CL,cs.LG,I.2.7}

Lien
http://arxiv.org/abs/2507.17634v1

PDF Lien
http://arxiv.org/pdf/2507.17634v1

Résumé

Ce document présente WSM (Warmup-Stable and Merge), une nouvelle approche de planification des taux d'apprentissage sans dégradation pour l'entraînement préalable des modèles de langage grand (LLM). L'idée principale consiste à éliminer la phase traditionnelle de dégradation et, à la place, à utiliser la fusion de points de contrôle pour simuler diverses stratégies de dégradation, telles que la dégradation cosinus, la dégradation linéaire et la dégradation inverse de la racine carrée. **Contributions clés** : * **Cadre WSM** : Établit une connexion formelle entre la dégradation du taux d'apprentissage et la fusion de points de contrôle, permettant l'implémentation de diverses stratégies de dégradation en tant que schémas d'homogénéisation de modèle principalement basés sur les modèles. * **Durée de fusion** : Identifie la durée de fusion (fenêtre d'entraînement pour l'agrégation de points de contrôle) comme le facteur le plus critique influençant les performances du modèle, surpassant l'intervalle de point de contrôle et la quantité de fusion. * **Améliorations des performances** : Obtient des améliorations significatives par rapport à la méthode WSD sur plusieurs benchmarks, avec des améliorations de +3,5% sur MATH, +2,9% sur HumanEval et +5,5% sur MMLU-Pro. * **Refinement à long terme** : Démontre un potentiel pour le raffinement à long terme des modèles dans des scénarios de réglage superviseur. **Comment WSM fonctionne** : 1. **Phase de réchauffement** : Le taux d'apprentissage augmente linéairement à partir d'une valeur petite à une valeur maximale. 2. **Phase d'entraînement stable** : Le taux d'apprentissage reste constant. 3. **Fusion de points de contrôle** : Enregistrer périodiquement des points de contrôle et les fusionner en utilisant diverses stratégies de dégradation pour simuler la dégradation. **Avantages de WSM** : * **Simplicité** : Élimine la nécessité de spécifier manuellement les paramètres de dégradation. * **Flexibilité** : Permet une continuité d'entraînement sans heurt et une approximation flexible du comportement de dégradation. * **Performance** : Obtient des améliorations significatives par rapport aux méthodes traditionnelles basées sur la dégradation. **Travaux futurs** : * Étendre le cadre WSM pour inclure des stratégies de dégradation supplémentaires. * Adapter WSM à des scénarios de réglage plus complexes, tels que l'optimisation de la combinaison de jeux de données. **Dans l'ensemble, WSM représente une direction prometteuse pour développer des approches de planification des taux d'apprentissage sans dégradation efficaces pour l'entraînement préalable des modèles de langage grand**.


Articles Recommandés

A3D-MoE : Accélération des grands modèles de langage avec Mixture of Experts via l'intégration hétérogène 3D

Méthodes pour réduire les coûts accessoires en encodage par blocs

Apprentissage amélioré de la récupération pour l'alignement et la fusion visuel-texte renforcés à l'intention de la génération de rapports de radiologie

Oscillationsphasiques à multiples échelles induites par la synchronisation en grappe dans le réseau cérébral central humain

Résamplage isotrope avec optimisation inter-angles

Expliqueur de Cartes : Cartographie des Espaces d'Embeddings des LLM à l'Aide d'Agents d'Explication et de Vérification Basés sur la Perturbation

Intersections des automorphismes et des strates d'Ekedahl-Oort dans $M_2$

Superlubrissité du Borophène : Propriétés tribologiques par comparaison à l'hBN

Validation multicentrique d'un modèle de learning profond pour l'évaluation de la scoliose

Apprentissage contrastif Audio-Vision pour la reconnaissance des classes phonologiques