Zusammenfassung - WSM: Decaysfreie Lernratenplanung durch Checkpoint-Merging für das Vortrainieren von LLM

Titel

WSM: Decaysfreie Lernratenplanung durch Checkpoint-Merging für das Vortrainieren von LLM

Zeit

2025-07-23 16:02:06

Autor

{"Changxin Tian","Jiapeng Wang","Qian Zhao","Kunlong Chen","Jia Liu","Ziqi Liu","Jiaxin Mao","Wayne Xin Zhao","Zhiqiang Zhang","Jun Zhou"}

Kategorie

{cs.CL,cs.LG,I.2.7}

Link
http://arxiv.org/abs/2507.17634v1

PDF Link
http://arxiv.org/pdf/2507.17634v1

Zusammenfassung

Dieses Papier stellt WSM (Warmup-Stable and Merge), einen neuen Ansatz für das Scheduling von Lernraten ohne Abnahme für das vortrainieren großer Sprachmodelle (LLM), vor. Die Hauptidee besteht darin, die traditionelle Abnahmephase zu eliminieren und stattdessen Checkpoint-Merging zu verwenden, um verschiedene Abnahmestrategien wie Kosinus-Abnahme, lineare Abnahme und inverse Quadratwurzel-Abnahme zu simulieren. **Hauptbeiträge**: * **WSM-Framework**: Stellt eine formale Verbindung zwischen Lernratenabnahme und Checkpoint-Merging her, die es ermöglicht, verschiedene Abnahmestrategien als prinzipienbasierte Modelaverage-Verfahren umzusetzen. * **Merge-Dauer**: Identifiziert die Merge-Dauer (Trainingsfenster für Checkpoint-Aggregation) als den wichtigsten Faktor, der die Modellleistung beeinflusst, und übertrifft dabei den Checkpoint-Intervall und die Merge-Menge. * **Leistungsgewinn**: Erreicht erhebliche Verbesserungen gegenüber dem WSD-Verfahren auf mehreren Benchmarks, mit einer Verbesserung von +3,5% auf MATH, +2,9% auf HumanEval und +5,5% auf MMLU-Pro. * **Langfristige Refinierung**: Zeigt Potenzial für langfristige Modellrefinierung in supervised fine-tuning-Szenarien. **Wie WSM funktioniert**: 1. **Warm-up-Phase**: Die Lernrate steigt linear von einem kleinen Wert auf einen Höchstwert. 2. **Stabile Trainingsphase**: Die Lernrate bleibt konstant. 3. **Checkpoint-Merging**: Speichert regelmäßig Checkpoints und merge sie mit verschiedenen Abnahmestrategien, um Abnahme zu simulieren. **Vorteile von WSM**: * **Einfachheit**: Entfällt die Notwendigkeit, Abnahmeparameter manuell zu spezifizieren. * **Flexibilität**: Ermöglicht reibungsloses Training und flexible Annäherung an das Abnahmeverhalten. * **Leistung**: Erreicht erhebliche Verbesserungen gegenüber traditionellen abnahmebasierten Methoden. **Zukünftige Arbeiten**: * Erweitern des WSM-Frameworks um zusätzliche Abnahmestrategien. * Anpassung von WSM an komplexere Anpassungsszenarien, wie die Optimierung von Datenmischungen. **Insgesamt bietet WSM eine vielversprechende Richtung für die Entwicklung effektiver Lernraten-Scheduling-Methoden ohne Abnahme für das vortrainieren großer Sprachmodelle**.

Empfohlene Papiere

Das merkwürdige Mini-Halo im Shapley-Supernova-Cluster-Mitglied Abell 3558

Multiobjekt-Portfoliounterhaltung über Gradientenabstieg

Neuromorphe Computing: Ein theoretisches Rahmenwerk für Zeit, Raum und Energieskalierung

Hydrodynamische Biegeinstabilität von beweglichen Partikeln auf einem Substrat

Gemeinsamer asymmetrischer Verlust für das Lernen mit ruhelosen Labels

Umkehrbare lokale Spannungsingenieurarbeit an $\mathrm{WS}_2$ mittels eines Mikromechanischen Feders

"Radiusverhältnis-Skalierung unter den Sternen niedriger Masse gemäß TESS"

Geheimnisse aus dem frühen Universum: Der Ringdown primordialer Schwarzer Löcher

Metrische Rekonstruktion und der Hamiltonian für exzentrische, präzessierende Binäre im Limit einer kleinen Massenverhältnisse

Konstruktion von Materialnetzwerkdarstellungen für die intelligente Gestaltung amorphen Legierungen