Zusammenfassung - WSM: Decaysfreie Lernratenplanung durch Checkpoint-Merging für das Vortrainieren von LLM
Titel
WSM: Decaysfreie Lernratenplanung durch Checkpoint-Merging für das Vortrainieren von LLM
Zeit
2025-07-23 16:02:06
Autor
{"Changxin Tian","Jiapeng Wang","Qian Zhao","Kunlong Chen","Jia Liu","Ziqi Liu","Jiaxin Mao","Wayne Xin Zhao","Zhiqiang Zhang","Jun Zhou"}
Kategorie
{cs.CL,cs.LG,I.2.7}
Link
http://arxiv.org/abs/2507.17634v1
PDF Link
http://arxiv.org/pdf/2507.17634v1
Zusammenfassung
Dieses Papier stellt WSM (Warmup-Stable and Merge), einen neuen Ansatz für das Scheduling von Lernraten ohne Abnahme für das vortrainieren großer Sprachmodelle (LLM), vor. Die Hauptidee besteht darin, die traditionelle Abnahmephase zu eliminieren und stattdessen Checkpoint-Merging zu verwenden, um verschiedene Abnahmestrategien wie Kosinus-Abnahme, lineare Abnahme und inverse Quadratwurzel-Abnahme zu simulieren.
**Hauptbeiträge**:
* **WSM-Framework**: Stellt eine formale Verbindung zwischen Lernratenabnahme und Checkpoint-Merging her, die es ermöglicht, verschiedene Abnahmestrategien als prinzipienbasierte Modelaverage-Verfahren umzusetzen.
* **Merge-Dauer**: Identifiziert die Merge-Dauer (Trainingsfenster für Checkpoint-Aggregation) als den wichtigsten Faktor, der die Modellleistung beeinflusst, und übertrifft dabei den Checkpoint-Intervall und die Merge-Menge.
* **Leistungsgewinn**: Erreicht erhebliche Verbesserungen gegenüber dem WSD-Verfahren auf mehreren Benchmarks, mit einer Verbesserung von +3,5% auf MATH, +2,9% auf HumanEval und +5,5% auf MMLU-Pro.
* **Langfristige Refinierung**: Zeigt Potenzial für langfristige Modellrefinierung in supervised fine-tuning-Szenarien.
**Wie WSM funktioniert**:
1. **Warm-up-Phase**: Die Lernrate steigt linear von einem kleinen Wert auf einen Höchstwert.
2. **Stabile Trainingsphase**: Die Lernrate bleibt konstant.
3. **Checkpoint-Merging**: Speichert regelmäßig Checkpoints und merge sie mit verschiedenen Abnahmestrategien, um Abnahme zu simulieren.
**Vorteile von WSM**:
* **Einfachheit**: Entfällt die Notwendigkeit, Abnahmeparameter manuell zu spezifizieren.
* **Flexibilität**: Ermöglicht reibungsloses Training und flexible Annäherung an das Abnahmeverhalten.
* **Leistung**: Erreicht erhebliche Verbesserungen gegenüber traditionellen abnahmebasierten Methoden.
**Zukünftige Arbeiten**:
* Erweitern des WSM-Frameworks um zusätzliche Abnahmestrategien.
* Anpassung von WSM an komplexere Anpassungsszenarien, wie die Optimierung von Datenmischungen.
**Insgesamt bietet WSM eine vielversprechende Richtung für die Entwicklung effektiver Lernraten-Scheduling-Methoden ohne Abnahme für das vortrainieren großer Sprachmodelle**.
Empfohlene Papiere
Das merkwürdige Mini-Halo im Shapley-Supernova-Cluster-Mitglied Abell 3558
Multiobjekt-Portfoliounterhaltung über Gradientenabstieg
Neuromorphe Computing: Ein theoretisches Rahmenwerk für Zeit, Raum und Energieskalierung
Hydrodynamische Biegeinstabilität von beweglichen Partikeln auf einem Substrat
Gemeinsamer asymmetrischer Verlust für das Lernen mit ruhelosen Labels
Umkehrbare lokale Spannungsingenieurarbeit an $\mathrm{WS}_2$ mittels eines Mikromechanischen Feders
"Radiusverhältnis-Skalierung unter den Sternen niedriger Masse gemäß TESS"
Geheimnisse aus dem frühen Universum: Der Ringdown primordialer Schwarzer Löcher
Metrische Rekonstruktion und der Hamiltonian für exzentrische, präzessierende Binäre im Limit einer kleinen Massenverhältnisse
Konstruktion von Materialnetzwerkdarstellungen für die intelligente Gestaltung amorphen Legierungen