概要 - WSM: LLM事前学習のためのチェックポイント統合によるデイコイ・ラーニング・レート・スケジュール

タイトル

WSM: LLM事前学習のためのチェックポイント統合によるデイコイ・ラーニング・レート・スケジュール

時間

2025-07-23 16:02:06

著者

{"Changxin Tian","Jiapeng Wang","Qian Zhao","Kunlong Chen","Jia Liu","Ziqi Liu","Jiaxin Mao","Wayne Xin Zhao","Zhiqiang Zhang","Jun Zhou"}

カテゴリ

{cs.CL,cs.LG,I.2.7}

リンク
http://arxiv.org/abs/2507.17634v1

PDF リンク
http://arxiv.org/pdf/2507.17634v1

概要

この論文では、大型言語モデル（LLM）の事前学習のための新しい減衰なしの学習率スケジューリング方法であるWSM（Warmup-Stable and Merge）を紹介します。主なアイデアは、伝統的な減衰フェーズを排除し、代わりにチェックポイント統合を使用して、余弦減衰、線形減衰、逆平方根減衰などのさまざまな減衰戦略をシミュレートすることです。 **主要な貢献**： * **WSMフレームワーク**：学習率減衰とチェックポイント統合の間に形式的な関係を築き、さまざまな減衰戦略を原則的なモデル平均手法として実施することができます。 * **統合期間**：統合期間（チェックポイント集約のトレーニングウィンドウ）がモデル性能に最も影響を与える最も重要な要素であることを特定し、チェックポイント間隔や統合量を凌駕しました。 * **性能向上**：WSD方法を上回る大幅な改善を多くのベンチマークで達成し、MATHで+3.5%、HumanEvalで+2.9%、MMLU-Proで+5.5%の改善を達成しました。 * **長期の精査**：監督的な微調整シナリオにおける長期モデルの精査の可能性を示しました。 **WSMがどのように機能するか**： 1. **ウォームアップフェーズ**：学習率は小さな値からピーク値に線形に増加します。 2. **安定トレーニングフェーズ**：学習率は一定のままです。 3. **チェックポイント統合**：定期的にチェックポイントを保存し、さまざまな減衰戦略を使用して統合することで減衰をシミュレートします。 **WSMの利点**： * **シンプルさ**：減衰パラメータを手動で指定する必要がありません。 * **柔軟性**：トレーニングの継続と柔軟な減衰行動の近似を可能にします。 * **性能**：伝統的な減衰に基づく方法を上回る大幅な改善を達成します。 **今後の研究**： * WSMフレームワークを拡張し、追加の減衰戦略を含める。 * データセットミックス最適化などのより複雑な調整シナリオにWSMを適用する。 **全体として、WSMはLLMの事前学習のための効果的な減衰なしの学習率スケジューリング方法を開発するための有望な方向を示しています**。

推奨論文

ランク5までおよびそれ以上の積分Grothendieck環を分類する

構造性能と製造性のバランスを取るための新しい多厚さトポロジー最適化法

三次元UAVパスプランニングと工学問題のための多戦略改善型スネーク最適化アルゴリズム

MMBench-GUI: グラフィカルユーザインターフェースエージェントのための階層的多プラットフォーム評価フレームワーク

フレッドキン-ヨンセン意見動態モデルの関連する量に対する効率的なアルゴリズム

「同等に有効なモデルからの任意の予測」

SpeechIQ：音声理解の大規模言語モデルにおける認知レベルにわたる音声知能指数

共有量子コンピューシング環境における量子ソフトウェアセキュリティの課題

群のFourier解析を通じて拡張歩行の擬似乱数性

IFD: 内部者報告違反検出のための大規模バンチマーク