概要 - RailX:超スケールLLMトレーニングシステムのための柔軟で拡張可能で低コストなネットワークアーキテクチャ
タイトル
RailX:超スケールLLMトレーニングシステムのための柔軟で拡張可能で低コストなネットワークアーキテクチャ
時間
2025-07-25 02:16:08
著者
{"Yinxiao Feng","Tiancheng Chen","Yuchen Wei","Siyuan Shen","Shiju Wang","Wei Li","Kaisheng Ma","Torsten Hoefler"}
カテゴリ
{cs.AR,cs.DC,cs.NI}
リンク
http://arxiv.org/abs/2507.18889v1
PDF リンク
http://arxiv.org/pdf/2507.18889v1
概要
この論文は、特に超大規模なLLMトレーニングシステムに対する大規模AIワークロードのスケーリングの課題を解決するための新しいネットワークアーキテクチャであるRailXを提案しています。伝統的なネットワークアーキテクチャ、例えばFat-TreeやTorusは、これらのワークロードに対して必要なスケーラビリティや柔軟性に欠けているか、またはコストが高すぎます。 **RailXの主要な機能**: * **リコンフィギュラブルネットワークアーキテクチャ**:RailXはノード間の直接接続とノード間の回路切り替えを使用し、既存の集中型回路切り替えネットワークよりも良いスケーラビリティを実現します。 * **新しいインターコネクション方法**:ハミルトニアン分解理論に基づき、RailXは個別のレールベースのリングを全対全トポロジに構成し、リングコレクティブと全対全通信の両方を最適化します。 * **コスト効果**:RailXはフラットなスイッチングレイヤを使用して、1.8TBのバンド幅で10万以上のチップを接続でき、伝統的なFat-Treeよりも大幅に低いコストで実現可能です。 * **柔軟でスケーラブル**:RailXはMLaaSシナリオで使用され、多様なLLMトレーニングワークロードの柔軟なマッピングと効率的なフェイルオーバーリカバリを実現します。 **RailXの利点**: * **高いスケーラビリティ**:RailXは数万のチップを持つ大規模システムをサポートし、超大規模なLLMトレーニングに適しています。 * **コスト効果**:RailXは伝統的なFat-Treeよりも、注入/全減少バンド幅、および二分バンド幅/全対全バンド幅あたりのコストが低いです。 * **柔軟性**:RailXはトーラス、HyperX、ドラゴンフライなどのさまざまなネットワークトポロジをサポートするように設定できます、異なるワークロードに対する柔軟性を提供します。 * **信頼性**:RailXは光回路スイッチ(OCS)を使用して失敗したノードを迂回することで、効率的にフェイルを処理できます。 **RailXの適用**: * **超大規模なLLMトレーニング**:RailXは高次元並列とミックス並列戦略を持つ大規模なLLMのトレーニングに非常に適しています。 * **MLaaS**:RailXはMLaaSシナリオで使用され、多様なトレーニングワークロードをサポートし、リソースを効率的に利用します。 **既存ネットワークとの比較**: * **Fat-Tree**:RailXは類似のバンド幅を提供しますが、大幅に低いコストで実現可能です。 * **Torus**:RailXは特に高次元並列ワークロードに対して、より良い二分バンド幅とスケーラビリティを提供します。 * **HammingMesh**:RailXはHammingMeshよりも高いスケーラビリティと高い全減少スループットを実現します。 **結論**: RailXは超大規模なLLMトレーニングや他の大規模AIワークロードをサポートするための有望なネットワークアーキテクチャです。その独自のデザインは高いスケーラビリティ、コスト効果、柔軟性、そして信頼性を提供し、今後のデータセンターとAIインフラの選択肢として魅力的です。
推奨論文
GenoMAS:コード駆動型遺伝子発現解析を通じて科学発見のためのマルチエージェントフレームワーク
分数的および拡張したハイパートリewidthのFPTパラメタ化
生成エネルギーアリーナ(GEA):大規模言語モデル(LLM)の人間評価にエネルギー意識を組み込む
機械学習支援のタンパク質工学のためのベストプラクティス
室温での宏观非局所電圧と流体力学電子流の観測
任意の欠損モダリティを持つ多様な脳腫瘍セグメンテーションのためのセマンチックガイド付きマスク付き相互学習
大規模言語モデルが評価でどの程度「嘘をつく」か? Once-Pad-Based Frameworkの下でのベンチマークオーバーステイメントの評価
ロボットサッカーのための効率的なライン検出
MMBench-GUI: グラフィカルユーザインターフェースエージェントのための階層的多プラットフォーム評価フレームワーク
光顕微鏡および生物医学画像における曲線構造のセグメントーションのための適応的な注目残差U-Net