Résumé - RailX : Une architecture de réseau flexible, évolutive et à faible coût pour les systèmes de formation à grande échelle des LLM (Langage de Modèle Hyper)
Titre
RailX : Une architecture de réseau flexible, évolutive et à faible coût pour les systèmes de formation à grande échelle des LLM (Langage de Modèle Hyper)
Temps
2025-07-25 02:16:08
Auteur
{"Yinxiao Feng","Tiancheng Chen","Yuchen Wei","Siyuan Shen","Shiju Wang","Wei Li","Kaisheng Ma","Torsten Hoefler"}
Catégorie
{cs.AR,cs.DC,cs.NI}
Lien
http://arxiv.org/abs/2507.18889v1
PDF Lien
http://arxiv.org/pdf/2507.18889v1
Résumé
Le papier propose RailX, une nouvelle architecture de réseau conçue pour répondre aux défis de l'échelle des grandes charges de travail d'IA, en particulier pour les systèmes de formation de LLM à grande échelle. Les architectures de réseau traditionnelles, telles que Fat-Tree et Torus, sont soit trop coûteuses, soit manquent de l'échelle et de la flexibilité nécessaires pour ces charges de travail.
**Caractéristiques clés de RailX** :
* **Architecture de réseau réconfigurable** : RailX utilise la connectivité directe intra-nœud et le commutage de circuits inter-nœuds, ce qui permet une meilleure échelle par rapport aux réseaux de commutation de circuits centralisés existants.
* **Méthode d'interconnexion innovante** : Basée sur la théorie de la décomposition hamiltonienne, RailX organise des anneaux de rail séparés en une topologie à tous-contre-tous, optimisant à la fois la communication collective en anneau et la communication à tous-contre-tous.
* **Coût-efficace** : RailX peut interconnecter plus de 100K puces avec une bande passante de 1,8 TB en utilisant une couche de commutation plate, avec des coûts considérablement inférieurs à ceux de Fat-Tree traditionnelle.
* **Flexible et élastique** : RailX peut être utilisé dans des scénarios MLaaS, permettant une cartographie flexible de diverses charges de travail de formation de LLM et une récupération de panne efficace.
**Avantages de RailX** :
* **Haute échelle** : RailX peut gérer des systèmes à grande échelle avec des dizaines de milliers de puces, ce qui le rend approprié pour la formation de LLM à grande échelle.
* **Coût-efficacité** : RailX offre des coûts par bande passante d'injection/All-Reduce et par bisection/All-to-All inférieurs à ceux de Fat-Tree traditionnelle.
* **Flexibilité** : RailX peut être configuré pour soutenir diverses topologies de réseau, telles que Torus, HyperX et Dragonfly, offrant une flexibilité pour différents types de charges de travail.
* **Fiabilité** : RailX peut gérer les pannes efficacement en utilisant des commutateurs de circuits optiques (OCS) pour contourner les nœuds défaillants.
**Applications de RailX** :
* **Formation de LLM à grande échelle** : RailX est bien adapté à la formation de grands LLM avec une parallélisation à haute dimension et des stratégies de parallélisation mixte.
* **MLaaS** : RailX peut être utilisé dans des scénarios MLaaS pour soutenir diverses charges de travail de formation et utiliser efficacement les ressources.
**Comparaison avec les réseaux existants** :
* **Fat-Tree** : RailX offre une bande passante similaire mais à un coût considérablement plus bas.
* **Torus** : RailX offre une meilleure bande passante bisectionnée et une meilleure échelle, en particulier pour les charges de travail de parallélisation à haute dimension.
* **HammingMesh** : RailX atteint une meilleure échelle et un débit All-Reduce plus élevé que HammingMesh.
**Conclusion** :
RailX est une architecture de réseau prometteuse pour soutenir la formation de LLM à grande échelle et d'autres grandes charges de travail d'IA. Sa conception unique offre une haute échelle, une coût-efficacité, une flexibilité et une fiabilité, ce qui en fait un choix attrayant pour les infrastructures de centre de données et d'IA futures.
Articles Recommandés
Ensembles réguliers dans les graphes de somme de Cayley sur les groupes dicycliques généralisés
Nouveaux modèles Isobar pour la production électrocinétique $K^+Λ$
La recherche de clauses faussées dans les (log n)-CNFs aléatoires est difficile pour les communications aléatoires
Bootstrapping du point critique quantique le plus simple déconfiné
Propriétés asymptotiques des zéros de la fonction zêta de Riemann
Observable des arbres de couverture aléatoires dans un environnement aléatoire
Déséquilibre dans l'Équilibre : Équilibrage des Concepts En Ligne dans les Modèles de Génération
Hiérarchie de Whitham de genre zéro via les variétés de Hurwitz--Frobenius
Instabilité dans les processus de vieillissement d'Ostwald
Monophotons provenant de la Matière Noire de Portail Scalaire aux Expériences de Neutrinos