Zusammenfassung - RailX: Eine flexible, skalierbare und kostengünstige Netzwerkarchitektur für Hyper-Scale LLM-Trainingsysteme
Titel
RailX: Eine flexible, skalierbare und kostengünstige Netzwerkarchitektur für Hyper-Scale LLM-Trainingsysteme
Zeit
2025-07-25 02:16:08
Autor
{"Yinxiao Feng","Tiancheng Chen","Yuchen Wei","Siyuan Shen","Shiju Wang","Wei Li","Kaisheng Ma","Torsten Hoefler"}
Kategorie
{cs.AR,cs.DC,cs.NI}
Link
http://arxiv.org/abs/2507.18889v1
PDF Link
http://arxiv.org/pdf/2507.18889v1
Zusammenfassung
Das Papier schlägt RailX vor, eine neue Netzwerkarchitektur, die entwickelt wurde, um die Herausforderungen beim Skalieren großer AI-Arbeitslasten zu bewältigen, insbesondere für Hyper-Skalen-LLM-Trainingsysteme. Traditionelle Netzwerkarchitekturen wie Fat-Tree und Torus sind entweder zu teuer oder verfügen nicht über die notwendige Skalierbarkeit und Flexibilität für diese Lasten.
**Schlüsselmerkmale von RailX**:
* **Umkonfigurierbare Netzwerkarchitektur**: RailX nutzt direkte Knotenverbindungen und zwischenknotige Schaltkreisschaltungen, was eine bessere Skalierbarkeit als bestehende zentralisierte Schaltkreisschaltungsnetzwerke ermöglicht.
* **Neue Verbindungs Methode**: Basierend auf der Hamilton-Teilungstheorie organisiert RailX separate Schienenbasierte Ringe in eine alle-zu-alle-Topologie, optimiert sowohl ringkollektive als auch alle-zu-alle-Kommunikation.
* **Kosteneffizient**: RailX kann mehr als 100K Chips mit 1,8TB Bandbreite über einen flachen Schaltungsschicht verbinden, was erheblich geringere Kosten im Vergleich zum traditionellen Fat-Tree bietet.
* **Flexibel und skalierbar**: RailX kann in MLaaS-Szenarien verwendet werden, um flexible Zuordnung verschiedener LLM-Trainingsarbeitslasten und effiziente Fehlerbehebung zu ermöglichen.
**Vorteile von RailX**:
* **Hohe Skalierbarkeit**: RailX kann Systeme mit Tausenden von Chips unterstützen und ist daher für Hyper-Skalen-LLM-Trainings geeignet.
* **Kosteneffizienz**: RailX bietet niedrigere Kosten pro Injektion/All-Reduce-Bandbreite und pro Bisektion/Alle-zu-Alle-Bandbreite im Vergleich zum traditionellen Fat-Tree.
* **Flexibilität**: RailX kann konfiguriert werden, um verschiedene Netzwerktopologien wie Torus, HyperX und Dragonfly zu unterstützen, was Flexibilität für verschiedene Lasten bietet.
* **Verlässlichkeit**: RailX kann Fehler effizient behandeln, indem er optische Schaltkreisschalter (OCSes) verwendet, um ausgefallene Knoten zu umgehen.
**Anwendungen von RailX**:
* **Hyper-Skalen-LLM-Training**: RailX ist gut geeignet für das Training großer LLMs mit hochdimensionaler Parallelität und gemischten Parallelitätsstrategien.
* **MLaaS**: RailX kann in MLaaS-Szenarien verwendet werden, um verschiedene Trainingslasten zu unterstützen und Ressourcen effizient zu nutzen.
**Vergleich mit bestehenden Netzwerken**:
* **Fat-Tree**: RailX bietet ähnliche Bandbreite, aber zu erheblich niedrigeren Kosten.
* **Torus**: RailX bietet bessere Bisektionbandbreite und Skalierbarkeit, insbesondere für hochdimensionale Parallelitätslasten.
* **HammingMesh**: RailX erreicht höhere Skalierbarkeit und höheren All-Reduce-Durchsatz als HammingMesh.
**Schlussfolgerung**:
RailX ist eine vielversprechende Netzwerkarchitektur zur Unterstützung von Hyper-Skalen-LLM-Trainings und anderen großen AI-Arbeitslasten. Sein einzigartiges Design bietet hohe Skalierbarkeit, Kosteneffizienz, Flexibilität und Zuverlässigkeit, was es zu einer attraktiven Wahl für die Zukunft von Datenzentren und AI-Infrastruktur macht.
Empfohlene Papiere
Gromov-Hausdorff-Abstand zwischen chromatischen Metrik-Paaren und Stabilität des Sechspacks
Automatisierte Interpretation von Konturkarten der nicht zerstörungsfreien Bewertung mithilfe großer Sprachmodelle zur Bewertung des Brückenzustands
Lernen von Polstrukturen hadronischer Zustände mithilfe der prädiktiven Unsicherheitsabschätzung
Variable Annuitäten: Ein näherer Blick auf Ratchett-Garantien, Hybridvertragsdesigns und Besteuerung
Ein Stiftungsmodell für massive MIMO-Precoding mit einem anpassungsfähigen pro-Benutzer-Raten-Leistungsaustausch
Oberste erwartete Treffenzeiten für abhängige stochastische Akteure
Ein diskreter Analogon von Tuttes baryzentrischen Einfassungen auf Oberflächen
Magnetische Felder und Kosmische Strahlen in M31. II. Stärke und Verteilung der magnetischen Feldkomponenten.
Audio-Vision kontrastives Lernen für phonologische Klassenerkennung
Effekte der Optimierung der Einpartikel-Verminderten Dichtematrix in Variationalen Quanten-Eigenlösungsstrategien