Zusammenfassung - RailX: Eine flexible, skalierbare und kostengünstige Netzwerkarchitektur für Hyper-Scale LLM-Trainingsysteme

Titel
RailX: Eine flexible, skalierbare und kostengünstige Netzwerkarchitektur für Hyper-Scale LLM-Trainingsysteme

Zeit
2025-07-25 02:16:08

Autor
{"Yinxiao Feng","Tiancheng Chen","Yuchen Wei","Siyuan Shen","Shiju Wang","Wei Li","Kaisheng Ma","Torsten Hoefler"}

Kategorie
{cs.AR,cs.DC,cs.NI}

Link
http://arxiv.org/abs/2507.18889v1

PDF Link
http://arxiv.org/pdf/2507.18889v1

Zusammenfassung

Das Papier schlägt RailX vor, eine neue Netzwerkarchitektur, die entwickelt wurde, um die Herausforderungen beim Skalieren großer AI-Arbeitslasten zu bewältigen, insbesondere für Hyper-Skalen-LLM-Trainingsysteme. Traditionelle Netzwerkarchitekturen wie Fat-Tree und Torus sind entweder zu teuer oder verfügen nicht über die notwendige Skalierbarkeit und Flexibilität für diese Lasten. **Schlüsselmerkmale von RailX**: * **Umkonfigurierbare Netzwerkarchitektur**: RailX nutzt direkte Knotenverbindungen und zwischenknotige Schaltkreisschaltungen, was eine bessere Skalierbarkeit als bestehende zentralisierte Schaltkreisschaltungsnetzwerke ermöglicht. * **Neue Verbindungs Methode**: Basierend auf der Hamilton-Teilungstheorie organisiert RailX separate Schienenbasierte Ringe in eine alle-zu-alle-Topologie, optimiert sowohl ringkollektive als auch alle-zu-alle-Kommunikation. * **Kosteneffizient**: RailX kann mehr als 100K Chips mit 1,8TB Bandbreite über einen flachen Schaltungsschicht verbinden, was erheblich geringere Kosten im Vergleich zum traditionellen Fat-Tree bietet. * **Flexibel und skalierbar**: RailX kann in MLaaS-Szenarien verwendet werden, um flexible Zuordnung verschiedener LLM-Trainingsarbeitslasten und effiziente Fehlerbehebung zu ermöglichen. **Vorteile von RailX**: * **Hohe Skalierbarkeit**: RailX kann Systeme mit Tausenden von Chips unterstützen und ist daher für Hyper-Skalen-LLM-Trainings geeignet. * **Kosteneffizienz**: RailX bietet niedrigere Kosten pro Injektion/All-Reduce-Bandbreite und pro Bisektion/Alle-zu-Alle-Bandbreite im Vergleich zum traditionellen Fat-Tree. * **Flexibilität**: RailX kann konfiguriert werden, um verschiedene Netzwerktopologien wie Torus, HyperX und Dragonfly zu unterstützen, was Flexibilität für verschiedene Lasten bietet. * **Verlässlichkeit**: RailX kann Fehler effizient behandeln, indem er optische Schaltkreisschalter (OCSes) verwendet, um ausgefallene Knoten zu umgehen. **Anwendungen von RailX**: * **Hyper-Skalen-LLM-Training**: RailX ist gut geeignet für das Training großer LLMs mit hochdimensionaler Parallelität und gemischten Parallelitätsstrategien. * **MLaaS**: RailX kann in MLaaS-Szenarien verwendet werden, um verschiedene Trainingslasten zu unterstützen und Ressourcen effizient zu nutzen. **Vergleich mit bestehenden Netzwerken**: * **Fat-Tree**: RailX bietet ähnliche Bandbreite, aber zu erheblich niedrigeren Kosten. * **Torus**: RailX bietet bessere Bisektionbandbreite und Skalierbarkeit, insbesondere für hochdimensionale Parallelitätslasten. * **HammingMesh**: RailX erreicht höhere Skalierbarkeit und höheren All-Reduce-Durchsatz als HammingMesh. **Schlussfolgerung**: RailX ist eine vielversprechende Netzwerkarchitektur zur Unterstützung von Hyper-Skalen-LLM-Trainings und anderen großen AI-Arbeitslasten. Sein einzigartiges Design bietet hohe Skalierbarkeit, Kosteneffizienz, Flexibilität und Zuverlässigkeit, was es zu einer attraktiven Wahl für die Zukunft von Datenzentren und AI-Infrastruktur macht.


Empfohlene Papiere

Gromov-Hausdorff-Abstand zwischen chromatischen Metrik-Paaren und Stabilität des Sechspacks

Automatisierte Interpretation von Konturkarten der nicht zerstörungsfreien Bewertung mithilfe großer Sprachmodelle zur Bewertung des Brückenzustands

Lernen von Polstrukturen hadronischer Zustände mithilfe der prädiktiven Unsicherheitsabschätzung

Variable Annuitäten: Ein näherer Blick auf Ratchett-Garantien, Hybridvertragsdesigns und Besteuerung

Ein Stiftungsmodell für massive MIMO-Precoding mit einem anpassungsfähigen pro-Benutzer-Raten-Leistungsaustausch

Oberste erwartete Treffenzeiten für abhängige stochastische Akteure

Ein diskreter Analogon von Tuttes baryzentrischen Einfassungen auf Oberflächen

Magnetische Felder und Kosmische Strahlen in M31. II. Stärke und Verteilung der magnetischen Feldkomponenten.

Audio-Vision kontrastives Lernen für phonologische Klassenerkennung

Effekte der Optimierung der Einpartikel-Verminderten Dichtematrix in Variationalen Quanten-Eigenlösungsstrategien