Resumen - RailX: Una Arquitectura de Red Flexible, Escalable y de Bajo Costo para Sistemas de Entrenamiento de LLM de Escala Hyper-Scale

Título

RailX: Una Arquitectura de Red Flexible, Escalable y de Bajo Costo para Sistemas de Entrenamiento de LLM de Escala Hyper-Scale

Tiempo

2025-07-25 02:16:08

Autor

{"Yinxiao Feng","Tiancheng Chen","Yuchen Wei","Siyuan Shen","Shiju Wang","Wei Li","Kaisheng Ma","Torsten Hoefler"}

Categoría

{cs.AR,cs.DC,cs.NI}

Enlace
http://arxiv.org/abs/2507.18889v1

PDF Enlace
http://arxiv.org/pdf/2507.18889v1

Resumen

El documento propone RailX, una nueva arquitectura de red diseñada para abordar los desafíos de la escalabilidad de grandes cargas de trabajo de IA, especialmente para sistemas de entrenamiento de LLM de hiper-escala. Las arquitecturas de red tradicionales, como Fat-Tree y Torus, son demasiado costosas o carecen de la escalabilidad y flexibilidad necesarias para estos trabajos. **Características clave de RailX**: * **Arquitectura de red reconfigurable**: RailX utiliza conectividad directa intra-nodo y conmutación de circuitos inter-nodo, lo que permite una mejor escalabilidad en comparación con las redes de conmutación de circuitos centralizadas existentes. * **Método de interconexión novedoso**: Basado en la teoría de la Descomposición Hamiltoniana, RailX organiza anillos basados en vías en una topología de todos-a-todos, optimizando tanto la comunicación de anillo-colectivo como la de todos-a-todos. * **Económico**: RailX puede interconectar más de 100K chips con una banda ancha de 1.8TB utilizando una capa de conmutación plana, con costos significativamente más bajos en comparación con Fat-Tree tradicional. * **Flexible y escalable**: RailX puede utilizarse en escenarios de MLaaS, permitiendo un mapeo flexible de diversas cargas de trabajo de entrenamiento de LLM y una recuperación de fallos eficiente. **Beneficios de RailX**: * **Alta escalabilidad**: RailX puede soportar sistemas a gran escala con decenas de miles de chips, lo que lo hace adecuado para entrenamiento de LLM de hiper-escala. * **Económico**: RailX ofrece costos por inyección/All-Reduce de banda ancha y por bisección/All-to-All de banda ancha significativamente más bajos en comparación con Fat-Tree tradicional. * **Flexibilidad**: RailX puede configurarse para soportar diversas topologías de red, como Torus, HyperX y Dragonfly, proporcionando flexibilidad para diferentes trabajos. * **Fiabilidad**: RailX puede manejar fallos de manera eficiente utilizando conmutadores de circuitos ópticos (OCS) para evitar nodos fallidos. **Aplicaciones de RailX**: * **Entrenamiento de LLM de hiper-escala**: RailX es adecuado para entrenar grandes LLM con paralelismo de alta dimensión y estrategias de paralelismo mixto. * **MLaaS**: RailX puede utilizarse en escenarios de MLaaS para soportar diversas cargas de trabajo de entrenamiento y utilizar recursos de manera eficiente. **Comparación con redes existentes**: * **Fat-Tree**: RailX ofrece una banda ancha similar pero a un costo significativamente más bajo. * **Torus**: RailX proporciona una mejor banda ancha de bisección y escalabilidad, especialmente para trabajos de paralelismo de alta dimensión. * **HammingMesh**: RailX alcanza una mayor escalabilidad y un mayor rendimiento de All-Reduce en comparación con HammingMesh. **Conclusión**: RailX es una arquitectura de red prometedora para apoyar el entrenamiento de LLM de hiper-escala y otros grandes trabajos de IA. Su diseño único ofrece alta escalabilidad, costo-effectiveness, flexibilidad y fiabilidad, lo que lo hace una opción atractiva para la infraestructura de data center y IA futura.

Artículos Recomendados

AbGen: Evaluación de Grandes Modelos de Lenguaje en Diseño y Evaluación de Estudios de Ablación para la Investigación Científica

TRPrompt: Autoaprendizaje de Optimización de Prompts Conscientes de la Búsqueda a partir de Recompensas Textuales

Una nueva prueba de teoremas de tipo Liouville para una clase de ecuaciones elípticas semilineales

Equivalencia elemental y grupos de diffeomorfismos de variedades suaves

Un Marco de Inferencia de DNN de extremo a extremo para el MPSoC neuromórfico SpiNNaker2

Un método para corregir la subestructura de chorros multiprótones utilizando el plano de chorro de Lund

Un estudio de caso de GW190425 para la clasificación de colisiones de estrellas de neutrones binarias versus colisiones de agujeros negros binarios y la limitación de materia oscura asimétrica con detectores de ondas gravitacionales

Módulos interferométricos monolíticos para posicionamiento de coordenadas multi-axes con precisión subnanométrica

Interiores de árboles de distancia sobre conjuntos de Cantor delgados

Un Marco de Minimización de Riesgo Empírico Unificado para Supervisión Débil Flexible de N-Tuplos