Nvidia DGX - Enciclopedia

La Nvidia DGX (Deep GPU Xceleration) representa una serie de servidores y estaciones de trabajo diseñados por Nvidia, principalmente orientados a mejorar las aplicaciones de aprendizaje profundo mediante el uso de cómputo general en unidades de procesamiento gráfico (GPGPU). Estos sistemas suelen venir en formato de montaje en rack y cuentan con procesadores de servidor x86 de alto rendimiento en la placa base.

La característica principal de un sistema DGX es la inclusión de 4 a 8 módulos de GPU Nvidia Tesla, que se alojan en una placa base independiente. Estas GPUs pueden conectarse a través de una versión del conector SXM o un conector PCIe x16, facilitando una integración flexible dentro de la arquitectura del sistema. Para manejar el considerable rendimiento térmico, las unidades DGX están equipadas con disipadores de calor y ventiladores diseñados para mantener las temperaturas de funcionamiento óptimas.

Este marco hace que las unidades DGX sean adecuadas para tareas de cómputo asociadas con modelos de inteligencia artificial y aprendizaje automático.

Modelos


= Pascal - Volta =


DGX-1
Los servidores DGX-1 incluyen 8 GPUs basadas en tarjetas hijas Pascal o Volta con un total de 128 GB de memoria HBM2, conectadas por una red de malla NVLink. El DGX-1 se anunció el 6 de abril de 2016. Todos los modelos se basan en una configuración de dos sockets de procesadores Intel Xeon E5 y están equipados con las siguientes características.

512 GB de DDR4-2133
Conexión dual de 10 Gb
4 x 1.92 TB de SSD
Capacidad de alimentación combinada de 3200W
Chasis de montaje en rack de 3U
La línea de productos está diseñada para cerrar la brecha entre GPUs y aceleradores de IA utilizando características específicas para trabajos de aprendizaje profundo. La versión inicial basada en Pascal del DGX-1 ofrecía 170 teraflops de procesamiento de precisión media, mientras que la actualización basada en Volta aumentó esto a 960 teraflops.

El DGX-1 se lanzó inicialmente solo en configuración basada en Pascal con el primer conector SXM. La revisión posterior del DGX-1 ofreció soporte para las tarjetas Volta de primera generación a través del conector SXM-2. Nvidia ofreció kits de actualización que permitían a los usuarios de un DGX-1 basado en Pascal actualizar a un DGX-1 basado en Volta.

El DGX-1 tiene dos variantes, una con un Intel Xeon E5-2698 V3 de 16 núcleos y otra con un E5-2698 V4 de 20 núcleos. El precio de la variante equipada con un E5-2698 V4 no está disponible, mientras que el DGX-1 basado en Pascal con un E5-2698 V3 se lanzó al mercado por 129,000 dólares.
El DGX-1 basado en Volta está equipado con un E5-2698 V4 y se lanzó al mercado por 149,000 dólares.


DGX Station
Diseñada como una supercomputadora AI de escritorio todo en uno, la DGX Station es una computadora de torre que puede funcionar completamente de manera independiente sin la infraestructura típica de centro de datos, como refrigeración, alimentación redundante o racks de 19 pulgadas.
La DGX Station se lanzó inicialmente con las siguientes especificaciones.

Cuatro aceleradores Tesla V100 basados en Volta, cada uno con 16 GB de memoria HBM2
480 TFLOPS FP16
Procesador Intel Xeon E5-2698 v4
256 GB DDR4
4x 1.92 TB de SSD
Conexión dual de 10 Gb Ethernet
La estación DGX está refrigerada por agua para mejorar la gestión del calor de los aproximadamente 1500W de componentes del sistema totales, lo que permite mantener un rango de ruido inferior a 35 dB bajo carga. Esto, entre otras características, hizo que este sistema fuera una compra atractiva para clientes que no tienen la infraestructura para ejecutar sistemas DGX de montaje en rack, que pueden ser ruidosos, emitir mucho calor y ocupar un gran espacio. Esta fue la primera incursión de Nvidia en traer supercomputación de alto rendimiento de escritorio, que desde entonces ha sido una estrategia de marketing destacada para Nvidia.


DGX-2
El Nvidia DGX-2, sucesor del DGX-1, utiliza dieciséis tarjetas de aceleración V100 basadas en Volta de 32 GB (segunda generación) en una única unidad. Fue anunciado el 27 de marzo de 2018. El DGX-2 ofrece 2 petaflops con 512 GB de memoria compartida para abordar conjuntos de datos masivos y utiliza NVSwitch para comunicación interna de alta banda ancha. El DGX-2 tiene un total de 512 GB de memoria HBM2, un total de 1.5 TB de DDR4. También están presentes ocho tarjetas InfiniBand de 100 Gbit/s de 100 Gbit/s y 30.72 TB de almacenamiento SSD, todo esto encerrado en un chasis de montaje en rack de 10U y consumiendo hasta 10 kW bajo carga máxima. El precio inicial del DGX-2 fue de 399,000 dólares.
El DGX-2 se diferencia de otros modelos DGX en que contiene dos tarjetas hijas de GPU separadas, cada una con ocho GPUs. Estas tarjetas están conectadas por un sistema NVSwitch que permite una comunicación de banda completa entre todas las GPUs del sistema, sin latencia adicional entre tarjetas.
También se ofreció una variante de mayor rendimiento del DGX-2, el DGX-2H. El DGX-2H reemplazó los procesadores Intel Xeon Platinum 8168 duales del DGX-2 con procesadores Intel Xeon Platinum 8174 duales mejorados. Esta actualización no aumenta el número de núcleos por sistema, ya que ambos procesadores tienen 24 núcleos, ni habilita nuevas funciones del sistema, pero aumenta la frecuencia base de los procesadores de 2.7 GHz a 3.1 GHz.


= Ampere =


DGX A100 Server
Anunciado y lanzado el 14 de mayo de 2020. El DGX A100 fue la tercera generación de servidores DGX, que incluía 8 aceleradores basados en Ampere. También incluye 15 TB de almacenamiento PCIe gen 4 NVMe, 1 TB de RAM y ocho NICs ConnectX-6 de Mellanox con una velocidad de 200 GB/s HDR. El DGX A100 está en una carcasa mucho más pequeña que su predecesor, el DGX-2, ocupando solo 6 unidades de rack.
El DGX A100 también pasó a un procesador AMD EPYC 7742 de 64 núcleos, el primer servidor DGX que no se construyó con un procesador Intel Xeon. El precio inicial del servidor DGX A100 fue de 199,000 dólares.


DGX Station A100
Como sucesor de la DGX Station original, la DGX Station A100 tiene el mismo nicho que la DGX Station en ser una solución de cluster en una caja eficiente y silenciosa que puede ser comprada, alquilada o arrendada por empresas o individuos más pequeños que desean utilizar aprendizaje automático. Sigue muchas de las decisiones de diseño de la DGX Station original, como la orientación en torre, la placa base de procesador con un solo socket, un nuevo sistema de refrigeración basado en refrigerante y un número reducido de aceleradores en comparación con el DGX A100 de montaje en rack de la misma generación. El precio de la DGX Station A100 320G es de 149,000 dólares y de 99,000 dólares para el modelo 160G. Nvidia también ofrece alquiler de Station a través de socios en los EE. UU. (rentacomputer.com) y Europa (iRent IT Systems) para ayudar a reducir los costos de implementación de estos sistemas a pequeña escala.
La DGX Station A100 viene con dos configuraciones diferentes de los aceleradores integrados A100.

Cuatro aceleradores A100 basados en Ampere, configurados con 40 GB (HBM) o 80 GB (HBM2e) de memoria, lo que da un total de 160 GB o 320 GB, resultando en las variantes DGX Station A100 160G o 320G.
2.5 PFLOPS FP16
Procesador AMD EPYC 7742 de 64 núcleos
512 GB DDR4
1 x 1.92 TB de unidad de almacenamiento NVMe de sistema operativo
1 x 7.68 TB de unidad de almacenamiento U.2 NVMe
Conexión dual de 10 Gb Ethernet
Conexión única de 1 Gb BMC


= Hopper =


DGX H100 Server
Anunciado el 22 de marzo de 2022 y programado para su lanzamiento en el Q3 de 2022, el DGX H100 es la cuarta generación de servidores DGX, construido con 8 aceleradores basados en Hopper, para un total de 32 PFLOPs de cómputo de IA FP8 y 640 GB de memoria HBM3. Este aumento también aumenta la banda ancha de VRAM a 3 TB/s. El DGX H100 aumenta el tamaño del montaje en rack a 8U para alojar el TDP de 700W de cada tarjeta SXM de H100. El DGX H100 también tiene dos SSD de 1.92 TB para almacenamiento del sistema operativo y 30.72 TB de almacenamiento de estado sólido para datos de aplicación.
Una adición notable más es la presencia de dos DPU Nvidia Bluefield 3 y la actualización a 400 Gbit/s InfiniBand a través de NICs ConnectX-7 de Mellanox, el doble de la banda ancha del DGX A100. El DGX H100 utiliza nuevas tarjetas 'Cedar Fever', cada una con cuatro controladores ConnectX-7 de 400 GB/s y dos tarjetas por sistema. Esto proporciona al DGX H100 3.2 Tbit/s de banda ancha de red a través de Infiniband.
El DGX H100 tiene dos procesadores Xeon Platinum 8480C Escalables (denominados Sapphire Rapids) y 2 terabytes de memoria del sistema.
El DGX H100 se lanzó al mercado por 379,000 libras esterlinas o aproximadamente 482,000 dólares estadounidenses.


DGX GH200
Anunciado en mayo de 2023, el DGX GH200 conecta 32 Hopper Superchips en un solo superchip, que consta completamente de 256 GPUs H100, 32 CPUs Grace Neoverse V2 de 72 núcleos, 32 puertos de InfiniBand OSFT de 400 Gbit/s y 16 puertos BlueField-3 VPI con 200 Gbit/s de Mellanox [1] [2]. El Nvidia DGX GH200 está diseñado para manejar modelos de clase terabyte para sistemas de recomendaciones masivos, IA generativa y análisis de grafos, ofreciendo 19.5 TB de memoria compartida con escalabilidad lineal para modelos de IA gigantes.


DGX Helios
Anunciado en mayo de 2023, el supercomputador DGX Helios cuenta con 4 sistemas DGX GH200. Cada uno está interconectado con red de InfiniBand Nvidia Quantum-2 para acelerar el flujo de datos de entrenamiento de grandes modelos de IA. Helios incluye 1,024 GPUs H100.


= Blackwell =


DGX GB200
Anunciado en marzo de 2024, el GB200 NVL72 conecta 36 CPUs Grace Neoverse V2 de 72 núcleos y 72 GPUs B100 en un diseño a escala de rack. El GB200 NVL72 es una solución a escala de rack refrigerada por líquido que boasts un dominio NVLink de 72 GPUs que actúa como una única GPU masiva. El Nvidia DGX GB200 ofrece 13.5 TB de memoria HBM3e compartida con escalabilidad lineal para modelos de IA gigantes, menos que su predecesor DGX GH200.


DGX SuperPod
El DGX Superpod es un sistema de supercomputadora de alto rendimiento todo en uno proporcionado por Nvidia utilizando hardware DGX. Combina nodos de cómputo DGX con almacenamiento rápido y alta banda ancha de red para proporcionar una solución a trabajos de aprendizaje automático de alta demanda. El supercomputador Selene, en el Laboratorio Nacional de Argonne, es un ejemplo de un sistema basado en DGX SuperPod.
Selene, construido con 280 nodos DGX A100, se clasificó en el quinto lugar de la lista TOP500 de los supercomputadores más poderosos en el momento de su finalización en junio de 2020 y ha continuado siendo alto en rendimiento. El nuevo SuperPod basado en Hopper puede escalar a 32 nodos DGX H100, para un total de 256 GPUs H100 y 64 CPUs x86. Esto proporciona al Superpod completo 20 TB de memoria HBM3, 70.4 TB/s de banda ancha de bisectriz y hasta 1 ExaFLOP de cómputo de IA FP8. Estos SuperPods pueden unirse para crear supercomputadores más grandes.
El supercomputador Eos, diseñado, construido y operado por Nvidia, se construyó con 18 SuperPods basados en H100, totaling 576 sistemas DGX H100, 500 conmutadores InfiniBand Quantum-2 y 360 conmutadores NVLink, lo que permite a Eos ofrecer 18 EFLOPs de cómputo de IA FP8 y 9 EFLOPs de cómputo de IA FP16, haciendo de Eos el quinto supercomputador de IA más rápido del mundo, según la lista TOP500 (edición de noviembre de 2023).
Como Nvidia no produce dispositivos o sistemas de almacenamiento, los SuperPods de Nvidia dependen de socios para proporcionar almacenamiento de alto rendimiento. Los socios de almacenamiento actuales para los SuperPods de Nvidia son Dell EMC, DDN, HPE, IBM, NetApp, Pavilion Data y VAST Data.


DGX Spark
En marzo de 2025, Nvidia también anunció el DGX Spark (anteriormente DIGITS), un "supercomputador de escritorio AI" basado en Blackwell. Estas máquinas están dirigidas a investigadores y programadores de IA y tienen 128 GB de RAM integrada, lo que permite entrenar o ajustar modelos bastante grandes ("hasta 200 mil millones de parámetros" con cuantificación). Varios fabricantes de socios también ofrecen versiones del DGX Spark. Se espera que esté disponible en el verano de 2025.


Aceleradores
Comparación de aceleradores utilizados en DGX:


Ver también
Supermuestreo de aprendizaje profundo


Referencias