Nvidia DGX (エヌブイデイ DGX) - 百科事典

### Nvidia DGX(Deep GPU Xceleration)

Nvidiaによって設計されたサーバーやワークステーションのシリーズで、主に深い学習アプリケーションを強化するために、グラフィックプロセッサ(GPU)上で汎用計算(GPGPU)を使用することに重点を置いています。これらのシステムは、通常、マザーボードに高性能のx86サーバーCPUを搭載したラックマウントフォーマットで提供されます。

DGXシステムの核となる機能は、独立したシステムボードに収められた4から8つのNvidia Tesla GPUモジュールの含まれ、SXMソケットのバージョンまたはPCIe x16スロットで接続できます。これにより、システムアーキテクチャ内での柔軟な統合が可能です。大量の熱出力を管理するために、DGXユニットは最適な作業温度を維持するために設計されたヒートシンクとファンが装備されています。

このフレームワークにより、DGXユニットは人工知能と機械学習モデルに関連する計算タスクに適しています。

モデル


= Pascal - Volta =


DGX-1
DGX-1サーバーは、PascalまたはVoltaのデスクラードカードに基づく8つのGPUを搭載し、合計128 GBのHBM2メモリをNVLinkメッシュネットワークで接続しています。DGX-1は2016年4月6日に発表されました。すべてのモデルは、インテルXeon E5 CPUのデュアルソケット構成に基づいており、以下の機能が搭載されています。

512 GBのDDR4-2133
デュアル10 Gbネットワーク
4 x 1.92 TB SSD
3200Wの合計電源供給能力
3Uラックマウントシャシー
この製品ラインは、GPUとAIアクセラレータの間のギャップを埋めるために設計されており、特定の深い学習ワークロード向けの機能を使用しています。初代PascalベースのDGX-1は170テラフロップスの半精度処理を提供し、Voltaベースのアップグレードによりこれが960テラフロップスに増加しました。

DGX-1は、初代Pascalベースの設定で最初に利用可能になり、初代SXMソケットを使用しました。後のリビジョンのDGX-1は、SXM-2ソケットを通じて初代Voltaカードのサポートを提供しました。Nvidiaは、PascalベースのDGX-1ユーザーがVoltaベースのDGX-1にアップグレードできるアップグレードキットを提供しました。

PascalベースのDGX-1には、16コアのインテルXeon E5-2698 V3と20コアのE5-2698 V4のバリエーションがあります。E5-2698 V4搭載モデルの価格は不明ですが、PascalベースのDGX-1(E5-2698 V3)は、発表時の価格が129,000ドルでした。

VoltaベースのDGX-1は、E5-2698 V4を搭載し、発表時の価格が149,000ドルでした。


DGX Station
デスクサイドAIスーパーコンピュータとして設計された完全独立で動作するタワー型コンピュータ、DGX Stationは、冷却、冗余電源、19インチラックなどの典型的なデータセンターインフラを必要としないように設計されています。
DGX Stationは以下のスペックで最初に利用可能になりました。

4つのVoltaベースのTesla V100アクセラレータ、それぞれ16 GBのHBM2メモリ
480 TFLOPS FP16
単一のインテルXeon E5-2698 v4
256 GB DDR4
4 x 1.92 TB SSD
デュアル10 Gb Ethernet
DGX Stationは、約1500Wのシステムコンポーネントの熱をよりよく管理するため、水冷を導入しています。これにより、負荷中でも35 dB以下のノイズレベルを維持できます。これにより、ラックマウントのDGXシステムが騒がしく、多くの熱を発生し、大きなスペースを占めるため、インフラが無い顧客にとって魅力的な購入先となりました。これは、Nvidiaが高パフォーマンス計算をデスクサイドに持ち込んだ最初の試みであり、それ以来、Nvidiaの顕著なマーケティング戦略となりました。


DGX-2
DGX-1の後継モデルであるNvidia DGX-2は、単一のユニットに16枚のVoltaベースのV100 32 GB(第2世代)カードを使用しています。2018年3月27日に発表されました。DGX-2は、巨大なデータセットに対応するための512 GBの共有メモリと、NVSwitchを使用して高い内部通信帯域幅を提供する2ペタフロップスを提供します。DGX-2は、合計512 GBのHBM2メモリ、合計1.5 TBのDDR4を持ち、8つの100 Gbit/sのInfiniBandカードと30.72 TBのSSDストレージを含み、巨大な10Uラックマウントシャシーに収められており、最大負荷で最大10 kWを消費します。DGX-2の初期価格は399,000ドルでした。

DGX-2は、他のDGXモデルとは異なり、各ユニットに2つの別々のGPUデスクラードボードが含まれており、これらのボードはNVSwitchシステムで接続されており、ボード間の追加の遅延なくすべてのGPU間でフルバンド幅の通信が可能です。

DGX-2の高性能バリエーションであるDGX-2Hも提供されています。DGX-2Hは、DGX-2のデュアルインテルXeon Platinum 8168をアップグレードしたデュアルインテルXeon Platinum 8174に置き換えました。このアップグレードは、システムごとのコア数を増加しません(両方のCPUは24コアです)、またシステムの新しい機能を提供することもありませんが、CPUのベース周波数は2.7 GHzから3.1 GHzに増加します。


= Ampere =


DGX A100 Server
2020年5月14日に発表およびリリースされました。DGX A100は第3世代のDGXサーバーで、8つのAmpereベースのA100アクセラレータを含んでいます。また、15 TBのPCIe gen 4 NVMeストレージ、1 TBのRAM、および8つのMellanox製200 GB/s HDR InfiniBand ConnectX-6 NICが含まれています。DGX A100は、前の世代のDGX-2よりもずっと小さなケースに収められており、たった6ラックユニットしか占めません。

DGX A100は、64コアのAMD EPYC 7742 CPUに移行し、インテルXeon CPUで構築されていない初のDGXサーバーです。DGX A100 Serverの初期価格は199,000ドルでした。


DGX Station A100
オリジナルのDGX Stationの後継モデルとして、DGX Station A100は、小さな会社や個人向けの静かで効率的なタスクリキストボックスソリューションとして提供され、購入、レンタル、またはリースが可能です。これは、ラックマウントのDGXシステムが騒がしく、多くの熱を発生し、大きなスペースを占めるため、インフラが無い顧客にとって魅力的な購入先となりました。これは、Nvidiaが高パフォーマンス計算をデスクサイドに持ち込んだ最初の試みであり、それ以来、Nvidiaの顕著なマーケティング戦略となりました。

DGX Station A100は、以下のスペックで最初に利用可能になりました。

4つのAmpereベースのA100アクセラレータ、それぞれ40 GB(HBM)または80 GB(HBM2e)のメモリが設定されています。これにより、合計160 GBまたは320 GBとなり、DGX Station A100の160Gまたは320Gバリエーションが生成されます。
2.5 PFLOPS FP16
単一の64コアAMD EPYC 7742
512 GB DDR4
1 x 1.92 TB NVMe OSドライブ
1 x 7.68 TB U.2 NVMeドライブ
デュアルポート10 Gb Ethernet
単一ポート1 Gb BMCポート


= Hopper =


DGX H100 Server
2022年3月22日に発表され、2022年Q3にリリースされる予定のDGX H100は、第4世代のDGXサーバーで、8つのHopperベースのH100アクセラレータを搭載しています。合計32 PFLOPsのFP8 AI計算と640 GBのHBM3メモリが提供され、DGX A100の640 GBのHBM2メモリを向上させます。
このアップグレードにより、VRAM帯域幅も3 TB/sに増加しました。DGX H100は、700WのTDPを持つH100 SXMカードを収容するため、ラックマウントサイズを8Uに増やしました。DGX H100には、オペレーティングシステムストレージ用の2つの1.92 TBのSSDと、アプリケーションデータ用の30.72 TBのSSDストレージも装備されています。
もう一つの注目すべき追加は、Nvidia Bluefield 3 DPUsの存在と、Mellanox ConnectX-7 NICを通じて400 Gbit/sのInfiniBandにアップグレードされています。これにより、DGX A100の帯域幅は倍になります。DGX H100は、新しい「Cedar Fever」カードを使用しており、各カードには4つのConnectX-7 400 GB/sのコントローラが含まれており、システムごとに2枚のカードが使用されます。これにより、DGX H100はInfiniband上で3.2 Tbit/sのファブ帯域幅を提供します。

DGX H100は、2つのXeon Platinum 8480CスケーラブルCPU(コードネームSapphire Rapids)と2 TBのシステムメモリを持ちます。DGX H100は、リリース時の価格が379,000ポンドまたは約482,000ドルでした。


DGX GH200
2023年5月に発表されました。DGX GH200は、32個のNvidia Hopper Superchipsを1つのスーパーチップに接続しており、合計256個のH100 GPU、32個のGrace Neoverse V2 72コアCPU、32個のOSFT単一ポートConnectX-7 VPI(400 Gbit/s InfiniBand)と16個のダブルポートBlueField-3 VPI(200 Gbit/sのMellanox)を含んでいます。Nvidia DGX GH200は、巨大な推薦システム、生成型AI、グラフ解析用のテラバイトクラスのモデルを処理するために設計されており、19.5 TBの共有メモリと巨大なAIモデルのための線形スケーラビリティを提供します。


DGX Helios
2023年5月に発表されました。DGX Heliosスーパーコンピュータは、4つのDGX GH200システムを特徴としており、各システムはNvidia Quantum-2 InfiniBandネットワークを通じて互いに接続されており、大規模なAIモデルのトレーニングのためのデータスルーをスーパーコンピュータ化します。Heliosには、1,024個のH100 GPUが含まれています。


= Blackwell =


DGX GB200
2024年3月に発表されました。GB200 NVL72は、ラックスケール設計で36個のGrace Neoverse V2 72コアCPUと72個のB100 GPUを接続しており、Nvidia DGX GB200は72-GPU NVLinkドメインを持ち、単一の巨大なGPUとして機能します。Nvidia DGX GB200は、巨大なAIモデルのための線形スケーラビリティを提供する13.5 TBのHBM3eの共有メモリを持ちます。


DGX SuperPod
Nvidiaによって提供される高パフォーマンスのタスクリキストスーパーコンピュータシステムであるDGX SuperPodは、DGXハードウェアを使用して構築されています。これにより、高速ストレージと高帯域幅のネットワークを組み合わせて、高負荷の機械学習ワークロードに対するソリューションが提供されます。Argonne国立研究所のSeleneスーパーコンピュータは、DGX SuperPodベースのシステムの例の1つです。

Seleneは、280個のDGX A100ノードで構築され、2020年6月の完成時点でTOP500リストの最強のスーパーコンピュータで5位でした。新しいHopperベースのSuperPodは、32個のDGX H100ノードにスケーリングすることができ、合計256個のH100 GPUと64個のx86 CPUを提供します。これにより、完全なSuperPodには20 TBのHBM3メモリ、70.4 TB/sの二分帯域幅、および最大1 ExaFLOPのFP8 AI計算が提供されます。これらのSuperPodは、さらに大きなスーパーコンピュータとして組み合わせられます。

Nvidiaがストレージデバイスやシステムを生産していないため、Nvidia SuperPodはパートナーに高パフォーマンスストレージを提供します。現在のNvidia Superpodsのストレージパートナーは、Dell EMC、DDN、HPE、IBM、NetApp、Pavilion Data、およびVAST Dataです。


DGX Spark
2025年3月にNvidiaもDGX Spark(以前はDIGITS)として発表されました。これらのマシンは、AI研究者やプログラマーにターゲットを絞っており、128 GBの統合メモリを持ち、比較的大きなモデル(量子化で「最大2000億パラメータ」)をトレーニングまたは微調整する可能性があります。いくつかのパートナーマニュファクチャャーもDGX Sparkのバリエーションを提供しています。2025年の夏に利用可能になる予定です。


アクセラレータ
DGXで使用されるアクセラレータの比較:


参考事項
Deep Learning Super Sampling


参考文献
Deep Learning Super Sampling