GTC 24：Blackwell架構詳解！看懂B100、B200、GB200、GB200 NVL72成員的糾結瓜葛

身為目前最強的AI加速運算單元，Blackwell GPU不但具有強悍的效能，還可透過串接多組GPU方式構建「超大型GPU」，帶來更高的總體效能與吞吐量。

不同散熱與介面組態

NVIDIA推出了多種Blackwell GPU組態，包含整合8組GPU的HGX形式超級電腦，以及整合2組GPU搭配1組Grace CPU的GB200運算節點，而它們又可以彼此串連成為更大型的運算叢集。

延伸閱讀：
GTC 24：Blackwell架構詳解（上），全新架構帶來5倍效能表現
GTC 24：Blackwell架構詳解（下），看懂B100、B200、GB200、GB200 NVL72成員的糾結瓜葛（本文）
GTC 2024春季場系列報導目錄

NVIDIA在GTC大會上主要推廣的型號為整合2組Blackwell GPU與1組Grace CPU的GB200 Superchip，NVIDIA推出的GB200 Superchip運算節點（Compute Node）則是將2組GB200 Superchip安置於1U高度的伺服器，並採用水冷散熱方案，能讓單組GB200 Superchip的TDP達到2700W，完全解放效能表現。

此外NVIDIA也會推出採用SXG介面的B200與B100等GPU，且都能夠以8組GPU組成HGX B200或HGX B100伺服器，2者主要的差異在於B200的TDP最高可達1000W，而B100僅為800W。

NVIDIA超大規模與高效能運算副總裁暨總經理Ian Buck也在媒體訪談中補充說明，若將B200安置於伺服器並搭配水冷散熱方案，則可將TDP上調至1200W，進一步提高運算效能。

另一方面，在散熱與供電許可的範圍下，B200與B100 GPU能夠直接與現有H100 HGX或相容伺服器進行GPU替換（Drop-in Replace），提供更大的升級彈性並節省升級費用。

（若下方表格無法完整顯示，請點選我看圖片版）

GB200 Superchip規格表
規格	GB200 Superchip
組態	Grace CPU + 2 Blackwell GPU
FP4 Tensor Core稠密/稀疏運算效能	20 / 40 PFLOPS
FP8/FP6 Tensor Core稠密/稀疏運算效能	10 / 20 PFLOPS
INT8 Tensor Core稠密/稀疏運算效能	10 / 20 PFLOPS
FP16/BF16 Tensor Core稠密/稀疏運算效能	5 / 10 PFLOPS
FP32 Tensor Core稠密/稀疏運算效能	2.5 / 5 PFLOPS
FP64 Tensor Core稠密運算效能	90 TFLOPS （0.09PFLOPS）
HBM記憶體架構	HBM3e 8x2-sites
HBM記憶體容量	最大384 GB
HBM記憶體頻寬	最高16 TB/s
處理器組態	72x Arm Neoverse V2核心
處理器L1快取記憶體	每核心64KB i-cache + 64KB d-cache
處理器L2快取記憶體	每核心1MB
處理器L3快取記憶體	114MB
LPDDR5X記憶體容量	最大480 GB
LPDDR5X記憶體頻寬	最高512 GB/s
解壓縮引擎	有
影像解碼器	2x 7 NVDEC、2x 7 NVJPEG
Multi-Instance GPU（MIG）執行個體	2x 7
尺寸型式（Form factor）	Superchip模組
NVLink版本	NVLink v5
NVLink頻寬（雙向）	2x 1.8 TB/s
PCIe Gen 6頻寬（雙向）	2x 256 GB/s
TDP	最高2700W
伺服器組態	NVIDIA GB200 NVL72最高可達576 GPUs

（若下方表格無法完整顯示，請點選我看圖片版）

NVIDIA Blackwell HGX規格表
規格	HGX B200	HGX B100
組態	8x Blackwell GPU
FP4 Tensor Cor運算效能	144 PFLOPS	112 PFLOPS
FP8/FP6/INT8 Tensor Core運算效能	72 PFLOPS	56 PFLOPS
高速記憶體容量	最大1.5 TB
聚合記憶體頻寬	最高64 TB/s
聚合NVLink頻寬	14.4 TB/s
單一GPU規格
TDP	最高1000W	最高800W
FP4 Tensor Cor運算效能	18 PFLOPS	14 PFLOPS
FP8/FP6/INT8 Tensor Core運算效能	9 PFLOPS	7 PFLOPS
FP16/BF16 Tensor Core運算效能	4.5 PFLOPS	3.5 PFLOPS
FP32 Tensor Cor運算效能	2.2 PFLOPS	1.8 PFLOPS
FP64 Tensor Cor運算效能	40 TFLOPS	30 TFLOPS
GPU記憶體組態	HBM3e
GPU記憶體頻寬	最高8 TB/s
互連介面	NVLink（1.8 TB/s）、PCIe Gen6（256 GB/s）
伺服器組態	8 GPU（NVIDIA HGX B100 夥伴與 NVIDIA認證系統）	8 GPU（NVIDIA HGX B200 夥伴與 NVIDIA認證系統）

▲ Blackwell GPU的實體圖片，更多詳細介紹可看筆者的前篇報導。

▲ GB200 Superchip整合2組Blackwell GPU與1組Grace CPU。

▲ GB200 Superchip的實體圖片，上方為2組Blackwell GPU，中央則為Grace CPU與LPDDR5x記憶體。

▲ 每組Blackwell GPU內建容量為384 GB的HBM3e高頻寬記憶體。

▲ Grace CPU則在外部配置最大480 GB LPDDR5X記憶體。

▲ GB200 Superchip運算節點整合2組GB200 Superchip，搭配水冷散熱方案，安置於1U高度的伺服器。（左方為去除水冷頭的情況）

▲ 此外客戶也可以選則整合8組SXG介面Blackwell GPU的HGX B200或HGX B100伺服器。

透過高速互連頻寬組成超大GPU

Blackwell GPU的另一大創新功能，就是能夠透過NVLink串聯最多576組Blackwell GPU，讓整個叢集猶如組成單一超大GPU，達到擴大運算效能、共享記憶體、執行規模更大模型的能力。

而NVIDIA也推出了GB200 NVL72伺服器，它的機櫃（Rack）具有18組GB200 Superchip運算節點以及9組NVLink交換器（每組交換器具有2組NVLink交換器晶片所），能在由72組GPU組成的NVL72網域叢集中，以130 TB/s的頻寬交換資料。而跨多台機櫃的GPU資料則會透過InfiniBand網路傳輸。

相對於Blackwell GPU晶片內部的2組裸晶透過頻寬高達10 TB/s的NV-HBI（NVIDIA High-Bandwidth Interface）晶片對晶片互連（Chip-to-Chip Interconnection）相連，多顆GPU之間則是透過第5代NVLink相連。它採用18通道（Link）的高速差分訊號對（High-Speed Differential Pair），能夠提供總共高達1.8 TB/s的雙向頻寬（即單向為900 GB/s），最高能支援576組GPU相連，遠高於前代的256組GPU。

第5代NVLink的頻遠遠高出PCIe Gen 5x16的14倍，其1小時的雙向傳輸量總合約為6.32 PB，大約等同於18年4K電影串流的資料量，或是11組Blackwell GPU之間的傳數量總合就與整個網際網路相當，對於執行大型AI模型的效能表現扮演重要角色。

（若下方表格無法完整顯示，請點選我看圖片版）

NVIDIA GB200 NVL72規格表
規格	NVIDIA GB200 NVL72
組態	36x GB200 Superchip
FP4 Tensor Core稠密/稀疏運算效能	720 / 1440 PFLOPS
FP8/FP6 Tensor Core稠密/稀疏運算效能	360 / 720 PFLOPS
INT8 Tensor Core稠密/稀疏運算效能	360 / 720 PFLOPS
HBM記憶體架構	HBM3e
HBM記憶體容量	最大13.5 TB
HBM記憶體頻寬	最高576 TB/s
處理器組態	2592x Arm Neoverse V2核心
高速記憶體容量	最大30 TB
NVLink交換器	7x
NVLink頻寬（雙向）	130 TB/s