GTC 24:Blackwell架構詳解!看懂B100、B200、GB200、GB200 NVL72成員的糾結瓜葛

GTC 24:Blackwell架構詳解!看懂B100、B200、GB200、GB200 NVL72成員的糾結瓜葛

ADVERTISEMENT

身為目前最強的AI加速運算單元,Blackwell GPU不但具有強悍的效能,還可透過串接多組GPU方式構建「超大型GPU」,帶來更高的總體效能與吞吐量。

不同散熱與介面組態

NVIDIA推出了多種Blackwell GPU組態,包含整合8組GPU的HGX形式超級電腦,以及整合2組GPU搭配1組Grace CPU的GB200運算節點,而它們又可以彼此串連成為更大型的運算叢集。

NVIDIA在GTC大會上主要推廣的型號為整合2組Blackwell GPU與1組Grace CPU的GB200 Superchip,NVIDIA推出的GB200 Superchip運算節點(Compute Node)則是將2組GB200 Superchip安置於1U高度的伺服器,並採用水冷散熱方案,能讓單組GB200 Superchip的TDP達到2700W,完全解放效能表現。

此外NVIDIA也會推出採用SXG介面的B200與B100等GPU,且都能夠以8組GPU組成HGX B200或HGX B100伺服器,2者主要的差異在於B200的TDP最高可達1000W,而B100僅為800W。

NVIDIA超大規模與高效能運算副總裁暨總經理Ian Buck也在媒體訪談中補充說明,若將B200安置於伺服器並搭配水冷散熱方案,則可將TDP上調至1200W,進一步提高運算效能。

另一方面,在散熱與供電許可的範圍下,B200與B100 GPU能夠直接與現有H100 HGX或相容伺服器進行GPU替換(Drop-in Replace),提供更大的升級彈性並節省升級費用。

(若下方表格無法完整顯示,請點選我看圖片版

GB200 Superchip規格表
規格 GB200 Superchip
組態 Grace CPU + 2 Blackwell GPU
FP4 Tensor Core稠密/稀疏運算效能 20 / 40 PFLOPS
FP8/FP6 Tensor Core稠密/稀疏運算效能 10 / 20 PFLOPS
INT8 Tensor Core稠密/稀疏運算效能 10 / 20 PFLOPS
FP16/BF16 Tensor Core稠密/稀疏運算效能 5 / 10 PFLOPS
FP32 Tensor Core稠密/稀疏運算效能 2.5 / 5 PFLOPS
FP64 Tensor Core稠密運算效能 90 TFLOPS (0.09PFLOPS)
HBM記憶體架構 HBM3e 8x2-sites
HBM記憶體容量 最大384 GB
HBM記憶體頻寬 最高16 TB/s
處理器組態 72x Arm Neoverse V2核心
處理器L1快取記憶體 每核心64KB i-cache + 64KB d-cache
處理器L2快取記憶體 每核心1MB
處理器L3快取記憶體 114MB
LPDDR5X記憶體容量 最大480 GB
LPDDR5X記憶體頻寬 最高512 GB/s
解壓縮引擎
影像解碼器 2x 7 NVDEC、2x 7 NVJPEG
Multi-Instance GPU(MIG)執行個體 2x 7
尺寸型式(Form factor) Superchip模組
NVLink版本 NVLink v5
NVLink頻寬(雙向) 2x 1.8 TB/s
PCIe Gen 6頻寬(雙向) 2x 256 GB/s
TDP 最高2700W
伺服器組態 NVIDIA GB200 NVL72最高可達576 GPUs

 (若下方表格無法完整顯示,請點選我看圖片版

NVIDIA Blackwell HGX規格表
規格 HGX B200 HGX B100
組態 8x Blackwell GPU  
FP4 Tensor Cor運算效能 144 PFLOPS 112 PFLOPS
FP8/FP6/INT8 Tensor Core運算效能 72 PFLOPS 56 PFLOPS
高速記憶體容量 最大1.5 TB
聚合記憶體頻寬 最高64 TB/s
聚合NVLink頻寬 14.4 TB/s
單一GPU規格
TDP 最高1000W 最高800W
FP4 Tensor Cor運算效能 18 PFLOPS 14 PFLOPS
FP8/FP6/INT8 Tensor Core運算效能 9 PFLOPS 7 PFLOPS
FP16/BF16 Tensor Core運算效能 4.5 PFLOPS 3.5 PFLOPS
FP32 Tensor Cor運算效能 2.2 PFLOPS 1.8 PFLOPS
FP64 Tensor Cor運算效能 40 TFLOPS 30 TFLOPS
GPU記憶體組態 HBM3e
GPU記憶體頻寬 最高8 TB/s
互連介面 NVLink(1.8 TB/s)、PCIe Gen6(256 GB/s)
伺服器組態 8 GPU(NVIDIA HGX B100 夥伴與
NVIDIA認證系統)
8 GPU(NVIDIA HGX B200 夥伴與
NVIDIA認證系統)

Blackwell GPU的實體圖片,更多詳細介紹可看筆者的前篇報導。

GB200 Superchip整合2組Blackwell GPU與1組Grace CPU。

GB200 Superchip的實體圖片,上方為2組Blackwell GPU,中央則為Grace CPU與LPDDR5x記憶體。

每組Blackwell GPU內建容量為384 GB的HBM3e高頻寬記憶體。

Grace CPU則在外部配置最大480 GB LPDDR5X記憶體。

GB200 Superchip運算節點整合2組GB200 Superchip,搭配水冷散熱方案,安置於1U高度的伺服器。(左方為去除水冷頭的情況)

此外客戶也可以選則整合8組SXG介面Blackwell GPU的HGX B200或HGX B100伺服器。

透過高速互連頻寬組成超大GPU

Blackwell GPU的另一大創新功能,就是能夠透過NVLink串聯最多576組Blackwell GPU,讓整個叢集猶如組成單一超大GPU,達到擴大運算效能、共享記憶體、執行規模更大模型的能力。

而NVIDIA也推出了GB200 NVL72伺服器,它的機櫃(Rack)具有18組GB200 Superchip運算節點以及9組NVLink交換器(每組交換器具有2組NVLink交換器晶片所),能在由72組GPU組成的NVL72網域叢集中,以130 TB/s的頻寬交換資料。而跨多台機櫃的GPU資料則會透過InfiniBand網路傳輸。

相對於Blackwell GPU晶片內部的2組裸晶透過頻寬高達10 TB/s的NV-HBI(NVIDIA High-Bandwidth Interface)晶片對晶片互連(Chip-to-Chip Interconnection)相連,多顆GPU之間則是透過第5代NVLink相連。它採用18通道(Link)的高速差分訊號對(High-Speed Differential Pair),能夠提供總共高達1.8 TB/s的雙向頻寬(即單向為900 GB/s),最高能支援576組GPU相連,遠高於前代的256組GPU。

第5代NVLink的頻遠遠高出PCIe Gen 5x16的14倍,其1小時的雙向傳輸量總合約為6.32 PB,大約等同於18年4K電影串流的資料量,或是11組Blackwell GPU之間的傳數量總合就與整個網際網路相當,對於執行大型AI模型的效能表現扮演重要角色。

(若下方表格無法完整顯示,請點選我看圖片版

NVIDIA GB200 NVL72規格表
規格 NVIDIA GB200 NVL72
組態 36x GB200 Superchip
FP4 Tensor Core稠密/稀疏運算效能 720 / 1440 PFLOPS
FP8/FP6 Tensor Core稠密/稀疏運算效能 360 / 720 PFLOPS
INT8 Tensor Core稠密/稀疏運算效能 360 / 720 PFLOPS
HBM記憶體架構 HBM3e
HBM記憶體容量 最大13.5 TB
HBM記憶體頻寬 最高576 TB/s
處理器組態 2592x Arm Neoverse V2核心
高速記憶體容量 最大30 TB
NVLink交換器 7x
NVLink頻寬(雙向) 130 TB/s

NVLink交換器晶片能夠串聯最多576組Blackwell GPU組成單一超大GPU,達到擴大運算效能、共享記憶體、執行規模更大模型的能力。

NVLink交換器由2組NVLink交換器晶片構成,並提供144組NVLink端子,無阻塞交換劉量答14.4 TB/s,為GB200 NVL72系統提供高頻寬和低延遲資料交換能力。

GB200 NVL72機櫃具有18組GB200 Superchip運算節點,總共包含72組Blackwell GPU與36組Grace CPU。

GB200 NVL72機櫃背面則有稱為NVLink Spine(NVLink脊椎)的資料連接纜線,GPU串聯在一起。

NVIDIA不但透過CUDA確立了AI運算軟體與框架的領先優勢,隨著Blackwell架構推出的第5代NVLink也支援串聯更多GPU,進而提供更龐大的運算能力以及記憶體總容量,讓競爭對手望塵莫及。

回到GTC 2024春季場系列報導目錄

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則