NVIDIA於Hot Chips 2024大會展示液冷GB200,提升資料中心效能與能源效率

NVIDIA於Hot Chips 2024大會展示液冷GB200,提升資料中心效能與能源效率

ADVERTISEMENT

NVIDIA於Hot Chips 2024大會介紹Blackwell平台最新發展,並說明應用於資料中心的液冷技術。

Blackwell是完整AI運算平台

NVIDIA提醒大家不應單純把Blackwell理解成僅僅為GPU,它是款整合多種NVIDIA晶片的完整堆疊運算(Full-Stack Computing),除了Blackwell GPU(繪圖處理器)之外,還有Grace CPU(中央處理器)、BlueField DPU(資料處理器)、ConnectX NIC(網路介面卡)、NVLink Switch交換器、Spectrum乙太網路交換器、Quantum InfiniBand交換器。

延伸閱讀:GTC 24:Blackwell架構詳解!看懂B100、B200、GB200、GB200 NVL72成員的糾結瓜葛

以GB200 NVL72為例,其機櫃(Rack)具有18組GB200 Superchip運算節點以及9組NVLink交換器構成,其中每組GB200 Superchip運算節點具有2組GB200 Superchip晶片,每組晶片上又有2組Blackwell GPU與1組Grace CPU,因此整個機櫃可以視為具有72組GPU組成的叢集,具有多節點、液冷、機架規模等特色,滿足LLM(Large Language Model,大型語言模型)推論算所需的低延遲、高吞吐量,並具有極高的詞元(Token)產出效能。

另一方面,GB200 NVL72也提供結合氣冷與液冷的混合式冷卻技術,能夠更有效率地將降廢熱從系統排除,除了提高能源利用效率、更加省電,並且更加符合永續精神之外,它佔用的空間也更小,能在相同的資料中心空間設置更多伺服器機櫃,以提高整體運算能力。

NVIDIA資料中心冷卻與基礎設施部門總監Ali Heydari說明,部分設計是將現有的氣冷式資料中心改為液冷式散熱,能夠簡便將現有機架加入液冷功能。另一部分設計則需要安裝工作液體管道,以便使用冷卻液分配裝置或將伺服器完全浸入冷卻槽,以液冷方式直接冷卻晶片,雖然一開始的建置成本較高,但能大幅節省能源消耗量和營運成本。

Blackwell是整合GPU、CPU、DPU、網路介面卡、交換器的完整堆疊運算平台。

GB200 NVL72為例,每組運算節點具有2組GB200 Superchip晶片,每組晶片上又有2組Blackwell GPU與1組Grace CPU。各GPU透過雙向頻寬為1.8 TB/s的NVLink匯流排相連

GB200 NVL72也提供液冷與混合式散熱解決方案選項。其中溫水直接散熱(Warm Water Direct-to-Chip)方案使用液冷方式,但不需要冰水主機或壓縮機等設備,具有更高的能源利用效率與更低的運作成本,且可回收利用廢熱,最高能節省資料中心設置28%用電。

圖為液冷的GB200 NVL72運算節點,2組黃紅色的裝置為GB200 Superchip的液冷頭,各液冷頭下方有2組Blackwell GPU與1組Grace CPU。

GB200 NVL72運算節點的俯視圖,由於GB200 Superchip採用液冷散熱,所以不需要安裝風扇。

Blackwell NVLink Switch的功能為負責GPU之間的資料交換,串起機櫃中的72組Blackwell GPU。

Blackwell NVLink Switch Chip晶片採用TSMC(台積電)4NP節點製程,總共具有7.2 TB/s雙向傳輸頻寬。而Blackwell NVLink Switch Tray機架則具有2組晶片。

以目前已上市的H200搭配Hooper NVLink Switch進行測試,在執行Llama 3.1 70B LLM推論運算時,使用NVLink Switch可以在不同使用者人數條件下帶來30~50%不等的效能提升。

NVIDIA預計於2024年推出Blackwell GPU,並在2025年推出強化版Blackwell Ultra GPU。2026年則預計推出次世代Rubin平台。

Hot Chips 2024大會將於8月25日至27日之間在史丹佛大學舉辦,更多資訊可以參考官方網站

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則