ADVERTISEMENT
NVIDIA於Hot Chips 2024大會介紹Blackwell平台最新發展,並說明應用於資料中心的液冷技術。
Blackwell是完整AI運算平台
NVIDIA提醒大家不應單純把Blackwell理解成僅僅為GPU,它是款整合多種NVIDIA晶片的完整堆疊運算(Full-Stack Computing),除了Blackwell GPU(繪圖處理器)之外,還有Grace CPU(中央處理器)、BlueField DPU(資料處理器)、ConnectX NIC(網路介面卡)、NVLink Switch交換器、Spectrum乙太網路交換器、Quantum InfiniBand交換器。
延伸閱讀:GTC 24:Blackwell架構詳解!看懂B100、B200、GB200、GB200 NVL72成員的糾結瓜葛
以GB200 NVL72為例,其機櫃(Rack)具有18組GB200 Superchip運算節點以及9組NVLink交換器構成,其中每組GB200 Superchip運算節點具有2組GB200 Superchip晶片,每組晶片上又有2組Blackwell GPU與1組Grace CPU,因此整個機櫃可以視為具有72組GPU組成的叢集,具有多節點、液冷、機架規模等特色,滿足LLM(Large Language Model,大型語言模型)推論算所需的低延遲、高吞吐量,並具有極高的詞元(Token)產出效能。
ADVERTISEMENT
另一方面,GB200 NVL72也提供結合氣冷與液冷的混合式冷卻技術,能夠更有效率地將降廢熱從系統排除,除了提高能源利用效率、更加省電,並且更加符合永續精神之外,它佔用的空間也更小,能在相同的資料中心空間設置更多伺服器機櫃,以提高整體運算能力。
NVIDIA資料中心冷卻與基礎設施部門總監Ali Heydari說明,部分設計是將現有的氣冷式資料中心改為液冷式散熱,能夠簡便將現有機架加入液冷功能。另一部分設計則需要安裝工作液體管道,以便使用冷卻液分配裝置或將伺服器完全浸入冷卻槽,以液冷方式直接冷卻晶片,雖然一開始的建置成本較高,但能大幅節省能源消耗量和營運成本。
ADVERTISEMENT
ADVERTISEMENT
ADVERTISEMENT
Hot Chips 2024大會將於8月25日至27日之間在史丹佛大學舉辦,更多資訊可以參考官方網站。
ADVERTISEMENT