ADVERTISEMENT
Supermicro, Inc. 為 AI、雲端、儲存和 5G/邊緣領域的全方位 IT 解決方案製造商,宣布推出其最新產品組合,加速生成式AI部署。Supermicro SuperCluster 解決方案能為現今及未來大型語言模型(Large Language Model,LLM)硬體基礎設施提供核心建構組件。
Supermicro 三款強大的 SuperCluster 解決方案現已上市並可被用於生成式 AI 工作運行。這些解決方案內的 4U 液冷系統或 8U 氣冷系統是專為強大 LLM 訓練性能以及高度批次大小且大量的 LLM 推論所設計。配備了 1U 氣冷 Supermicro NVIDIA MGXTM 系統的第三款 SuperCluster 超級叢集則針對雲端級推論進行了最佳化。
Supermicro 總裁暨執行長梁見後表示:「在 AI 時代,運算力單位是以叢集來衡量,不再只用伺服器數量作為依據。我們的全球製造產能已擴大到每月 5,000 台機櫃,能比以往更快地為客戶提供完整生成式 AI 運算叢集。
ADVERTISEMENT
只需透過我們採用 400Gb/s NVIDIA Quantum-2 InfiniBand 和 Spectrum-X Ethernet 網路技術的數個可擴充型叢集建構組件,一個 64 節點的運算叢集能支援具有 72TB HBM3e 的 512 個 NVIDIA HGX H200 GPU。
結合了 NVIDIA AI Enterprise 軟體的 Supermicro SuperCluster 解決方案非常適合用於針對現今企業與雲端基礎架構的 LLM 訓練,且最高可達兆級參數。互連的 GPU、CPU、記憶體、儲存、以及網路硬體在被部署至機櫃內的多個節點後形成現今 AI 技術的基礎。Supermicro 的 SuperCluster 解決方案為快速發展的生成式 AI 與 LLM 提供了核心建構組件。」
如需 Supermicro AI SuperCluster 的詳細資訊,請造訪:www.supermicro.com/ai-supercluster
ADVERTISEMENT
NVIDIA GPU 產品部門副總裁 Kaustubh Sanghani 則表示:「NVIDIA 最新型 GPU、CPU、網路與軟體技術助力能讓系統製造者為全球市場內不同類型的下一代 AI 工作運行實現加速。透過結合基於 Blackwell 架構產品的 NVIDIA 加速運算平台,Supermicro 能提供客戶所需要的前沿伺服器系統,且這些系統可容易地被部署至資料中心。」
Supermicro 4U NVIDIA HGX H100/H200 8-GPU 系統透過液冷技術使 8U 氣冷系統運算密度加倍,同時降低能耗量與總體擁有成本(TCO)。
這些系統旨在為了支援下一代 NVIDIA 的 Blackwell 架構 GPU。Supermicro 冷卻分配單元(Cooling Distribution Unit,CDU)與冷卻分配分流管(Cooling Distribution Manifold,CDM)是主要冷卻液流動脈絡,可將冷卻液輸送至 Supermicro 定製的直達晶片(Direct-to-Chip,D2C)冷板,使 GPU 和 CPU 處於最佳運行溫度,進而實現效能最大化。
ADVERTISEMENT
此散熱技術可使一整座資料中心電力成本降低最多 40%,同時節省資料中心占地空間。深入了解 Supermicro 液冷技術:https://www.supermicro.com/zh-tw/solutions/liquid-cooling
搭載 NVIDIA HGX H100/H200 8-GPU 的系統非常適合用於訓練生成式 Al。透過 NVIDIA NVLink 技術高速互連的 GPU,以及高 GPU 記憶體頻寬與容量,將成為符合成本效益地運行 LLM 的核心關鍵。Supermicro 的 SuperCluster 具備龐大 GPU 共用資源,能作為一個 AI 超級電腦進行運算作業。
無論是導入一個最初就以數兆級詞元(token)資料集進行完整訓練的大型基礎模型,或開發一個雲端級LLM推論基礎架構,具有無阻式 400Gb/s 網路結構的主幹枝葉式架構(Spine and Leaf Network Topology)都能從 32 個運算節點順暢地擴展至數千個節點。針對完全整合的液冷系統,Supermicro 在產品出廠前會藉由經認證的測試流程徹底驗證與確保系統運行成效與效率。
ADVERTISEMENT
採用了 NVIDIA GH200 Grace Hopper Superchip 的 Supermicro NVIDIA MGX 系統設計將能打造出未來 AI 運算叢集的架構樣式以解決生成式 AI 的關鍵瓶頸:運行高推論批次大小的 LLM 所需的 GPU 記憶體頻寬及容量,進而降低營運成本。具 256 節點的運算叢集能實現雲端級大量推論算力引擎,並易於部署與擴充。
配置 4U 液冷系統的 5 組機櫃或 8U 氣冷系統的 9 組機櫃型 SuperCluster
- 單一可擴充單元含 256 個 NVIDIA H100/H200 Tensor Core GPU
- 液冷技術能支援 512 個 GPU、64 個節點,而其體積空間等同於搭載 256 個 GPU 的氣冷式 32 節點解決方案
- 單一可擴充單元含具有 20TB HBM3 的 NVIDIA H100 或具有 36TB HBM3e 的 NVIDIA H200
- 一對一網路傳輸結構可為每個 GPU 提供最高 400 Gbps 頻寬,並支援 GPUDirect RDMA 與 GPUDirect Storage 技術,實現最高兆級參數的 LLM 訓練
- 400G InfiniBand 或 400GbE Ethernet 網路交換器結構採用高度可擴充型主幹枝葉式網路架構技術,包括 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X Ethernet 網路平台
- 可客製化 AI 資料管道儲存結構具有領先業界的平行檔案系統選項技術
- 搭載 NVIDIA AI Enterprise 5.0 軟體,能支援可加速大規模 AI 模型部署的新型 NVIDIA NIM 推論微服務
配置 1U 氣冷 NVIDIA MGX 系統的 9 組機櫃型 SuperCluster
- 單一可擴充單元含 256 個 GH200 Grace Hopper Superchips
- 最高可達 144GB HBM3e 加 480GB LPDDR5X 的統一記憶體,適用於雲端級、大量、低延遲和高批次推論,並能在單一運算節點中容納超過 700 億個參數規模的模型
- 400G InfiniBand 或 400GbE Ethernet 網路交換器結構採用了高度可擴充型主幹枝葉式網路架構技術
- 每節點最多含 8 個內建 E1.S NVMe 儲存裝置
- 可客製化 AI 資料管道儲存結構搭配 NVIDIA BlueField-3 DPU 與領先業界的平行檔案系統選項,能為每個 GPU 提供高傳輸量、低延遲的儲存裝置存取
- NVIDIA AI Enterprise 5.0 軟體
透過 GPU 間可實現的頂級互連效能,Supermicro 的 SuperCluster 解決方案針對 LLM 訓練、深度學習,以及大量且高批次推論進行了最佳化。Supermicro 的 L11 和 L12 驗證測試結合了現場部署服務,可為客戶提供更順暢體驗。客戶收到隨插即用的可擴充單元後能實現資料中心內的輕鬆部署,並可更快獲取成果。
- 延伸閱讀:Supermicro宣布X13機櫃氣冷、液冷解決方案,支援最新第五代Intel Xeon處理器
- 延伸閱讀:Supermicro擴大全球製造基地,提升機櫃級製造力達全球每月5000個
- 延伸閱讀:Supermicro基於NVIDIA GH200 Grace Hopper超級晶片的伺服器開始出貨
ADVERTISEMENT