NVIDIA公布MLPerf Training 4.1測試成績，DGX B200系統GPU效能提升最高達2.2倍

NVIDIA在最新公布的MLPerf Training 4.1測試成績中揭露，Blackwell系列GPU之效能表現最高可達前代產品之2.2倍，並強調自家提供的完整AI解決方案。

GPU單位效能再創新高

MLPerf是由學術界、研究實驗室和業界人士共同組成組織旨在打造公正且能夠反映實際應用情境的AI運算測試基準。最新MLPerf Training 4.1 AI模型訓練效能測試的內容包含Stable Diffusion v2文字生成圖像、GPT-3 175B與Llama 2 70B大型語言模型、R-GAT圖像神經網路、BERT自然語言處理、RetianNet物件偵測的模型訓練與微調。

延伸閱讀：NVIDIA公布MLPerf 4.1推論測試結果，首見Blackwell與FP4成績

舉例來說，更新軟體核心（Kernel）改善矩陣相乘的效能並改善GPU（繪圖處理器）中Tensor核心的運算效率，就能達到提高許多深度學習（Deep Learning）的運算效能。透過這種方式，NVIDIA將H100的單GPU訓練效能提高了30%，

另一種提高效能表現的方式，就是改善多GPU叢集的連接與網路環境。透過NVLink、NVSwitch、Quantum-2 InfiniBand網路等高速連接技術組成的11,616組Hopper GPU運算叢集，能在GPT-3 175B訓練測試提高了3倍以上效能。

而最「簡單有效」的解決方案，當然還是升級至新一代GPU。NVIDIA表示採用Blackwell平台的Nyx超級電腦在Llama 2 70B大型語言模型微調的每GPU效能表現為前代H100的2.2倍，而GPT-3 175B預訓練則為2倍，且提交了所有測試項目之成績。

NVIDIA也將自己定位為資料中心平台公司，在累積多年的開發成果後，能夠提供完整的軟、硬體堆疊，在硬體方面小至晶片、大至機櫃甚至資料中心，軟體部分則從最基礎的晶片、系統、叢集軟體與驅動程式，到運算API與函數庫，都有對應的技術與產品，能夠解決企業的加速運算與AI運算需求。

▲ MLPerf Training 4.1訓練測試包含Stable Diffusion v2文字生成圖像、GPT-3 175B與Llama 2 70B大型語言模型、R-GAT圖像神經網路、BERT自然語言處理、RetianNet物件偵測的模型訓練與微調。

▲ 既有的Hooper GPU在NVSwitch交換器的協助下較先前首次提交MLPerf Training 4.1訓練測試成績成長30%，且最高可串接11,616組GPU，是目前效能最佳的解決方案。

▲ Hooper GPU搭配NVSwitch交換器也對AI推論有所幫助，能提高Llama 3.1效能90%，或是讓生成第1組字詞（Time to First Token）的速度提升至3倍。

▲ Blackwell GPU的MLPerf Training 4.1訓練測試成績最高可達到前代產品的2.2倍。

▲ 在軟、硬體最佳化整合的助益下，HGX B200的大型語言預訓練效能可達HGX A100的12倍，或是HGX H100的2倍。

▲ NVIDIA的AI運算解決方案包含完整的軟、硬體堆疊，包含各種晶片、連接、機櫃、散熱等硬體，以及晶片、系統、叢集、API、函數庫等不同層級的軟體。

▲ NVIDIA的「1年節奏」（One Year Rhythm）包含晶片設計與生產、資料中心驗證、快速布署，協助客戶加速導入AI轉型。

▲ NVIDIA計劃於2024年推出Blackwell運算平台，並於2025年更新至Blackwell Ultra加強版，2026年則會推出Rubin運算平台。

另一方面，NVIDIA也重申「1年節奏」（One Year Rhythm）的產品更新規劃，包含晶片、機櫃、資料中心等不同層級的組合，讓企業能夠根據自身需求選擇最新的解決方案。