NVIDIA公布MLPerf 4.1推論測試結果,首見Blackwell與FP4成績

NVIDIA公布MLPerf 4.1推論測試結果,首見Blackwell與FP4成績

ADVERTISEMENT

 

NVIDIA於Hot Chips 2024大會公布最新MLPerf 4.1推論測試結果,不但首次揭露Blackwell實際運作效能,也展示FP4資料類型帶來的優勢。

Blackwell跑分來啦

MLPerf是由學術界、研究實驗室和業界人士共同組成組織,旨在打造公正且能夠反映實際應用情境的AI運算測試基準,在最新4.1版中加入了Mixtral 8x7B Mixtral of Experts大型語言模型的測試,它是款結合8種「專家」的稀疏混合專家網路(Sparse Mixture-of-Experts Network),能在每層網路處理每組字詞(Token)時選擇其中2種專家混合推論並輸出結果。。

延伸閱讀:NVIDIA於Hot Chips 2024大會展示液冷GB200,提升資料中心效能與能源效率

NVIDIA在最新公布的MLPerf 4.1推論測試結果中,展示使用Blackwell GPU搭配FP4資料類型的運算效能,受益於第2代Transformer引擎與支援FP4的Tensor Core 張量核心,能夠帶來4倍於H100 GPU的效能表現。

雖然FP4的精準度較低,但是有著推論運算更快以及模型占用較少空間的優勢,能在犧牲些微精準度的前提下,大幅提升推論速度,並節省儲存模型的空間以及傳輸資料的頻寬,仍有相當大的應用優勢。

MLPerf 4.1版中加入結合8種「專家」稀疏混合專家網路的Mixtral 8x7B Mixtral of Experts大型語言模型測試。

Blackwell在單GPU執行Llama 2 70B大型語言模型的效能達每秒10,756組字詞,為前代產品H100的4倍。

Blackwell能透過TensorRT Model Optimizer為模型進行FP4資料類型量化,犧牲些微精準度來大幅提升推論速度。

左方為FP16資料類型模型生成的圖片,右方則為FP4資料類型,目視無明顯品質失真。

另一方面NVIDIA也公布H200執行Llama 2 70B大型語言模型的成績,在1000 W功耗的條件下,能夠達到H100在700 W功耗的1.5倍效能表現。

H200與H100在同樣1000 W功耗條件執行Mixtral 8x7B Mixtral of Experts大型語言模型的成績對照。AMD的MI300X尚未提交成績。

在Stable Diffusion XL圖像生成部分,H200的表現也是優於H100。MI300X同樣尚未提交成績

H200與H100在多項測試的比較。

NVIDIA也展示透過改善FP8資料類型的量化,能夠以軟體方式改善H200執行Llama 3.1 405B大型語言模型35%吞吐量與30%延遲。

在Jetson AGX Orin邊緣運算平台方面,則是透過軟體最佳化方式提升效能,在GPT-J大型語言模型部份最高可帶來前版本之6.2倍效能。

Hot Chips 2024大會將於8月25日至27日之間在史丹佛大學舉辦,更多資訊可以參考官方網站

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則