NVIDIA公布MLPerf 4.1推論測試結果，首見Blackwell與FP4成績 | T客邦

NVIDIA公布MLPerf 4.1推論測試結果，首見Blackwell與FP4成績

ADVERTISEMENT

NVIDIA於Hot Chips 2024大會公布最新MLPerf 4.1推論測試結果，不但首次揭露Blackwell實際運作效能，也展示FP4資料類型帶來的優勢。

Blackwell跑分來啦

MLPerf是由學術界、研究實驗室和業界人士共同組成組織，旨在打造公正且能夠反映實際應用情境的AI運算測試基準，在最新4.1版中加入了Mixtral 8x7B Mixtral of Experts大型語言模型的測試，它是款結合8種「專家」的稀疏混合專家網路（Sparse Mixture-of-Experts Network），能在每層網路處理每組字詞（Token）時選擇其中２種專家混合推論並輸出結果。。

延伸閱讀：NVIDIA於Hot Chips 2024大會展示液冷GB200，提升資料中心效能與能源效率

NVIDIA在最新公布的MLPerf 4.1推論測試結果中，展示使用Blackwell GPU搭配FP4資料類型的運算效能，受益於第2代Transformer引擎與支援FP4的Tensor Core 張量核心，能夠帶來4倍於H100 GPU的效能表現。

雖然FP4的精準度較低，但是有著推論運算更快以及模型占用較少空間的優勢，能在犧牲些微精準度的前提下，大幅提升推論速度，並節省儲存模型的空間以及傳輸資料的頻寬，仍有相當大的應用優勢。

▲ MLPerf 4.1版中加入結合8種「專家」稀疏混合專家網路的Mixtral 8x7B Mixtral of Experts大型語言模型測試。

▲ Blackwell在單GPU執行Llama 2 70B大型語言模型的效能達每秒10,756組字詞，為前代產品H100的4倍。

▲ Blackwell能透過TensorRT Model Optimizer為模型進行FP4資料類型量化，犧牲些微精準度來大幅提升推論速度。

▲ 左方為FP16資料類型模型生成的圖片，右方則為FP4資料類型，目視無明顯品質失真。

▲ 另一方面NVIDIA也公布H200執行Llama 2 70B大型語言模型的成績，在1000 W功耗的條件下，能夠達到H100在700 W功耗的1.5倍效能表現。

▲ H200與H100在同樣1000 W功耗條件執行Mixtral 8x7B Mixtral of Experts大型語言模型的成績對照。AMD的MI300X尚未提交成績。

▲ 在Stable Diffusion XL圖像生成部分，H200的表現也是優於H100。MI300X同樣尚未提交成績

▲ H200與H100在多項測試的比較。

▲ NVIDIA也展示透過改善FP8資料類型的量化，能夠以軟體方式改善H200執行Llama 3.1 405B大型語言模型35%吞吐量與30%延遲。

▲ 在Jetson AGX Orin邊緣運算平台方面，則是透過軟體最佳化方式提升效能，在GPT-J大型語言模型部份最高可帶來前版本之6.2倍效能。

Hot Chips 2024大會將於8月25日至27日之間在史丹佛大學舉辦，更多資訊可以參考官方網站。

#NVIDIA #人工智慧 #ai #IT產業新聞 #jetson #mlperf #h100 #jetson agx orin #h200 #blackwell #gb200

使用 Facebook 留言

謹慎發言，尊重彼此。按此展開留言規則