想玩 AI 模型? 顯示卡怎麼挑?不同顯示卡AI 推論效能大比拼!

想玩 AI 模型? 顯示卡怎麼挑?不同顯示卡AI 推論效能大比拼!

ADVERTISEMENT

過去,顯示卡的主要用途是用於遊戲等3D圖形處理,但近年來,越來越多的人選擇顯示卡是為了「在本地端運行AI」。最近發現一個名為「GPU-Benchmarks-on-LLM-Inference」的網頁,它整理了大量 NVIDIA 顯示卡及 Apple 製晶片在執行大型語言模型「LLaMA 3」推論時的處理性能,以下是重點內容的整理。

「GPU-Benchmarks-on-LLM-Inference」是由AI研究員Xiongjie Dai所創建的性能比較網頁,其中彙整了各種顯示卡和Apple晶片在執行LLaMA 3推論處理時的每秒處理token數量。 測試項目包含「參數量為8B的模型」、「參數量為8B的量化模型」、「參數量為70B的模型」以及「參數量為70B的量化模型」。

下表節錄了性能比較表中,較容易取得的遊戲用顯示卡的測試結果。完整的測試表,可以看這裡。 性能最好的是「RTX 4090 24GB」。 此外,「RTX 3090 24GB」、「RTX 4080 16GB」和「RTX 4090 24GB」這三款顯示卡擁有足夠的效能和記憶體,可以執行未經量化的LLaMA 3 8B模型。但是,即使是經過「量化」處理,將參數量為 700 億的 LLaMA 3 模型壓縮變小,這三款顯示卡還是無法執行。

GPU 8B Q4_K_M 8B F16 70B Q4_K_M 70B F16
RTX 3070 8GB 70.94 記憶體不足 記憶體不足 記憶體不足
RTX 3080 10GB 106.40 記憶體不足 記憶體不足 記憶體不足
RTX 3080 Ti 12GB 106.71 記憶體不足 記憶體不足 記憶體不足
RTX 3090 24GB 111.74 46.51 記憶體不足 記憶體不足
RTX 4070 Ti 12GB 82.21 記憶體不足 記憶體不足 記憶體不足
RTX 4080 16GB 106.22 40.29 記憶體不足 記憶體不足
RTX 4090 24GB 127.74 54.34 記憶體不足 記憶體不足

搭載多張顯示卡的電腦之處理性能如下表所示。 雖然增加顯示卡可以解決記憶體不足的問題,但每秒處理token數量並沒有顯著差異。

GPU 8B Q4_K_M 8B F16 70B Q4_K_M 70B F16
RTX 3090 24GB*2 108.07 47.15 16.29 記憶體不足
RTX 3090 24GB*4 104.94 46.40 16.89 記憶體不足
RTX 3090 24GB*6 101.07 45.55 16.93 5.82
RTX 4090 24GB*2 122.56 53.27 19.06 記憶體不足
RTX 4090 24GB*4 117.61 52.69 18.83 記憶體不足
RTX 4090 24GB*8 116.13 52.12 18.76 6.45

以下是運算用顯示卡的處理性能。

GPU 8B Q4_K_M 8B F16 70B Q4_K_M 70B F16
RTX 4000 Ada 20GB 58.59 20.85 記憶體不足 記憶體不足
RTX 4000 Ada 20GB*4 56.14 20.58 7.33 記憶體不足
RRTX 5000 Ada 32GB 89.87 32.67 記憶體不足 記憶體不足
RTX 5000 Ada 32GB*4 82.73 31.94 11.45 記憶體不足
RTX A6000 48GB 102.22 40.25 14.58 記憶體不足
RTX A6000 48GB*4 93.73 38.87 14.32 4.74
RTX 6000 Ada 48GB 130.99 51.97 18.36 記憶體不足
RTX 6000 Ada 48GB*4 118.99 50.25 17.96 6.06

接著,以下是使用高效能運算和AI處理晶片執行LLaMA 3各模型時的推論處理性能。 

GPU 8B Q4_K_M 8B F16 70B Q4_K_M 70B F16
A40 48GB 88.95 33.95 12.08 記憶體不足
A40 48GB*4 83.79 33.28 11.91 3.98
L40S 48GB 113.60 43.42 15.31 記憶體不足
L40S 48GB*4 105.72 42.48 14.99 5.03
A100 PCIe 80GB 138.31 53.18 24.33 記憶體不足
A100 PCIe 80GB*4 117.30 51.54 22.68 7.38
A100 SXM 80GB 133.38 53.18 24.33 記憶體不足
A100 SXM 80GB*4 97.70 45.45 19.60 6.92
H100 PCIe 80GB 144.49 67.79 25.01 記憶體不足
H100 PCIe 80GB*4 118.14 62.90 26.20 9.63

另外,以下是搭載Apple晶片的Mac電腦的推論處理性能。 觀察M2 Ultra和M3 Max的性能差異,可以看出記憶體容量對LLM處理的重要性。

GPU 8B Q4_K_M 8B F16 70B Q4_K_M 70B F16
M1 7‑Core GPU 8GB 9.72 記憶體不足 記憶體不足 記憶體不足
M1 Max 32‑Core GPU 64GB 34.49 18.43 4.09 記憶體不足
M2 Ultra 76-Core GPU 192GB 76.28 36.25 12.13 4.71
M3 Max 40‑Core GPU 64GB 50.74 22.39 7.53 記憶體不足

Dai根據性能比較結果得出結論:「如果要省錢,就購買NVIDIA的遊戲用顯示卡;如果是商業用途,則選擇專業級顯示卡;如果追求省電性能和靜音性能,則購買Mac。」

netizen
作者

一個老派的科技媒體工作者,對於最新科技動態、最新科技訊息的觀察報告。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則