ADVERTISEMENT
過去,顯示卡的主要用途是用於遊戲等3D圖形處理,但近年來,越來越多的人選擇顯示卡是為了「在本地端運行AI」。最近發現一個名為「GPU-Benchmarks-on-LLM-Inference」的網頁,它整理了大量 NVIDIA 顯示卡及 Apple 製晶片在執行大型語言模型「LLaMA 3」推論時的處理性能,以下是重點內容的整理。
- GitHub - XiongjieDai/GPU-Benchmarks-on-LLM-Inference: Multiple NVIDIA GPUs or Apple Silicon for Large Language Model Inference?
- https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference
「GPU-Benchmarks-on-LLM-Inference」是由AI研究員Xiongjie Dai所創建的性能比較網頁,其中彙整了各種顯示卡和Apple晶片在執行LLaMA 3推論處理時的每秒處理token數量。 測試項目包含「參數量為8B的模型」、「參數量為8B的量化模型」、「參數量為70B的模型」以及「參數量為70B的量化模型」。
下表節錄了性能比較表中,較容易取得的遊戲用顯示卡的測試結果。完整的測試表,可以看這裡。 性能最好的是「RTX 4090 24GB」。 此外,「RTX 3090 24GB」、「RTX 4080 16GB」和「RTX 4090 24GB」這三款顯示卡擁有足夠的效能和記憶體,可以執行未經量化的LLaMA 3 8B模型。但是,即使是經過「量化」處理,將參數量為 700 億的 LLaMA 3 模型壓縮變小,這三款顯示卡還是無法執行。
GPU | 8B Q4_K_M | 8B F16 | 70B Q4_K_M | 70B F16 |
RTX 3070 8GB | 70.94 | 記憶體不足 | 記憶體不足 | 記憶體不足 |
RTX 3080 10GB | 106.40 | 記憶體不足 | 記憶體不足 | 記憶體不足 |
RTX 3080 Ti 12GB | 106.71 | 記憶體不足 | 記憶體不足 | 記憶體不足 |
RTX 3090 24GB | 111.74 | 46.51 | 記憶體不足 | 記憶體不足 |
RTX 4070 Ti 12GB | 82.21 | 記憶體不足 | 記憶體不足 | 記憶體不足 |
RTX 4080 16GB | 106.22 | 40.29 | 記憶體不足 | 記憶體不足 |
RTX 4090 24GB | 127.74 | 54.34 | 記憶體不足 | 記憶體不足 |
搭載多張顯示卡的電腦之處理性能如下表所示。 雖然增加顯示卡可以解決記憶體不足的問題,但每秒處理token數量並沒有顯著差異。
GPU | 8B Q4_K_M | 8B F16 | 70B Q4_K_M | 70B F16 |
RTX 3090 24GB*2 | 108.07 | 47.15 | 16.29 | 記憶體不足 |
RTX 3090 24GB*4 | 104.94 | 46.40 | 16.89 | 記憶體不足 |
RTX 3090 24GB*6 | 101.07 | 45.55 | 16.93 | 5.82 |
RTX 4090 24GB*2 | 122.56 | 53.27 | 19.06 | 記憶體不足 |
RTX 4090 24GB*4 | 117.61 | 52.69 | 18.83 | 記憶體不足 |
RTX 4090 24GB*8 | 116.13 | 52.12 | 18.76 | 6.45 |
以下是運算用顯示卡的處理性能。
GPU | 8B Q4_K_M | 8B F16 | 70B Q4_K_M | 70B F16 |
RTX 4000 Ada 20GB | 58.59 | 20.85 | 記憶體不足 | 記憶體不足 |
RTX 4000 Ada 20GB*4 | 56.14 | 20.58 | 7.33 | 記憶體不足 |
RRTX 5000 Ada 32GB | 89.87 | 32.67 | 記憶體不足 | 記憶體不足 |
RTX 5000 Ada 32GB*4 | 82.73 | 31.94 | 11.45 | 記憶體不足 |
RTX A6000 48GB | 102.22 | 40.25 | 14.58 | 記憶體不足 |
RTX A6000 48GB*4 | 93.73 | 38.87 | 14.32 | 4.74 |
RTX 6000 Ada 48GB | 130.99 | 51.97 | 18.36 | 記憶體不足 |
RTX 6000 Ada 48GB*4 | 118.99 | 50.25 | 17.96 | 6.06 |
接著,以下是使用高效能運算和AI處理晶片執行LLaMA 3各模型時的推論處理性能。
GPU | 8B Q4_K_M | 8B F16 | 70B Q4_K_M | 70B F16 |
A40 48GB | 88.95 | 33.95 | 12.08 | 記憶體不足 |
A40 48GB*4 | 83.79 | 33.28 | 11.91 | 3.98 |
L40S 48GB | 113.60 | 43.42 | 15.31 | 記憶體不足 |
L40S 48GB*4 | 105.72 | 42.48 | 14.99 | 5.03 |
A100 PCIe 80GB | 138.31 | 53.18 | 24.33 | 記憶體不足 |
A100 PCIe 80GB*4 | 117.30 | 51.54 | 22.68 | 7.38 |
A100 SXM 80GB | 133.38 | 53.18 | 24.33 | 記憶體不足 |
A100 SXM 80GB*4 | 97.70 | 45.45 | 19.60 | 6.92 |
H100 PCIe 80GB | 144.49 | 67.79 | 25.01 | 記憶體不足 |
H100 PCIe 80GB*4 | 118.14 | 62.90 | 26.20 | 9.63 |
另外,以下是搭載Apple晶片的Mac電腦的推論處理性能。 觀察M2 Ultra和M3 Max的性能差異,可以看出記憶體容量對LLM處理的重要性。
GPU | 8B Q4_K_M | 8B F16 | 70B Q4_K_M | 70B F16 |
M1 7‑Core GPU 8GB | 9.72 | 記憶體不足 | 記憶體不足 | 記憶體不足 |
M1 Max 32‑Core GPU 64GB | 34.49 | 18.43 | 4.09 | 記憶體不足 |
M2 Ultra 76-Core GPU 192GB | 76.28 | 36.25 | 12.13 | 4.71 |
M3 Max 40‑Core GPU 64GB | 50.74 | 22.39 | 7.53 | 記憶體不足 |
Dai根據性能比較結果得出結論:「如果要省錢,就購買NVIDIA的遊戲用顯示卡;如果是商業用途,則選擇專業級顯示卡;如果追求省電性能和靜音性能,則購買Mac。」
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!