Google指出CPU仍是人工智慧推理時的主力運算設備，而不是GPU

當今的人工智慧基礎設施主要依靠 GPU 加速伺服器的擴展來推動，其中的主要玩家Google指出，根據其Google Cloud Services雲端運算體系內部分析的記錄，CPU 仍然是人工智慧/ML 工作負載的主要運算裝置。在 TechFieldDay 活動期間，Google雲端產品經理 Brandon Royal 的演講解釋了 CPU 在當今人工智慧遊戲中的地位。

人工智慧的生命週期分為兩個部分：訓練和推理。在訓練過程中，需要大量的運算能力和巨大的記憶體容量，以便將不斷擴大的人工智慧模型裝入記憶體。最新的模型，如 GPT-4 和 Gemini，包含數十億個參數，需要數千個 GPU 或其他加速器平行工作，才能高效地進行訓練。

另一方面，推理所需的運算強度較低，但仍能從加速中獲益。在推理過程中，會對預先訓練好的模型進行最佳化和部署，以便對新資料進行預測。雖然推理所需的運算量比訓練少，但延遲和吞吐量對即時推理至關重要。Google發現，雖然 GPU 是訓練階段的理想選擇，但模型通常在 CPU 上進行最佳化和推理。這意味著，有些客戶出於各種原因選擇 CPU 作為人工智慧推理的媒介。

延伸閱讀：GPU暴增的GenAI時代，AMD正在跨越NVIDIA所建立的CUDA軟體護城河

這可能是成本和可用性的問題。與高階 GPU 或專門的人工智慧加速器相比，CPU 往往更便宜，也更容易獲得。對於許多應用而言，CPU 能以較低的成本提供足夠的推理性能。CPU 還具有靈活性。由於大多數系統已經配備了 CPU，它們為較小的人工智慧模型提供了便捷的部署途徑。GPU 通常需要專門的庫和驅動程式，而基於 CPU 的推理可以利用現有的基礎設施。這使得將人工智慧內建到現有產品和工作流程中變得更加簡單。延遲和吞吐量的權衡也會發揮作用。GPU 擅長大規模平行推理吞吐量。但 CPU 通常可以為即時請求提供更低的延遲。對於需要奈秒級（Nanosecond）回應的線上推薦等應用，CPU 推理可能是首選。

延伸閱讀：預計NVIDIA今年資料中心收入達460億美元，持續在AI領域佔據主導地位

此外，CPU 對推理的最佳化進展迅速。在更快的時脈、更多的核心以及英特爾 AVX-512 和 AMX 等新指令的推動下，性能不斷提高，僅靠 CPU 就能流暢運行人工智慧工作負載，如果伺服器組態了不止一個插槽，意味著有更多的人工智慧引擎存在，伺服器就能高效處理數十億參數大小的人工智慧模型，則性能尤其出色。英特爾指出，一般來說，參數不超過200 億的模型在 CPU 上可以正常運行，而更大的模型則必須使用專門的加速器。

像 GPT-4、Claude 和 Gemini 這樣的人工智慧模型都是龐大的模型，參數規模可達一兆以上。然而，它們是多模式的，也就是說，它們處理文字和視訊。現實世界中的企業工作負載可能是一個人工智慧模型推斷公司的本地文件，以回答客戶支援問題。對於這種解決方案來說，運行 GPT-4 這樣的模型就顯得多餘了。相比之下，像LLAMA 2或 Mistral 這樣小得多的模型可以很好地實現類似目的，而不需要第三方 API 造訪，只需在本地或雲端伺服器上運行幾個 CPU 即可。這就降低了總體擁有成本（TCO），簡化了人工智慧管道。

延伸閱讀：HBM3E記憶體成AI加速晶片標配，NVIDIA為Hopper H200下大單搶購
延伸閱讀：高頻寬記憶體HBM是什麼：為何生成式AI要靠它，記憶體三雄搶著要擴產？還有哪些應用？