NVIDIA黃仁勳為什麼說CPU 已落伍?實例證明 GPU 訓練大型語言模型成本可降低 96%

NVIDIA黃仁勳為什麼說CPU 已落伍?實例證明 GPU 訓練大型語言模型成本可降低 96%

在美國資料平台Snowflake的開發者大會上,NVIDIA創始人黃仁勳表示,我們現在正經歷60年來第一次根本性的運算平台變革。如果你明年再買一大堆CPU,你的運算吞吐量並不會增加,必須依靠GPU來提升。

不過,這個說法是怎麼來的呢?

黃仁勳這個說法首次出現在 2023 年Computex上的開幕演講,其 GPU 可以大幅降低訓練大型語言模型(LLM)的成本和耗能。讓我們回顧一下黃仁勳是怎麼說明的。

NVIDIA黃仁勳為什麼說CPU 已落伍?實例證明 GPU 訓練大型語言模型成本可降低 96%

傳統的摩爾定律已經過時

黃仁勳在演講中表示,他認為生成式人工智慧和加速計算是未來計算的方向,而非CPU。他認為傳統的摩爾定律已經過時,未來的性能提升將主要來自生成式人工智慧和基於加速計算的方法。

他在演講中展示了一份 LLM 的總體擁有成本(Total Cost of Ownership,TCO)分析:首先,他們計算了訓練一個 LLM 所需的 960 個 CPU 組成的伺服器叢集的完整成本(包括網路、機箱、互連等所有裝置),發現這需要花費約 1,000 萬美元(約 3 億 7 千萬台幣),並消耗 11 千兆瓦時的電力。

NVIDIA黃仁勳為什麼說CPU 已落伍?實例證明 GPU 訓練大型語言模型成本可降低 96%

NVIDIA黃仁勳為什麼說CPU 已落伍?實例證明 GPU 訓練大型語言模型成本可降低 96%

相比之下,如果保持成本不變,購買一個價值 1,000 萬美元的 GPU 叢集,可以在同樣的成本和更少的電力消耗(3.2 千兆瓦時)下訓練 44 個 LLM。如果轉而保持電力消耗不變,那麼可以通過 GPU 叢集實現 150 倍的加速,以 11 千兆瓦時的電力消耗訓練 150 個 LLM,但這需要花費 3,400 萬美元。

NVIDIA黃仁勳為什麼說CPU 已落伍?實例證明 GPU 訓練大型語言模型成本可降低 96%

此外,這個叢集的佔地面積比 CPU 叢集小得多。最後,如果只想訓練一個 LLM,那麼只需要一個價值 40 萬美元、消耗 0.13 千兆瓦時電力的 GPU 伺服器就可以了。

簡單總結一下黃仁勳所要表達的意思是,相比 CPU 伺服器,客戶可以用 4% 的成本和 1.2% 的電力消耗來訓練一個 LLM,這是一個巨大的成本節省。

 

 

 

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
Yang Wenli
1.  Yang Wenli (發表於 2023年6月07日 18:20)
有能就把台灣賣的比國外便宜,老黃中文比英文差已經是美帝人不是台灣人早已背棄台灣.〒ˍ〒
發表回應
謹慎發言,尊重彼此。按此展開留言規則