GPU暴增的GenAI時代,AMD正在跨越NVIDIA所建立的CUDA軟體護城河

GPU暴增的GenAI時代,AMD正在跨越NVIDIA所建立的CUDA軟體護城河

ADVERTISEMENT

在生成式 AI 時代,GPU 的重要性毋庸置疑。NVIDIA與 AMD 這兩個重量級選手正在硬體、軟體層面展開激烈角逐。 

如今,當人們談論起生成式 AI(GenAI)時,GPU 以及相應的性能和造訪性幾乎是繞不過的話題。而NVIDIA又是 GPU 的代名詞,在國際 GPU 市場上佔據絕對優勢的占有率。同時,近年來 AMD 也逐漸崛起,有了一定市場占有率。 

不過,AMD 與NVIDIA仍存在一定的差距。之前市場調查研究機構 Jon Peddie Research 發表的 2022 年 GPU 市場資料統計報告顯示,NVIDIA PC GPU 出貨量高達 3034 萬張,是 AMD 的近 4.5 倍。 

就NVIDIA而言,其 GPU 與生成式 AI 的緊密聯繫絕非偶然。一直以來,NVIDIA認識到需要利用工具和應用來幫助拓展自己的市場。因此,NVIDIA為人們獲取自身硬體設置了非常低的門檻,包括 CUDA 工具包和 cuDNN 優化庫等。 

在被稱為硬體公司之外,正如NVIDIA應用深度學習研究副總裁 Bryan Catanzaro 所言,「很多人不知道的一點是,NVIDIA的軟體工程師比硬體工程師還要多。」 

可以說,NVIDIA圍繞其硬體構建了強大的軟體護城河。雖然 CUDA 不開源,但免費提供,並處於NVIDIA的嚴格控制之下。NVIDIA從中受益,但也給那些希望透過開發替代硬體搶佔 HPC 和生成式 AI 市場的公司和使用者帶來了挑戰。 

「城堡地基」上的建築 

我們知道,為生成式 AI 開發的基礎模型數量持續增長,其中很多是開源的,可以自由使用和共用,如 Meta 的 Llama 系列大模型。這些模型需要大量資源(如人力和機器)來構建,並且局限於擁有大量 GPU 的超大規模企業,像是 AWS、微軟 Azure、Google Cloud、Meta Platforms 等。此外其他公司也購買大量 GPU 來構建自己的基礎模型。 

從研究的角度來看,這些模型很有趣,可以用於各種任務。但是,對更多生成式 AI 計算資源的預期使用和需求越來越大,比如模型微調和推理,前者將特定領域的資料加入到基礎模型中,使之適合自己的使用案例;後者在微調後,實際使用(即問問題)需要消耗資源。 

這些任務需要加速運算的參與,即 GPU。顯而易見的解決方案是購買更多的NVIDIA GPU。但隨著供不應求,AMD 迎來了很好的機會。Intel和其他一些公司也準備好進入這一市場。隨著微調和推理變得更加普遍,生成式 AI 將繼續擠壓 GPU 的可用性,這時使用任何 GPU(或加速器)都比沒有 GPU 好。 

放棄NVIDIA硬體意味著其他供應商的 GPU 和加速器必須支援 CUDA 才能運行很多模型和工具。AMD透過 HIP(類 CUDA)轉換工具使這一情況成為可能。 

PyTorch 放下軟體護城河「吊橋」 

在 HPC 領域,支援 CUDA 的應用程式統治著 GPU 加速的世界。使用 GPU 和 CUDA 時,移植程式碼通常可以實現 5-6 倍的加速。但在生成式 AI 中,情況卻截然不同。 

最開始,TensorFlow 是使用 GPU 創建 AI 應用的首選工具,它既可以與 CPU 配合使用,也能夠透過 CUDA 實現加速。不過,這一情況正在快速發生改變。 

PyTorch 成為了 TensorFlow 的強有力替代品,作為一個開源機器學習庫,它主要用於開發和訓練基於神經網路的深度學習模型。 

最近 AssemblyAI 的一位開發者 educator Ryan O’Connor 在一篇部落格文章中指出,在流行的 HuggingFace 網站上,92% 的可用模型都是 PyTorch 獨有的。 

此外如下圖所示,機器學習論文的比較也顯示出放棄 TensorFlow、轉投 PyTorch 的顯著趨勢。 

GPU暴增的GenAI時代,AMD正在跨越NVIDIA所建立的CUDA軟體護城河

當然,PyTorch 底層呼叫 CUDA ,但不是必需的,這是因為 PyTorch 將使用者與底層 GPU 架構隔離開來。AMD 還有一個使用 AMD ROCm 的 PyTorch 版本,它是一個用於 AMD GPU 程式設計的開源軟體堆疊。 

現在,對於 AMD GPU 而言,跨越 CUDA 護城河就像使用 PyTorch 一樣簡單。 

推理的本能 

在 HPC 和生成式 AI 中,配有 H100 GPU 共用記憶體的NVIDIA 72 核、且基於 ARM 的 Grace-Hopper 超級晶片(以及 144 核 Grace-Grace 版本)備受期待。 

迄今,NVIDIA發表的所有基準測試表明,該晶片的性能比透過 PCIe 匯流排連接和存取GPU 的傳統伺服器要好得多。Grace-Hopper 是面向 HPC 和生成式 AI 的最佳化硬體,有望在微調和推理方面得到廣泛應用,需求預計會很高。 

而 AMD 從 2006 年(于當年收購了顯示卡公司 ATI)就已經出現了帶有共用記憶體的 CPU-GPU 設計。從 Fusion 品牌開始,很多 AMD x86_64 處理器都作為 APU(加速處理單元)的組合 CPU/GPU 來實現。 

AMD 推出的 Instinct MI300A 處理器(APU)將與NVIDIA的 Grace-Hopper 超級晶片展開競爭。整合的 MI300A 處理器將最多提供 24 個 Zen4 核心,並結合 CDNA 3 GPU 架構和最多 192GB 的 HBM3 記憶體,為所有 CPU 和 GPU 核心提供了統一的造訪記憶體。 

可以說,晶片級快取一致性記憶體減少了 CPU 和 GPU 之間的資料移動,消除了 PCIe 匯流排瓶頸,提升了性能和能效。 

GPU暴增的GenAI時代,AMD正在跨越NVIDIA所建立的CUDA軟體護城河

AMD 正在為模型推理市場準備 MI300A 處理器。如 AMD CEO 蘇姿丰所言,「實際上,得益於架構上的一些選擇,我們認為自己將成為推理解決方案的行業領導者。」 

對於 AMD 和很多其他硬體供應商而言,PyTorch 已經在圍繞基礎模型的 CUDA 護城河上放下了吊橋。AMD 的 Instinct MI300A 處理器將打頭陣。 

生成式 AI 市場的硬體之戰將憑藉性能、可攜性和可用性等多因素來取勝。未來鹿死誰手,尚未可知。 

資料來源:

bigdatadigest
作者

大數據文摘(bigdatadigest)成立於2013年7月,專注數據領域資訊、案例、技術,在多家具有影響力的網站、雜誌設有專欄,致力於打造精準數據分析社群。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則