ADVERTISEMENT
2024 年,Nvidia 在 AI 領域仍然佔據主導地位,根據 Omdia 的估計,其 Hopper GPU 的出貨量增加了三倍以上,達到 200 萬以上,其中包括其 12 家最大的客戶。
然而,儘管 Nvidia 仍是 AI 基礎設施的巨擘,但它正面臨來自競爭對手 AMD 前所未有的挑戰。在其 Instinct MI300 系列 GPU 的早期採用者中,AMD 正迅速獲得市場占有率。
Omdia 預估,2024 年 Microsoft 購買了約 581,000 顆 GPU,是全球最大雲端或超大規模數據中心的客戶。其中,每六顆 GPU 中就有一顆是由 AMD 製造的。
在 Meta(根據 Omdia 的研究,是迄今對這款新推出的加速器採用最積極的公司)中,AMD 占 GPU 出貨量的 43%,達 173,000 顆,而 Nvidia 則為 224,000 顆。同時,在甲骨文,AMD 佔據了數據庫巨頭 163,000 個 GPU 出貨量的 23%。
儘管在 Microsoft 和 Meta 等關鍵客戶中占有率增加,但 AMD 在更廣泛的 GPU 市場中,相較於 Nvidia,仍然顯得微不足道。
Omdia 的估算追蹤了來自四家供應商的 MI300X 出貨量——Microsoft、Meta、Oracle 和 GPU bit barn TensorWave——總計 327,000 顆。
MD 的發展同樣引人注目,因為其 MI300 系列加速器才上市一年。在此之前,AMD 的 GPU 主要用於更傳統的高性能計算應用,例如橡樹嶺國家實驗室 (ORNL) 的 1.35 exaFLOPS Frontier 超級電腦。
Omdia 雲端和資料中心研究總監 Vladimir Galabov 說:「他們設法通過去年的 HPC 場景證明了 GPU 的有效性,而且我認為這有所幫助。我確實認為市場對 Nvidia 替代品有渴望。」
為什麼是 AMD?
究竟這種渴望有多少是由 Nvidia 硬體供應有限所驅動,目前難以確定,但至少在帳面數據上,AMD 的 MI300X 加速器提供了多項優勢。這款一年前推出的 MI300X 宣稱,在 AI 工作負載上擁有 1.3 倍的浮點運算效能,此外記憶體頻寬提高 60%,容量則達到 H100 的 2.4 倍。
後兩項特點使這款產品對推理工作負載特別具有吸引力,推理工作負載的性能更多地取決於記憶體容量和速度,而不是 GPU 可以處理多少 FLOPS。
一般而言,如今大多數 AI 模型都以 16 位精度進行訓練,這意味著運行它們時,每十億個參數需要約 2 GB 的 vRAM。有了每顆 GPU 配備 192 GB 的 HBM3 記憶體,單台伺服器即可擁有 1.5 TB 的 vRAM。這表示,像 Meta 的 Llama 3.1 405B frontier 模型這樣的大型模型可以在單節點上運行。反觀配備類似規格的 H100 節點,卻缺乏運行該模型所需的完整分辨率記憶體。而 141 GB 的 H200 則不會受到這樣的限制,但容量並非 MI300X 唯一的絕招。
MI300X 擁有 5.3 TBps 的記憶體頻寬,相比之下,H100 為 3.3 TBps,而 141 GB 的 H200 為 4.8 TBps。綜合來看,這意味著理論上 MI300X 應該能夠比 Nvidia 的 Hopper GPU 更快地處理大型模型。
即使 Nvidia 的 Blackwell 剛剛開始出貨給客戶,並在性能和記憶體頻寬方面遙遙領先,但 AMD 新的 MI325X 仍然在容量方面佔有優勢,每個 GPU 為 256 GB。預計明年晚些時候發布的更強大的 MI355X 將將其推至 288 GB。
因此,不難理解為什麼 Microsoft 和 Meta 這些部署了數百億甚至數兆參數大型尖端模型的公司,會選擇 AMD 的加速器。
Galabov 指出,這一趨勢也反映在 AMD 的指引中,其指引已在每季度逐步上調。截至第三季度,AMD 現在預計 Instinct 系列將在 2024 財年帶來 50 億美元的收入。
展望來年,Galabov 認為 AMD 有機會獲得更多市場占有率。「AMD 表現出色,與客戶的溝通良好,且善於坦誠談論自己的優勢和劣勢,」他說。
一個潛在的驅動因素是 GPU bit barn 的出現,如 CoreWeave,每年部署數萬顆加速器。「其中一些會故意圍繞 Nvidia 替代品構建商業模式,」Galabov 提到 TensorWave 就是這樣一個例子。
客製化矽晶片步入正軌
不止是AMD正在侵蝕 Nvidia 帝國。同時,雲端與超大規模數據中心正在購買大量 GPU,許多也在部署自己的客製化 AI 矽晶片。
Omdia 預估,Meta 的客製化 MTIA 加速器出貨量在 2024 年突破 150 萬顆,而 Amazon 則訂購了 900,000 顆 Inferentia 晶片。
這些部分是否對 Nvidia 構成挑戰,很大程度上取決於工作負載。這是因為這些晶片設計用於運行更傳統的機器學習任務,例如將廣告匹配給使用者和產品推薦給買家的推薦系統。
雖然 Inferentia 和 MTIA 並非專為 LLM 專門設計,但 Google 的 TPU 一定是,而且已被用於訓練包括專有 Gemini 和開放 Gemma 模型在內的多款語言模型。
根據 Omdia 的推測,2024 年 Google 訂購了約一百萬顆 TPU v5e 和 480,000 顆 TPU v5p 加速器。
除了 Inferentia,AWS 還有 Trainium 晶片,儘管名稱如此,但它已被重新調整為同時支持訓練與推理工作負載。2024 年,Omdia 預估 Amazon 訂購了約 366,000 顆這類晶片。這與其 Rainier 項目的計劃一致,該項目將於 2025 年向模型構建者 Anthropic 提供「數十萬顆」 Trainium2 加速器。
最後是 Microsoft 的 MAIA 晶片,這些晶片在 AMD 推出 MI300X 前不久首次亮相。與 Trainium 類似,這些晶片調整為同時支持推理與訓練,這對作為 OpenAI 的主要硬體合作夥伴以及自身模型構建者的 Microsoft 來說尤為重要。Omdia 認為 Microsoft 在 2024 年訂購了約 198,000 顆這類晶片。
AI 市場超越硬體
Nvidia 過去兩年驚人的營收增長,無可避免地將焦點放在了 AI 背後的基礎設施上,但這只是更大拼圖的一小部分。
Omdia 預期,Nvidia 明年將難以增加其在 AI 伺服器市場的占有率,因為 AMD、Intel 和雲端服務提供商正推動替代硬體和服務的發展。
「如果我們從 Intel 身上學到什麼,那就是當你達到超過 90% 的市場占有率時,增長幾乎是不可能的。人們會立即尋找替代方案,」Galabov 表示。
然而,Galabov 推測,Nvidia 與其在競爭日益激烈的市場上爭奪占有率,不如專注於擴大總可用市場,讓技術更易於普及。
Nvidia 推出的推理微服務(NIMs),即設計為構建複雜 AI 系統的拼圖式容器化模型,就是這一轉變的例子之一。
「這是史蒂芬·賈伯斯(Steve Jobs)的策略。讓智慧型手機成功的是 App Store,因為它讓技術易於使用,」Galabov 說道,「AI 也是如此;打造一個應用商店,人們會下載應用並使用它。」
儘管如此,Nvidia 仍然專注於硬體。雲端提供商、超大規模數據中心和 GPU bit barn 已經開始宣布基於 Nvidia 強大新款 Blackwell 加速器的大型集群,該加速器在效能上大幅領先目前 AMD 或 Intel 提供的產品。
同時,Nvidia 已加速其產品規畫藍圖,支持每年推出新晶片以保持其領先地位。看來,雖然Nvidia 將繼續面臨來自競爭對手的激烈競爭,但它短期內不會有失去王冠的風險。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!