ADVERTISEMENT
在AI熱潮的推動下,NVIDIA的收入飛速增長,一度成為全球市值最高的公司。
這種增長主要由其資料中心GPU的需求推動,這些GPU用於訓練和運行不斷增長、更好、更智能、更大的AI模型。儘管投資者希望CEO黃仁勳的圖形處理器帝國能夠持續增長,但沒有什麼是永恆的。
正如The Next Platform的提摩西·普里克特·摩根(Timothy Prickett Morgan)在上週的The Register's Kettle podcast中預測的那樣,NVIDIA的收入終有一天會達到平穩期。
ADVERTISEMENT
如果NVIDIA的未來僅僅圍繞銷售GPU而不涉及其他內容,那可能是一個大問題。但正如黃仁勳經常提醒人們的那樣,NVIDIA不僅僅是一家硬體公司,也是一家軟體公司。
開拓新市場
NVIDIA很早就認識到軟體在推動GPU採用方面的價值。在上週SIGGRAPH的一次爐邊談話中,黃仁勳強調了這一點。
他解釋說:「每次我們推出一個特定領域的函式庫,都會將加速運算推向一個新市場。這不僅僅是關於構建加速器,你還必須構建整個技術堆疊。」
ADVERTISEMENT
NVIDIA的Compute Unified Device Architecture(CUDA)於2007年首次發布,為GPU上的非圖形工作負載並行化提供了一個API介面。雖然這仍然需要開發人員和研究人員重構程式碼,但與通用處理器相比,其改進是顯而易見的。
這對於高性能計算(HPC)社群來說尤其如此 - 這是NVIDIA在遊戲和專業圖形領域之外追求的第一批市場之一。2012年底,NVIDIA的軟體投資幫助Oak Ridge國家實驗室的Titan超級電腦在Top500中排名第一。
在發表17年後,CUDA只是不斷增長的針對特定市場的運算框架列表中的一個, 這些框架針對特定市場量身定制,範圍從深度學習到運算光刻和量子運算模擬。
ADVERTISEMENT
這些框架幫助NVIDIA在其加速器之前幾乎不存在的市場創造了市場。
超越賦能
軟體是NVIDIA的秘密武器,但直到最近,這種武器才以賦能的形式出現。在過去的兩年中,我們看到加速器冠軍的軟體策略開始以有意義的方式採用訂閱定價模式。
2022年初,在OpenAI的ChatGPT引發AI淘金熱的幾個月前,NVIDIA的財務長柯萊特·克雷斯(Collete Kress)詳細介紹了GPU巨頭的訂閱推動的規劃圖,她認為這最終將推動一兆美元的收入。
ADVERTISEMENT
當時,克雷斯預測其中1500億美元的機會將由NVIDIA的AI Enterprise軟體套件推動。即使現在每季度收入達到260億美元,該業務仍遠未達到兆級美元的目標,但我們開始更清楚地了解它如何增長。
從軟體的角度來看,AI賦能的大部分工作已經完成。NVIDIA投入了大量資源開發cuDNN、TensorRT LLM和Triton Inference Service等工具,以便在運行AI模型時充分利用其硬體。
然而,這些只是拼圖的碎片,必須仔細組裝和調整才能提取出性能,並且每個模型的調整都會有所不同。這需要對模型、軟體和底層硬體的熟悉程度,而企業不太可能具備這種程度。
打造AI簡易按鈕
在去年北半球春季的GTC活動中,NVIDIA推出了一款旨在降低大規模採用和部署生成式AI門檻的新產品。該技術稱為NVIDIA Inference Microservices(NIM),本質上由容器化的模型和工具組成,這些模型和工具預先配置了運行所需的一切。
NIM容器可以部署在幾乎任何支援NVIDIA GPU的運行時環境中。這聽起來可能不那麼令人興奮,但這正是重點所在。容器編排並不是一個容易解決的問題,這只要問問Kubernetes的開發人員就知道了。既然可以使用客戶已經投資的現有工具和服務,為什麼還要重新發明輪子呢?
NIM的真正價值似乎來自於NVIDIA工程師針對特定模型或使用案例(如檢索增強生成(RAG))調整TensorRT LLM或Triton Inference Server等內容。如果你不熟悉,你可以在這裡找到我們關於 RAG 的實踐指南,但重點是NVIDIA不僅在其硬體方面,而且在其軟體方面也扮演著系統整合商的角色。
NIM不僅僅是巧妙的包裝。透過致力於模型和工具之間如何通信的通用API,NVIDIA可以為客戶提供旨在解決特定使用案例的範本。
NVIDIA的定價階梯
降低AI推理的採用和部署門檻對軟體授權和硬體銷售都有好處。在軟體方面,在生產環境中部署NIM所需的AI Enterprise授權許可將使你每GPU每年支付4500美元,或每GPU每小時支付1美元。
因此,要使用NIM部署Meta的Llama 3.1 405B模型,你不僅需要租用或購買具有8個H100或H200的系統--這是無需採用更大等級即可運行模型所需的最低配置,而且你還需要支付每年36000美元或每小時8美元的費用。
假設一個系統的使用壽命為六年,根據是預付還是按小時支付授權費用,每套系統將產生 18 萬美元到 420,480 美元之間的授權收入。然而,實際上,企業在部署 AI 時往往需要多個系統,以確保有多的預容彈性和和擴充展性以應對需求增長。
由於預付年度授權和按小時計費之間存在顯著的價格差異,選擇預付年度授權看似更划算。然而,我們討論的是微服務,如果正確實施,它們應該能夠根據需求彈性擴展或縮減。
換句話說,雖然預付年度授權費用較低,但如果企業的需求是波動的,按小時計費可能更靈活,因為可以根據實際使用量來調整費用,避免在需求低時支付閒置資源的費用。
假設Llama 3.1 405B模型對你的需求來說有點大材小用,運行一個更小的模型(例如成本低很多的L40S甚至L4S)可能就足夠了。然而,NVIDIA的定價結構設計卻是引導客戶選擇更強大、性能更高的加速器。
無論你運行的是8個L40S還是8個H200,AI Enterprise授權許可的成本都是相同的。這就造成了一種情況,即購買或租用更少的高階GPU並以更高的批次大小或隊列運行模型可能更經濟,因為在部署的整個生命週期中,你的授權費會更低。
隨著單個 A100 和 H100 GPU 的雲端運算實例變得越來越普遍(例如,Oracle Cloud Infrastructure 上週宣布了其可用性),企業在評估此類部署的總成本時,可能會考慮這一點。
競爭的藍圖
假設NIM得到廣泛採用,它們可以迅速成為NVIDIA的主要增長動力。
稍微計算一下,如果NIM幫助NVIDIA在2024年預計出貨的200萬個Hopper GPU 中的每一個都附加了一個 AI Enterprise,它將獲得90億至175億美元的年度訂閱收入。實際上,這不太可能會發生,但即使它能夠實現其中的一小部分,那每年仍然是數十億美元的收入。
這並不是說NIM沒有挑戰。與AI訓練相比,推理並不是特別挑剔。有幾個模型運行器支援跨NVIDIA、AMD甚至通用CPU的推理。相比之下,NIM僅能在NVIDIA硬體上運行,這可能會限制希望利用Kubernetes等容器編排系統大規模部署和服務其模型的客戶。
在NVIDIA仍然控制AI基礎設施市場的絕大部分市場的情況下,這可能不會是一個大問題,但對於擔心供應商鎖定的客戶來說,無疑將是一個巨大的危險訊號。
NVIDIA 的 NIMs 服務可能會引起股東和美國司法部(DoJ)的關注。司法部據說已經在準備針對這家 GPU 巨頭的反壟斷訴訟。
如果只是為了讓模型更容易在各種雲端和本地基礎設施上部署,任何人都可以創建自己的類似 NIM 的服務,並根據他們偏好的硬體或軟體進行調整。事實上,令人驚訝的是,更多的開發者還沒有這樣做。我們可以很容易地想像 AMD 和 Intel 將類似的服務推向市場,甚至可能透過免費提供來削弱 NVIDIA 的競爭力。
NVIDIA 的 NIMs 服務的成功最終可能取決於它們的調校效率或性能有多高,以及它們整合起來的容易程度。
ADVERTISEMENT