最近GPU Utils網站發佈了一份關於NVIDIA H100的研究報告,梳理有關GPU供應和需求的相關問題。報告指出,在美國市場的背景下,我們看到目前阻礙大模型和人工智慧發展的關鍵瓶頸GPU短缺是如何形成和發展的。
總而言之,GPU會出現瓶頸的原因可能有許多面向,包含環環相扣的複雜技術製造流程、半導體產品生命週期、對稀缺資源的搶佔與恐慌、人工智慧的研發突然爆發,這些都讓GPU的發展變得無比緊張。但如果樂觀地看待GPU的發展,這瓶頸將在2024年有所緩解。
數十萬張缺口,價值200億美元的產業需求
每個想要在AI爆發中分一杯羹的人,都需要GPU。精準地說,NVIDIA的A100和H100,GPU在訓練和推理大數據模型中扮演關鍵角色。如果要想要從頭訓練大數據模型,至少需要上千張A100或H100,而推理和微調大數據模型至少需要儲存100張。
每間公司需要多少數量,報告顯示,GPT4在1萬到2.5萬塊A100上訓練,Meta有2.1萬塊A100,特斯拉有7000塊,Stability AI有5000塊,Google雲大概有2.5萬塊H100,微軟Azure 有1萬到4萬塊,Oracle可能也有同樣多的H100。值得一提的是,Azure的GPU基本都用來供應OpenAI的訓練了。
根據馬斯克的說法,GPT5的訓練可能會用到3萬到5萬張H100,因此對未來的估計上,報告指出OpenAI可能需要5萬張H100,Meta至少需要2.5萬張(也有人說實際上需要10萬乃至更多),所有的雲端服務廠商,微軟、Google cloud、Amazon Cloud、Oracle各需要3萬張,私有雲服務商,比如剛剛融資的CoreWeave等,總需求是10萬張,而像Claude的開發者Anthropic這樣的初創公司也都至少需要1萬張GPU。
另外,一些金融公司比如JP Morgan也在部署A100或H100,因此總體上看,對H100的需求超過了43萬張。
這還不包含中國市場的情況,由於經濟制裁的原因,字節跳動、百度、騰訊和阿里巴巴只能大量購買A100和H100的替代產品A800與H800,這一部分的需求沒有列入其中,根據《金融時報》的說法,其總額高達50億美金。
如果將這些需求數量相加,目前NVIDIA面對的是總計規模高達200億美元的GPU需求。
NVIDIA執行長黃仁勳沒有騙你,真的買的越多,省得越多。
作為A100的更新版,H100擁有著更好的性能,儘管它的價格更昂貴,單張約為3.5萬美元。根據產量需求和成本,大部分企業都把A100和H100混用以節省成本。具體來說,在大數據模型訓練環節往往會使用3.2Tb/s 無限頻寬(IB)的H100 GPU,在模型推理環節,則往往也可以使用A100。
相比A100,H100的升級主要體現在具有更低的快取延遲和FP8計算能力,這兩者都顯著提升了顯示卡處理模型的效率。另外H100還具有更好的拓展性,方便實現大規模部署。整體來說,H100的16位元訓練速度,快了2.3倍,推理速度快了3.5倍。根據報告指出,它的成本是A100的1.5倍到2倍。
關於H100晶片的組合形式有多種,包括NVIDIA自己設計的DGX H100 ,但市場上大部分公司都選擇購買8個GPU版本的HGX H100 伺服器,它是由NVIDIA的合作夥伴們生產的,價格大致在36萬到38萬美元之間。
HGX也有兩種版本,配備SXM介面或者PCIe介面,報告指出市場上70%到80%的需求都是SXM H100,因為這種介面可以實現最大的吞吐量並且不需要連接電源。市場對H100的趨之若鶩,與競爭對手形成了鮮明的對比。
市場上沒有對手
根據NVIDIA的更新節奏,H100的升級版直到2024年底或2025年才會贏來,在此之前它將繼續統領大數據模型市場。然而它的競爭對手並沒有坐以待斃,比如AMD剛剛推出了名為MI300系列的晶片,Intel有名為Gaudi2的加速計算晶片,它們至少在理論上都是NVIDIA的競爭對手。
然而在實際上,他們面對著比NVIDIA更大的問題。報告中主要指出AMD的問題。首先重新組態AMD的裝置,就算它可以完美適用大數據模型訓練任務,也需要開發和偵錯的時間,這意味著在時間上將會落後於競爭對手。
其次,一個模型的訓練成本接近3億美元,對晶片的需求往往會超過1萬張,沒有人會冒風險大規模使用,除了NVIDIA以外的晶片。最後,複雜的生產技術一方面限制NVIDIA GPU,同樣也限制著AMD的產量,MI250同樣難以獲得。
至於另一個競爭對手Gaudi2,由於Intel自己擁有工廠,因此在產量上比較具備優勢,但Gaudi2是一款幾乎全新的晶片,針對它的研究和測試還非常少。事實上,Intel還在對其進行各種配套開發與品質提升,預計到今年下半年才能除錯完畢,這時H100已經上市一年多了。因此總結下來,H100就是是訓練大模型最佳的GPU,沒有之一。
GPU瓶頸到底在哪里?
目前,H100的供應已經相當短缺,有傳言說微軟Azure和Google cloud的容量實際上已經快用完了,Amazon Cloud也面對同樣的情況,傳言目前下單需要等數月乃至半年。
導致稀缺的原因是多方面的,最主要的問題是GPU,涉及一系列極端複雜的技術,需要世界上最先進的生產技術,掌握這項技術的工廠—台積電,它的產能是有限的。
目前H100都由台積電代工,使用4N技術,也就是增強型5奈米製程(相比之下A100使用的是N7),這幾乎是目前最複雜的晶片製作技術,從開始生產到出售給客戶,H100中間經歷的生產、包裝和測試環節一共需要6個月左右。這代表著對H100的生產需要NVIDIA和台積電進行提前佈局,這在半導體行業來說是經常的事,但這一次NVIDIA和台積電顯然都對H100需求出現了錯誤的判斷。
因為ChatGPT爆發是去年底的事,那時關於今年的生產計畫(至少是上半年的計畫)已經規劃好了,台積電總體的生產能力有限,還需要在不同的大客戶之間分配,而產能爬坡需要一個很長的過程,再加上生產H100的技術含金量極高。
在一篇報告中特別指出,所謂CoWoS封裝(Chip on wafer on Substrate 晶片、晶圓、基板封裝),它目前的月產量是8000片,今年底有望提升至 11,000 片, 2024 年底則達到每月 14,500 至 16,600 片左右的水平。換句話說,想要提升一倍的產量,就需要花上一年半,這當然和技術複雜有十分密切的關係。
這直接影響了H100的生產,更何況,並不是只有一家在使用CoWoS封裝技術,NVIDIA的競爭對手AMD以及博通、思科和賽靈思等都同樣在使用這種技術製作晶片。因此,台積電的半導體產能,限制了GPU的供應。
另外,H100所使用的HBM3系列記憶體也是一個生產難點。報告指出NVIDIA主要在使用SK海力士的記憶體,後者是這一領域的領軍者,特別是在HBM記憶體的研發上。HBM技術直接把記憶體堆疊放在GPU晶片上,達到更高的頻寬和更低的功耗。
在2023年4月20日,SK海力士宣佈在全球率先研發出12層堆疊的HBM3記憶體,單顆容量達到24GB。記憶體容量越大,意味著GPU可以裝載更大的數據模型,然而HBM3記憶體的生產過程十分複雜,產量提升同樣困難重重。
實際上另外幾家晶片大廠,比如三星和美光,都很難提升HBM記憶體的產量,據說SK海力士正在根據NVIDIA的要求增產,在剛剛過去的SIGGRAPH 2023 上,黃仁勳發佈了GH200超級晶片的更新版, 採用了增強的HBM3E記憶體,這可以看作是NVIDIA在記憶體領域同供應商密切協作的一個例子。
稀缺性螺旋、配貨機制與GPU金融化
NVIDIA在財報電話會上談到,儘管沒有對具體數字做任何承諾,但台積電以及上下游供應鏈的積極協調,H100的產量會逐漸提升。
當我們理解GPU瓶頸的時候,並不能簡單把它等同於產能瓶頸,這是報告中沒有明確指出,稀缺同時還由各種市場和非市場因素造成。
當然,首要的還是NVIDIA本身對產品的分配。GPU本就稀缺,因此在服務客戶的角度上,NVIDIA推行了一套和奢侈品配貨制度頗為類似的機制,那就是由NVIDIA來挑選自己的客戶。
報告中指出,哪些客戶能拿到多少GPU有賴於NVIDIA的規劃,而NVIDIA更傾向於為那些沒有開發競品晶片的企業優先分配GPU,例如Google cloud、Amzone Cloud和Meta都在開發自己的晶片,因此NVIDIA似乎更願意和Oracle合作,DGX cloud基礎架構的第一個合作對象就是Oracle。
其次,NVIDIA希望瞭解最終的客戶是誰,它更傾向於為大企業和強大的初創公司提供算力,比如說NVIDIA投資的AI公司 Inflection 就擁有一個巨大的H100叢集,而小型雲端服務商CoreWeave則擁有比Google cloud更多的H100。
CoreWeave完全使用NVIDIA的GPU,同時也不打算自己做晶片,因此更得NVIDIA青睞,NVIDIA甚至還參與了它的B輪融資。CoreWeave的GPU資源有多少?它使用基於H100的雲端服務訓練,GPT3大數據模型只用了11分鐘,相比之下OpenAI用一萬張A100訓練了14.8天。
基於這種配貨的機制,市場上的GPU流動極不平衡,GPU變得不是只要有錢就能買到的東西,這助長了另一種屯物與壟斷資源的稀缺性。
大數據模型的演算法和資料技術難度相對比較透明,相形之下,電腦運算是一道紮實且無法踰越的護城河,有多少GPU直接決定了AI公司的能力強弱,因此GPU囤積變成了許多公司下意識的行為,囤貨造成GPU的稀缺。
不見產量提升再加上業界的配貨傳聞,造就稀缺的預期,就像對通貨膨脹的預期會真的導致通貨膨脹一樣,對缺貨的預期進一步加劇了缺貨。某種程度上,導致了GPU變成戰略資源,進而成為一種金融衍生品。
CoreWeave 在八月初剛剛進行了一筆價值23億美元的債務融資,抵押物正是手中的H100,如果這筆錢純粹是基於對H100的市場均價(這裡取37萬美元)估出來的話,意味著CoreWeave手中有超過6000台HGX H100,也就是近5萬張顯示卡。
結語
GPU的缺貨嚴重影響了AI的發展,OpenAI 首席執行官Sam Altman說過,使用我們產品的人越少對我們反而越好。當然你可以說Sam Altman得了便宜賣乖,但某種程度上,這也是他的真心話,電腦運算處理能力的瓶頸限制著所有人,這足以說明人類對AI突破的到來多麼缺乏準備。
生成式AI和transformer架構都不是最新的發現,它們的理論在很早就在學界廣為流傳,業界也不乏大舉投入其中的公司,然而直到ChatGPT和Stable Diffusion出現之前,它們不過是人們認知中通往人工智慧的某種方向而已,類似的方向還有很多,而並沒有人真的確定哪條道路是正確的。
由此我們可以看出NVIDIA的佈局是多麼具有前瞻性,把原本用於讓電腦顯示圖形的平行計算應用於神經網路,這讓NVIDIA比其它任何人都更早地積累了一系列相關技術、演算法以及硬體裝置,並由此創造了CUDA生態,現在它們共同支撐起了NVIDIA萬億市值,成為一道短期內很難攻破的企業護城河。
正如GPU的產能短期內恐怕得不到解決一樣,AI產業短期內依然要被NVIDIA的資源所左右,NVIDIA正在決定生成式AI的未來。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!