2023.07.01 09:00

Nvidia H100 11分鐘內訓練一遍GPT-3,8秒訓練完BERT稱霸8項測試

ADVERTISEMENT

11分鐘內訓練一遍GPT-3,8秒訓完BERT。這就是Nvidia給AI圈的一點「小小震撼」。 

在最新MLPerf訓練基準測試中,Nvidia H100叢集,橫掃八項測試,全部創下新紀錄,並且在大語言模型任務中表現尤為突出! 

ADVERTISEMENT

在大語言模型任務中,H100叢集的加速性能逼近線性增長。 即隨著叢集處理器數量增加,加速效果也幾乎同比增加。 

這意味著在叢集內GPU之間的通訊效率非常高。

ADVERTISEMENT

除此之外,H100還完成了推薦演算法、CV、醫學圖像辨識以及語音辨識等任務,是唯一一個參加8項測試的叢集。 而在算力就是生產力的時代下,這些成績意味著什麼,內行的都看得懂。 

據悉,本次測試系統由Nvidia 和Inflection AI聯合開發,在雲端廠商CoreWeave上託管。 

單節點性能增長明顯

這次MLPerf Training v3.0中增加了兩項新任務: 

ADVERTISEMENT

  • 大語言模型(基於GPT-3)
  • 推薦演算法

這意味著測試任務包含了更大的資料集和更先進的模型。 

 

ADVERTISEMENT

如上刷新各項記錄的,是由3584張H100組成的超大叢集。 

它的具體成績如下: 

 

這是本輪測試中,Nvidia 拿出的最大叢集。 實際上他們還提交了一個包含768塊H100的叢集進行測試,並分別在雲端和本地部署。 結果顯示二者性能幾乎完全相同。 更進一步還論證了隨著叢集中顯示卡數量的增加,其性能提升可以接近線性增長。 

除此之外,這輪測試中Nvidia 還刷新了單節點加速記錄。 和6個月前MLPef Training v2.1的資料比較,單個DGX H100系統(8塊H100組成)在各項任務中平均提速17%。 和A100 Tensor Core GPU相比,最高能提速3.1倍(BERT任務)。

 

這些加速效果的實現,主要得益於兩個方面。 

一方面是H100本身就足夠強悍。 H100基於最新Hopper架構,採用台積電4nm工藝,整合800億個電晶體,較A100增加了260億個。 核心數量達到前所未有的16896個,是A100的2.5倍。 由於面向AI運算,H100中專門搭載了Transformer Engine,讓大模型訓練速度可直接×6。 

另一方面則是依賴叢集內的加速網路。 這裡使用的是Nvidia Quantum-2 InfiniBand網路,是該網路架構的第七代。 官網介紹,加速網路能夠提供軟體定義網路、網路內運算、性能隔離、優越加速引擎、RDMA和最快達400Gb/s的安全加速。 據悉,共有90個系統參與最新一輪測試,其中82個使用了Nvidia 的GPU,Intel方面有7個系統參與。 

Intel的加速系統使用了64-96 Intel Xeon Platinum 8380處理器和256-389 Intel Habana Gaudi2加速器。 其高配系統完成LLM的訓練時間為311分鐘。 

基於這次報告的測試結果,有分析師表示他感受到的最大震撼不是H100本身的性能,而是在雲上訓練AI實現的卓越效果。 那麼這次和Nvidia 合作的雲端廠商CoreWeave是誰?聯合開發系統Inflection AI又來者何人? 

運算叢集還會進一步擴大

首先來看CoreWeave。

它成立於2017年,是一家大型雲端廠商,號稱提供業內最快、最靈活的大規模GPU運算資源,提供渲染、機器學習等雲端方案,速度比大型公共雲快35倍,成本低80%。 而這家雲端廠商很受科技巨頭青睞,Nvidia 在此之前沒少cue過它。 

5月,CoreWeave拿下2億美元融資,主要來自對沖基金Magnetar Capital,B輪總融資額達到4.21億美元。 6月,有消息稱微軟與CoreWeave簽署AI算力協議,用於運算基礎設施,未來數年內的投資金額可能數十億美元。 Nvidia 也向CoreWeave投資了1億美元,4月時它的估值為20億美元。 

另一家AI初創公司Inflection AI由DeepMind創始成員穆斯塔法·蘇萊曼(Mustafa Suleyman)等人創立。

 

這家公司成立於22年3月,已拿下2.25億美元融資,估值超12億美元。 公司已經開發出了一個大語言模型Pi,正是在H100叢集上訓練出來的。據瞭解,Pi的定位是説明人類更好和電腦互動,它能透過聊天內容來逐漸瞭解使用者,然後提供更加個性化的回答,類似於個人智慧管家的感覺。 

Inflection AI的最新Blog裡表示,基於目前的合作,他們計畫在未來幾個月內進一步擴大底層運算基礎設施的規模。 

參考連結:

 

ADVERTISEMENT