2025.03.19 11:15

【GTC 2025】NVIDIA發表Blackwell Ultra GPU、GB300 NVL72伺服器,Photonic矽光子交換器節能又可靠

ADVERTISEMENT

NVIDIA於GTC 2025春季場發表多款AI伺服器與企業應用相關軟、硬體,協助提高推理式AI運算效能並降低執行成本。

提高30倍推理式AI運算效能

NVIDIA加速運算事業體副總裁Ian Buck在GTC(GPU技術大會)2025春季場會前簡報中提到3種提升AI運算品質的法則(AI Scaling Laws),其中1種便是近日受到關注的推理式AI(Reasoning AI)。

延伸閱讀:GTC 24:Blackwell架構詳解!看懂B100、B200、GB200、GB200 NVL72成員的糾結瓜葛

Ian Buck提到的3種法則包含準備透過大量資料訓練基礎模型的預訓練(Pre-Training),以及輸入特定領域資料以針對特別專業應用微調的後訓練(Post-Training),最後則是測試時訓練(Test-Time Training),在AI推論運算過程中,延長運算時間並進行「多方思考」與「長思考」的推理式AI。

ADVERTISEMENT

但是推理式AI會在推論過程中拆分成多段反覆的運算,因此會大幅提高運算量。舉例來說,以一般方式向大型語言模型(Large Language Model,以下簡稱LLM)提問,原本只需100組字詞(Token)的推論運算就可以生成答覆,但是使用推理式AI則會因為過程中的推理與思考環節生成許多「思考過程的半成品」,最後才將這些半成品進行新一輪AI推論運算以生成更精準的答覆,而讓整體運算量膨脹100倍達10000組字詞,同時也推高整體成本,有賴於針對推理式AI最佳化的軟體以及更強大的運算單元來舒緩運算需求。

NVIDIA推出的Dynamo是款開源的AI推論軟體,能在維持最低成本與最高效率的前提下,加速並提升在AI資料中心使用大量GPU進行推理式AI的品質,以輸出最大量的字詞以提高收益。

NVIDIA表示Dynamo能在使用相同數量的Hopper GPU執行Llama LLM模型的前提下,提高2倍AI運算效能與資料中心收益,若是使用大型GB200 NVL72運算叢集執行DeepSeek-R1 LLM模型,甚至可將各GPU的字詞生成速度提升至30倍之譜。

ADVERTISEMENT

能夠動態調節、重新分配運算叢集中的GPU資源,並最小化回應運算(Response Computation)與路由查詢(Route Query),以因應不同種類與量體的運算需求,同時還能將資料分散至成本較低的記憶體或儲存裝置,並在需要時快速讀取資料,以降低整體運算成本。

▲GTC 會前簡報由 NVIDIA 加速運算事業體副總裁 Ian Buck 與多位高層共同主持。(圖片來源:NVIDIA

ADVERTISEMENT

超大台的DGX SuperPOD與超小台的DGX Spark

NVIDIA也在GTC 2025春季展發表Blackwell Ultra GPU,它具有15 PFLOPS的FP4資料類型AI運算效能,並搭載288 GB之HBM3e記憶體,而GB300 NVL72伺服器採用機架規模設計,整合36組Arm Neoverse架構Grace CPU與72組Blackwell Ultra GPU,總計有20TB HBM記憶體以及40TB DDR記憶體,FP4資料類型AI運算效能高達1.1 EFLOPS。

ADVERTISEMENT

企業用戶也可將8組GB300 NVL72組合為Blackwell Ultra DGX SuperPOD,讓運算叢集達到288組Grace CPU與576組Blackwell Ultra GPU,帶來高達11.5 EFLOPS的FP4資料類型AI運算效能。

先前在CES 25亮相、搭載GB10 Grace Blackwell Superchip的Project DIGITS迷你超級電腦正式定名DGX Spark,它具有針對桌上型電腦應用規劃的外型,並搭載支援FP4資料類型的第5代Tensor核心,具有1000 TOPS的峰值AI運算效能,能夠滿足模型微調、推論之運算需求,並支援包含NVIDIA Cosmos Reason物理基礎模型、GR00T N1機器人基礎模型在內的推理式AI,適合研究人員、資料科學家、機器人開發者、學生等族群使用。

GB10透過NVLink-C2C互連技術以5倍於PCIe Gen 5的頻寬連接處理器與GPU並共享記憶體資源,使用者也可以在不修改任何程式碼的前提下,將資料無縫傳輸至DGX Cloud或其他雲端服務、資料中心,簡化試作、微調、推論等工作流程。

此外NVIDIA也推出RTX PRO 6000 Blackwell 伺服器版本 / 工作站版本、RTX PRO 5000 Blackwell行動版為首以及多款型號的運算卡、運算晶片,能夠滿足多種代理型AI、模擬、延展實境、3D設計、自主機器人、智慧車輛之應用需求,為各領導開發者提供充沛的運算能力。

如果需要更高的運算能力,則可考慮以GB300為核心打造的DGX Station工作站,在桌上型電腦的尺寸提供資料中心等級的效能。它具有784 GB的統一架構記憶體,能夠提供20 PFLOPS的FP4資料類型AI運算效能,並搭載網路頻寬達800 gigabits的ConnectX-8 SuperNIC,能夠高速連接多個 DGX Station以處理更大規模的工作負載。

共同封裝光學網路交換器

為了解決AI資料中心日益膨脹的規模,以及頻寬越來越高的通訊需求,NVIDIA也發表採用共同封裝光學技術(Co-Packaged Optics)的Quantum-X與Spectrum-X矽光子網路交換器,透過大規模結合傳統銅線與光學通訊連接數百萬組GPU,以大幅降低功耗與營運成本。

這系列矽光子網路交換器採用TSMC微型環狀調變器(Micro-Ring Modulator,MRM),能夠直接在晶片封裝上產生光學通訊所需的雷射光束,並能夠搭配可拆裝式的光學連接端子,除了能夠減化整體所需的元件數量,還降低整體電力消耗,並減緩傳輸、轉換過程中的訊號衰退,提供更可靠、省電、高品質的資料交換與通訊。

傳統方法相比,矽光子網路交換器能夠降低4倍雷射數量,並提供3.5倍電力使用效率提高、63倍訊號完整性,在維護部分也可提高10倍網路規模復原能力(Resiliency)並將部署速度加快 1.3 倍,有助於降低整體持有成本(TCO)與提高網路可靠度。

GTC 2025春季場於2025年3月17日至21日在美國加州聖荷西舉行,將聚集數千名開發者和業界領導者共同探討AI和加速運算的趨勢與技術,讀者可以在線上觀看NVIDIA GTC主題演講,或報名參加 NVIDIA 與業界領導者在 GTC 大會的各項議程日。

ADVERTISEMENT