【GTC 2025】黃仁勳演說深入分析:提出「終極摩爾定律」,追求相同耗電更高效能

【GTC 2025】黃仁勳演說深入分析:提出「終極摩爾定律」,追求相同耗電更高效能

ADVERTISEMENT

NVIDIA執行長黃仁勳於GTC 2025春季場開幕演說中說明AI發展的多個階段與多種提升準確度的法則,並提出「終極摩爾定律」的發展趨勢觀查。

GTC 2025春季場系列文章目錄:
黃仁勳演說深入分析:提出「終極摩爾定律」,追求相同耗電更高效能(本文)
NVIDIA發表Blackwell Ultra GPU、GB300 NVL72伺服器,Photonic矽光子交換器節能又可靠
NVIDIA如何用AI創造AI?自駕車模型訓練與蒸餾技術分析
NVIDIA發表雙系統架構GR00T N1機器人基礎模型,與Disney、Google合作開發Newton物理引擎(工作中)

AI除了要更快,還要更省電

黃仁勳在GTC(GPU技術大會)2025春季場開幕演說中提到多款專為CUDA(Compute Unified Devices Architectured)架構所設計的加速運算函數庫,其中包含下列眾多成果

  • cuNumeric: Python程式數值運算加速函數庫
  • cuLitho:運算式微影加速函數庫(電腦王報導),針對運算式微影(Computational Lithography)技術開發的函數庫
  • Aerial、Sionna:5G與6G電信訊號處理(電腦王報導
  • cuOPT:路線規劃最佳化
  • Parabricks:加速基因序列分析
  • Monai:開源醫學影像領域AI框架(電腦王報導
  • Earth-2:地球的數位孿生(電腦王報導
  • cuQuantum、CUDA-Q:加速量子運算模擬(電腦王報導
  • cuEquivariance、cuTensor:分子結構與線性代數加速函數庫
  • TRT-LLM、Megatron、NCLL、cuDNN、Cutlass、cuBlas:深度學習加速函數庫
  • cuDSS、cuSparse、cuFFT、AMGX:能夠應用於CAE(電腦輔助工程)的:直接稀疏求解器(Direct Sparse Solver)、用於稀疏矩陣的線性代數、快速傅立葉變換、GPU加速求解器等函數庫
  • cuDF、cuML:資料科學與資料處理加速函數庫
  • WARP:物理模擬加速函數庫

讓使用者能可以更便捷地導入各種加速運算。

黃仁勳也在演說中提到AI技術發展的多個階段,從2012年的AlexNet卷積神經網路開始,經歷了能夠應用於語音辨識、醫療影像辨識的感知式AI(Perception AI),以及能夠產生多種文字、影像、影片的生成式AI(Generative AI),到近期相當熱門,能夠自動整合多種AI工具並自主進行決策的代理式AI(Agentic AI),以及可以應用於自駕車、機器人的物理式AI(Physical AI),每個階段都提供了截然不同的功能,但也需要消耗更多運算能力。

黃仁勳接著說明提高AI準確度的3種擴充法則(Scaling Laws),第1種是準備大量資料並從無到有訓練基礎模型的預訓練(Pre-Training),第2種則是在基礎模型之上透過特定專業領域資料進行微調的後訓練(Post-Training)。

最後則是推理式AI(Reasoning AI)採用的測試時訓練(Test-Time Training),這種概念會將問題拆分為多個次要部分並按部就班進行「多方思考」與「反覆思考」,並且參考過渡期的答案反問是否合理。簡單來說,在推論運算過程中,AI系統會分析源頭問題,然後自行生成很多次要問題,然後在一一回答次要問題的過程自我修正,最後輸出準確度更高的答案。這個方式的挑戰在於生成次要問題時,但是需要生成更多字詞(Token),而造成總體運算量大幅提升的副作用。

黃仁勳以安排婚禮座位為例說明,利用Llama 3.3 70B大型語言模型(Large Language Model,以下簡稱LLM)進行一般推論運算,過程只需生成439個字詞就可得到答案,但是安排卻不恰當。如果使用DeepSeek R1 671B LLM(透過MoE啟用其中37B參數)進行推理式AI運算,雖然會讓需要生成的字詞數量提升近20倍達到8559個,並讓整體運算量飆升至150倍,但是得到的結果具有實用價值,能夠合適安排的座位,並安排1位牧師作為和事佬。

有趣的是,雖然一般LLM看似節省運算資源,但是得到的結果不堪使用,等於白白浪費439個字詞的運算資源,而推理式AI高漲運算需求,則可靠針對推理式AI最佳化的Dynamo AI推論軟體以及更強大的運算單元舒緩。

Dynamo說明可參考先前《GTC會前簡報》一文。黃仁勳則在演說中補充,Blackwell架構在Dynamo的協助下,可以帶來25倍於前代Hooper的效能輸出,意為著能夠提高AI資料中心25倍產能。

另一方面,今日電力已經成為資料中心營運的核心條件,更高的電力效率代表對周圍供電網路的壓力較輕,以及較低的整體持有成本(TCO)。黃仁勳也表示這種在相同電力下的效能成長幅度,將成為下一個衡量半導體技術發展的「終極摩爾定律」(Ultimate Moore's law),而以同樣消耗100 MW電力的AI資料中心為例,使用GB200 NVL72建構的運算叢集能帶來40倍於H100 NVL8的字詞收益(Token Revenue),因此黃仁勳又提到「The more you buy, the more you save」。

NVIDIA為CUDA統一運算架構開發了cuNumeric、cuLitho、Aerial、Sionna、cuOPT、Parabricks、Monai、Earth-2、cuQuantum、CUDA-Q、cuEquivariance、cuTensor、TRT-LLM、Megatron、NCLL、cuDNN、Cutlass、cuBlas、cuDSS、cuSparse、cuFFT、AMGX、cuDF、cuML、WARP等大量加速運算含數庫,為各行各業提供強大的運算效能。

NVIDIA透過CUDA為企業IT、雲端服務、雲端GPU、邊緣運算、6G網路、自動化製造、機器人、自駕車等多種領域提供完整AI軟體堆疊,並具有領先技術與豐富的開發者生態系統,滿足各行各業對AI的需求。

黃仁勳在GTC 2025春季場演說中提到AI技術發展包含感知式、生成式、代理式、物理式等多個階段。

在3種提高AI準確度的擴充法則中,包含預訓練、後訓練,以及推理式AI採用的測試時訓練,後者可能會提高100倍運算能力的需求。

若在測試時訓練導入可驗證獎勵強化學習(Reinforcement Learning with Verifiable Reward,RLVR)甚至會讓運算過程產生的字詞數達到100T的數量級。

以安排婚禮座位為例,一般推論運算只生成439個字詞就可得到答案,但是安排卻不恰當,等於白白浪費運算能力。推理式AI運算雖然會讓字詞數量提升近20倍,並讓整體運算量飆升至150倍,但得到的答案具有實用價值。

Dynamo能夠拆分推論工作,並動態調節、重新分配運算叢集中的GPU資源,以提高整體運算效能並降低成本。

Blackwell架構在Dynamo的協助下,可以帶來25倍於前代Hoope架構r的效能輸出。

在同樣消耗100 MW電力前提下,Blackwell架構能帶來40倍於Hooper架構的字詞收益。

明年推出全新CPU、GPU架構

NVIDIA採用類似Intel Tick-Tock的時程規劃產品開發節奏,在第1年推出新的GPU架構,並在第2年改進架構、推出加強版產品,對照本世代產品便是2024年發表的Blackwell GPU架構,以及預計2025年下半推出的Blackwell Ultra架構。

Blackwell Ultra之GPU晶片中封裝了2組裸晶,總共具有15 PFLOS之FP4資料類型運算效能,並搭載容量高達288GB之HBM3e記憶體。而GB300 NVL72伺服器採用機架規模設計,整合36組Arm Neoverse架構Grace CPU與72組Blackwell Ultra GPU,總計有20TB HBM高頻寬記憶體以及40TB DDR記憶體,FP4資料類型AI運算效能高達1.1 EFLOPS。

到了2026年下半,NVIDIA將同時推出全新的Vera CPU架構以及Rubin GPU架構,前者採用88核176緒配置的客製化處理器核心,而後者則在單一GPU晶片中封裝2組裸晶,將運算效能提升至50 PFLOS,並搭載288GB HBM4高頻寬記憶體。此代架構也同時導入頻寬達3600 GB/s的第6代VNLink互連技術,並升級至Spectrum 6與ConnectX 9 InfiniBand網路介面卡。

至於2027年下半則輪到Rubin Ultra架構,它最大的改變在於將會在單一GPU晶片封裝內整合4組裸晶,將運算效能提升至100 PFLOPS,並搭載1TB HMB4e高頻寬記憶體。

值得注意的是,黃仁勳也在演說中承認Blackwell的命名明方式有可改進之處。Blackwell GPU的我們「肉眼可見」的單一晶片封裝(Chip Package)具有2組裸晶(Die),而每組GB200 Superchip具有2組Blackwell晶片封裝、共4組裸晶,因此由36組GB200 Superchip組成的GB200 NVL72伺服器,具有72組Blackwell晶片封裝、共144組裸晶。

而在Vera Rubin世代的伺服器將改以裸晶數量進行命名,因此將晶片配置數量與GB200 NVL72伺服器接近的產品並非命名為「Vera Rubin NVL72」,而是「Vera Rubin NVL144」,並非增加1倍晶片數量。

而在這之後,預計於2028年下半推出的產品將沿用Vera CPU架構,並升級至全新Feynman GPU架構,搭配第8代VNLink互連技術以及Spectrum 7、ConnectX 10 InfiniBand網路介面卡。

NVIDAI的AI運算路線圖,2026與2027年為Rubin GPU世代,2028年開始進入Feynman世代。

提到Vera Rubin NVL144命名規則,需先回顧GB200 Superchip。看到實體圖片上方為2組Blackwell GPU,中央則為Grace CPU與LPDDR5x記憶體。

仔細看Blackwell GPU晶片封裝中的細線,可以看到中央上下併排的2組Blackwell GPU裸晶。

GB200 NVL72伺服器具有18組GB200 Superchip運算節點,總共包含36組Grace CPU,以及72組Blackwell GPU晶片封裝(共144組Blackwell GPU裸晶)。而Vera Rubin NVL144則直接取144組裸晶之文意進行命名。

2025年下半將推出強化版的Blackwell Ultra GPU與對應的Blackwell Ultra NVL72伺服器。

2026年下半則為全新架構之Vera CPU與Rubin GPU,對應的Vera Rubin NVL144伺服器。

2027年下半將推出強化版、在單一GPU晶片封裝內整合4組裸晶的Rubin Ultra,並推出Rubin Ultra NVL576伺服器。

若以圖像表示運算單元的尺寸,Grace Blackwell NVL72為圖片中央的銀色晶片。

相較之下Vera Rubin NVL576的尺寸巨大許多。

比較各世代之運算效能,Blackwell與Rubin分別為Hopper的68、900倍。整體持有成本與效能相除的成本指數則為13%、3%,升級至新世代具有極佳經濟效益。

(下頁還有矽光子、工作站、自駕車、機器人介紹)

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
林老師
1.  林老師 (發表於 2025年3月24日 16:03)

文章提到 NVIDIA GTC 主題演講聚焦 AI 技術發展,但未深入探討其對遊戲與消費級市場的影響。目前,AI 繪圖與物理模擬技術已逐步應用在遊戲產業,提升真實感與效能,這就像選擇線上妞妞平台時,不只要看娛樂性,還要關注公平性與運算機制,才能確保最佳體驗。建議作者補充 AI 在遊戲產業的具體應用,讓讀者更全面了解其潛在變革。

林老師
2.  林老師 (發表於 2025年3月24日 16:06)

文章提到 NVIDIA GTC 釋出多項 AI 相關技術,但未深入探討這些技術如何影響雲端遊戲與圖形處理。例如,AI 強化的影像升頻與即時光線追蹤,將改變遊戲體驗,這就像IGT老虎機運用演算法優化中獎機率與畫面效果,提升玩家體驗。建議作者補充 AI 在遊戲圖像處理與運算優化的實際應用,讓讀者更全面了解其對產業的影響。

發表回應
謹慎發言,尊重彼此。按此展開留言規則