CES 2025:NVIDIA編輯日(上):RTX 50系列顯示卡與Blackwell架構特色解說

CES 2025:NVIDIA編輯日(上):RTX 50系列顯示卡與Blackwell架構特色解說

ADVERTISEMENT

NVIDIA於CES25(消費性電子展)期間舉辦的Editor’s Day活動中解說Blackwell與RTX 50系列顯示卡的架構與特色,筆者將於本文進行簡短介紹,並於日後提供更詳細的說明。

AI、省電至上的開發理念

NVIDIA表示RTX 50系列顯示卡的開發目標包含

  1. 針對新的神經運算負載最佳化
  2. 節省記憶體流量
  3. 新的流量管理(Quality of Service)功能
  4. 電力效率

而他們提出的改進方式包括採用支援神經著色器的Blackwell架構串流多重處理器(Streaming Multiprocessor,SM)、第5代張量核心(Tensor Core,主要應用於AI運算)、第4代光線追蹤核心(RT Core),以及導入AI管理協同處理器、Blackwell Max-Q設計、GDDR7顯示記憶體等措施。

延伸閱讀:
CES2025:黃仁勳手持「矽盾」演講,發表Blackwell家族顯示卡、顯示晶片,RTX 5090 71990元月底上市
CES2025:NVIDIA GeForce RTX 5090 效能怪獸!雙穿透散熱設計、電路板解密
CES 2025 - NVIDIA編輯日(上):RTX 50系列顯示卡與Blackwell架構特色解說(本文)
CES 2025 - NVIDIA編輯日(下):RTX 50系列顯示卡獨有DLSS 4多畫格補幀功能與Reflex低延遲技術(工作中)

NVIDIA於25年前推出GeForce顯示卡與可程式化著色器(Programmable Shader),開啟像素著色(Pixel Shading)、運算著色(Compute Shading)、即時光線追蹤(Real-Time Ray Tracing)等繪圖技術的創新。而在Blackwell架構導入支援小型神經網路的RTX神經著色器(Neural Shader),讓遊戲開發者能在超級電腦、工作站上針對遊戲需求訓練AI模型,並在遊戲執行過程中於顯示卡上進行AI推論,目前已支援神經材質貼圖壓縮(Neural Texture Compression)、神經材質(Neural Materials)、神經光源快取(Neural Radiance Cache,NRC)等功能。

Blackwell架構的SM具有2倍於前代產品的著色器指令重新排程器(Shader Execution Reordering)吞吐量,並搭配全新的AI工作管理協同處理器(AI Management Processor,AMP),將工作負載排序、分配到對適合的運算單元,以提高整體運算效能。

Blackwell架構開始使用GDDR7作為繪圖記憶體,它能在更低的電壓條件運作,帶來2倍於GDDR6的資料頻寬以及電力效率。

在光線追蹤部分,第4代光線追蹤核心加入支援三角型叢集交會偵測與解壓縮引擎,以及改善毛髮光線追蹤繪圖的線性掃描球體(Linear-Swept Spheres,LSS)等功能,能夠大幅提升BVH(Bounding Volume Hierarchy,偵測光線是否接觸到3D繪圖中的多邊型)效能,以達到100倍於前代產品進行光線追蹤繪圖能夠容納的多邊型數量。

在電力效率方面,Blackwell架構也導入新的Max-Q設計,透過更快速的時脈切換與更深層的睡眠模式與電力管理,來改善電力的消耗狀況。舉例來說,由於拉高或降低時脈的速度較先前快,系統能夠以更積極的方式提高時脈以完成工作,然後讓非運作中的區塊進入睡眠模式,待接受到新的工作再喚醒,如此一來就能節省更多電力。

另一方面,Blackwell架構也更新了顯示與編解碼引擎,加入支援DisplayPort 2.1 UHBR20影像輸出,更新部分CODEC格式,且支援YCbCr 4:2:2色採取樣模式,對於提高影片轉檔的效率與畫質有相當幫助。

▲NVIDIA在CES主題眼說中透過以GeForce RTX 5090即實執行的Zorah技術展示證明Blackwell架構的能耐。

RTX 50系列顯示卡的開發目標包含神經運算負載最佳化、節省記憶體流量、流量管理功能、電力效率等4大項。

在硬體方面導入各種新架構運算單元,並採用新的Max-Q設計與GDDR7顯示記憶體。

Blackwell架構SM的神經著色器能夠支援小型神經網路運算。

運算負載會透過著色器指令重新排程器進行最佳排序並送到最適合的運算單元,以提高整體效能。

AI工作管理協同處理器則能改善來自不同AI模型與遊戲引擎的資源調度與排序。

GDDR7能以較低的電壓達到更高的傳輸頻率,資料頻寬與電力效率可達GDDR6的2倍。

第4代光線追蹤核心新增了右半部3款綠色方框標示的三角型叢集偵測與解壓縮引擎、線性掃描球體等功能。

Blackwell架構的光線交會偵測效能較2018年推出的Turing架構高出8倍,也是2022年Ada Lovelace架構的2倍,而記憶體流量只有Ada Lovelace架構的75%。

全新的Max-Q設計包含多項省電設計。

更快的時脈調整與更深層的睡眠,有助於更積極「衝刺」完成工作負載並讓運算單元休眠。示意圖中綠色面積為省下的電力。

Blackwell架構支援DisplayPort 2.1 UHBR20影像輸出,CODEC部分新增第2組H.264解碼器,並加入支援AV1 UHQ超高品質、MV-HEVC(Multiview)、YCbCr 4:2:2色採取樣模式。

神經著色與光線追蹤大躍進

NVIDIA也跟著Blackwell架構更新RTX Kit,帶來更多強化繪圖品質與效能的功能,除了為遊戲帶來更逼真的畫面與光影效果,也對效能與流暢度有所幫助。

筆者延續前個章節,透過投影片解說與強化品質有關的功能部分。

RTX Kit加入許多強化繪圖品質與效能的新功能。

Blackwell架構加入的神經著色器有助於帶來更多元的AI功能。

神經著色器的框架能讓遊戲引擎與AI模型搭配協同運作,DirectX也將在不久後加入協作向量功能(Cooperative Vector),簡化開發者使用此功能的門檻。

神經材質的功能可以降低材質檔案的容量,圖中範例能將標準材質佔用的47MB縮減至16MB。而神經材質貼圖壓縮透過AI協助下能在1分鐘以內壓縮超過1,000款材質,並可以即時讀取(未來可直接存取),將壓縮率提高到1:7以上以結省記憶體流量。

神經光源快取的概念為只針對1~2條光線進行實際光線追蹤運算,並將結果儲存於快取記憶體中,接著透過AI推論的方式預測無限數量光線的路徑與反射,在降低運算量的同時準確表現遊戲場景的間接照明效果。

RTX神經臉型(Neural Faces)以簡單的光柵化繪製臉型搭配3D姿態作為輸入資料,並透過生成式AI模型產生更加自然的臉型。

光線追蹤繪圖的一大難題是3D繪圖中日益增加的多邊型數量,讓運算複雜度大幅提升。舉例來說1995年推出的《VR快打Remix》僅使用1000~10000個多邊型,2020年出的《電馭叛客2077》則有1000萬~5000萬個多邊型,NVIDIA推出的Zorah技術展示則有超過5億個多邊型。

RTX Mega Geometry能夠加速如Unreal Engine 5 Nanite技術的叢集式系統的BVH建構,提升光線追蹤的運算效能。

傳統使用光線追蹤繪製毛髮時,需要在每個線段進行6個三角形的光線交會偵測。

改用線性掃描球體技術後,每個線段只需進行2個球體交會偵測。

在看完RTX 50系列顯示卡與Blackwell架構的特色後,筆者將會在下篇文章中繼續解說DLSS 4多畫格補幀功能與Reflex低延遲技術。

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則