NVIDIA Ada Lovelace架構解析(一):光線追蹤效能大爆發

NVIDIA Ada Lovelace架構解析(一):光線追蹤效能大爆發

ADVERTISEMENT

在看完了GeForce RTX 4090的效能測試後,接著我們就繼續來分析全新的Ada Lovelace繪圖架構,深入瞭解其改進之處。

運算架構組成

首先我們以GeForce RTX 4090的AD102 GPU來說明Ada Lovelace繪圖架構的運算單元組成方式。

完整的AD102具有12組圖像處理叢集(Graphics Processing Clusters,GPC)、72組材質處理叢集(Texture Processing Clusters,TPC)、144組串流多重處理器(Streaming Multiprocessors,SM),總共有18432組CUDA核心。至於記憶體部分,則是由12組寬度為32bit的控制器組成總寬度為384bit的記憶體通道,此外還有獨立的光流加速器(Optical Flow Accelerator),以及NVENC編碼器、NVDEC解碼器各3組,並透過PCIe Gen 4x16匯流排連接至主機板。

NVIDIA也在Ada Lovelace白皮書中提到,每組SM中具有2個FP64運算核心(總量為288個),由於FP64資料格式程式的執行效率僅有FP32的1/64,因此這些少量的FP64運算核心目的僅為確保FP64程式能夠正常運作。

與前代架構相比,Ada Lovelace的SM具有2倍的運算效能與電力效率,因此能在不增加電力消耗的前提下,達到相同效能輸出,或是在消耗相同電力的情況下,將效能輸出提升2倍。

而實際搭載於GeForce RTX 4090的AD102則屏蔽1組GPC,因此總共少了6組TPC、12組SM、1536組CUDA核心,詳細規格請參考下表。此外GeForce RTX 4090也僅保留2組NVENC編碼器與1組NVDEC解碼器,但記憶體控制器與光流加速器則無異動。

(若手機版瀏覽器無法顯示表格,請點我看完整表格

NVIDIA例代顯示卡規格對照表
項目 GeForce RTX 2080 Ti GeForce RTX 3090 Ti GeForce RTX 4080 12GB GeForce RTX 4080 16GB GeForce RTX 4090
GPU代號 TU102 GA102 AD104 AD103 AD102
GPC數量 6 7 5 7 11
TPC數量 34 74 30 38 64
SM數量 68 84 60 76 128
CUDA核心數量 4352 10752 7680 9728 16384
光流處理器數量(OFA)  無 126 305 305 305
核心Boost時脈 1635MHz 1860MHz 2610MHz 2505MHz 2520MHz
FP32運算效能 14.2TFLOPS 40TFLOPS 40.1TFLOPS 48.7TFLOPS 82.6TFLOPS
Tensor核心數量 544(第2代) 336(第3代) 240(第4代) 304(第4代) 512(第4代)
Tensor FP16運算效能(正常/稀疏運算) 113.8TFLOPS 160/320TFLOPS 160.4/320.8TFLOPS 194.9/389.8TFLOPS 330.3/660.6TFLOPS
Tensor FP8運算效能(正常/稀疏運算) 不支援 不支援 320.7/641.4TFLOPS 389.8/779.8TFLOPS 660.6/1321.2TFLOPS
RT核心數量 68(第1代) 84(第2代) 60(第3代) 76(第3代) 128(第3代)
RT運算效能 42.9TFLOPS 78.1TFLOPS 92.7TFLOPS 112.7TFLOPS 191TFLOPS
材質單元數量 272 336 240 304 512
材質填充率(Gigatexels/s) 444.7 625 626.4 761.5 1290.2
ROP數量 88 112 80 112 176
像素填充率(Gigapixels/s) 143.9 208.3 208.8 280.6 443.5
顯示記憶體容量、種類 11GB GDDR6 24GB GDDR6X 12GB GDDR6X 16GB GDDR6X 24GB GDDR6X
顯示記憶體通道寬度 352bit 384bit 192bit 256bit 384bit
顯示記憶體傳輸速度 14Gbps 21Gbps 21Gbps 22.4Gbps 21Gbps
顯示記憶體頻寬 616GB/s 1008GB/s 504GB/s 716.8GB/s 1008GB/s
L1快取記憶體容量 6.375MB 10.5MB 7.5MB 9.5MB 16MB
L2快取記憶體容量 5.5MB 6MB 48MB 64MB 72MB
影像編碼加速器 第7代NVENC 第7代NVENC 第8代NVENC x2 第8代NVENC x2

第8代NVENC x2

影像解碼加速器 第4代NVDEC 第5代NVDEC 第5代NVDEC 第5代NVDEC 第5代NVDEC
PCIe介面 PCIe Gen 3x16 PCIe Gen 4x16 PCIe Gen 4x16 PCIe Gen 4x16 PCIe Gen 4x16
TGP(顯示卡功耗) 360W 450W 285W 320W 450W
電晶體數量 186億 283億 358億 459億 763億
裸晶尺寸 754mm2 628.4mm2 294.5mm2 378.6mm2 608.5mm2
製程 TSMC 12nm FFN(FinFET NVIDIA) Samsung 8nm 8N NVIDIA客製化製程 TSMC 4nm NVIDIA客製化製程 TSMC 4nm NVIDIA客製化製程 TSMC 4nm NVIDIA客製化製程

完整的AD102具有12組GPC,以及NVENC編碼器、NVDEC解碼器各2組。

GeForce RTX 4090的AD102則屏蔽部分元件,變成只有11組GPC,也僅保留2組NVENC編碼器與1組NVDEC解碼器。

SM的細部組成如圖所示。需要注意的是文中提到的FP64運算核心並未繪製於圖中。

在軟體支援的情況下,GeForce RTX 4090的2組NVENC編碼器可以同時運作,進行即時8K編碼轉檔。

根據官方提供的測試數據,GeForce RTX 4090的編碼速度比GeForce RTX 3090 Ti高出1倍以上。

(下頁還有光線追蹤效能提升的解說)

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則