ADVERTISEMENT
在看完了GeForce RTX 4090的效能測試後,接著我們就繼續來分析全新的Ada Lovelace繪圖架構,深入瞭解其改進之處。
運算架構組成
首先我們以GeForce RTX 4090的AD102 GPU來說明Ada Lovelace繪圖架構的運算單元組成方式。
完整的AD102具有12組圖像處理叢集(Graphics Processing Clusters,GPC)、72組材質處理叢集(Texture Processing Clusters,TPC)、144組串流多重處理器(Streaming Multiprocessors,SM),總共有18432組CUDA核心。至於記憶體部分,則是由12組寬度為32bit的控制器組成總寬度為384bit的記憶體通道,此外還有獨立的光流加速器(Optical Flow Accelerator),以及NVENC編碼器、NVDEC解碼器各3組,並透過PCIe Gen 4x16匯流排連接至主機板。
NVIDIA也在Ada Lovelace白皮書中提到,每組SM中具有2個FP64運算核心(總量為288個),由於FP64資料格式程式的執行效率僅有FP32的1/64,因此這些少量的FP64運算核心目的僅為確保FP64程式能夠正常運作。
與前代架構相比,Ada Lovelace的SM具有2倍的運算效能與電力效率,因此能在不增加電力消耗的前提下,達到相同效能輸出,或是在消耗相同電力的情況下,將效能輸出提升2倍。
而實際搭載於GeForce RTX 4090的AD102則屏蔽1組GPC,因此總共少了6組TPC、12組SM、1536組CUDA核心,詳細規格請參考下表。此外GeForce RTX 4090也僅保留2組NVENC編碼器與1組NVDEC解碼器,但記憶體控制器與光流加速器則無異動。
(若手機版瀏覽器無法顯示表格,請點我看完整表格)
NVIDIA例代顯示卡規格對照表 | |||||
項目 | GeForce RTX 2080 Ti | GeForce RTX 3090 Ti | GeForce RTX 4080 12GB | GeForce RTX 4080 16GB | GeForce RTX 4090 |
GPU代號 | TU102 | GA102 | AD104 | AD103 | AD102 |
GPC數量 | 6 | 7 | 5 | 7 | 11 |
TPC數量 | 34 | 74 | 30 | 38 | 64 |
SM數量 | 68 | 84 | 60 | 76 | 128 |
CUDA核心數量 | 4352 | 10752 | 7680 | 9728 | 16384 |
光流處理器數量(OFA) | 無 | 126 | 305 | 305 | 305 |
核心Boost時脈 | 1635MHz | 1860MHz | 2610MHz | 2505MHz | 2520MHz |
FP32運算效能 | 14.2TFLOPS | 40TFLOPS | 40.1TFLOPS | 48.7TFLOPS | 82.6TFLOPS |
Tensor核心數量 | 544(第2代) | 336(第3代) | 240(第4代) | 304(第4代) | 512(第4代) |
Tensor FP16運算效能(正常/稀疏運算) | 113.8TFLOPS | 160/320TFLOPS | 160.4/320.8TFLOPS | 194.9/389.8TFLOPS | 330.3/660.6TFLOPS |
Tensor FP8運算效能(正常/稀疏運算) | 不支援 | 不支援 | 320.7/641.4TFLOPS | 389.8/779.8TFLOPS | 660.6/1321.2TFLOPS |
RT核心數量 | 68(第1代) | 84(第2代) | 60(第3代) | 76(第3代) | 128(第3代) |
RT運算效能 | 42.9TFLOPS | 78.1TFLOPS | 92.7TFLOPS | 112.7TFLOPS | 191TFLOPS |
材質單元數量 | 272 | 336 | 240 | 304 | 512 |
材質填充率(Gigatexels/s) | 444.7 | 625 | 626.4 | 761.5 | 1290.2 |
ROP數量 | 88 | 112 | 80 | 112 | 176 |
像素填充率(Gigapixels/s) | 143.9 | 208.3 | 208.8 | 280.6 | 443.5 |
顯示記憶體容量、種類 | 11GB GDDR6 | 24GB GDDR6X | 12GB GDDR6X | 16GB GDDR6X | 24GB GDDR6X |
顯示記憶體通道寬度 | 352bit | 384bit | 192bit | 256bit | 384bit |
顯示記憶體傳輸速度 | 14Gbps | 21Gbps | 21Gbps | 22.4Gbps | 21Gbps |
顯示記憶體頻寬 | 616GB/s | 1008GB/s | 504GB/s | 716.8GB/s | 1008GB/s |
L1快取記憶體容量 | 6.375MB | 10.5MB | 7.5MB | 9.5MB | 16MB |
L2快取記憶體容量 | 5.5MB | 6MB | 48MB | 64MB | 72MB |
影像編碼加速器 | 第7代NVENC | 第7代NVENC | 第8代NVENC x2 | 第8代NVENC x2 |
第8代NVENC x2 |
影像解碼加速器 | 第4代NVDEC | 第5代NVDEC | 第5代NVDEC | 第5代NVDEC | 第5代NVDEC |
PCIe介面 | PCIe Gen 3x16 | PCIe Gen 4x16 | PCIe Gen 4x16 | PCIe Gen 4x16 | PCIe Gen 4x16 |
TGP(顯示卡功耗) | 360W | 450W | 285W | 320W | 450W |
電晶體數量 | 186億 | 283億 | 358億 | 459億 | 763億 |
裸晶尺寸 | 754mm2 | 628.4mm2 | 294.5mm2 | 378.6mm2 | 608.5mm2 |
製程 | TSMC 12nm FFN(FinFET NVIDIA) | Samsung 8nm 8N NVIDIA客製化製程 | TSMC 4nm NVIDIA客製化製程 | TSMC 4nm NVIDIA客製化製程 | TSMC 4nm NVIDIA客製化製程 |
(下頁還有光線追蹤效能提升的解說)
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!