NVIDIA Ada Lovelace架構解析（一）：光線追蹤效能大爆發

在看完了GeForce RTX 4090的效能測試後，接著我們就繼續來分析全新的Ada Lovelace繪圖架構，深入瞭解其改進之處。

運算架構組成

首先我們以GeForce RTX 4090的AD102 GPU來說明Ada Lovelace繪圖架構的運算單元組成方式。

完整的AD102具有12組圖像處理叢集（Graphics Processing Clusters，GPC）、72組材質處理叢集（Texture Processing Clusters，TPC）、144組串流多重處理器（Streaming Multiprocessors，SM），總共有18432組CUDA核心。至於記憶體部分，則是由12組寬度為32bit的控制器組成總寬度為384bit的記憶體通道，此外還有獨立的光流加速器（Optical Flow Accelerator），以及NVENC編碼器、NVDEC解碼器各3組，並透過PCIe Gen 4x16匯流排連接至主機板。

NVIDIA也在Ada Lovelace白皮書中提到，每組SM中具有2個FP64運算核心（總量為288個），由於FP64資料格式程式的執行效率僅有FP32的1/64，因此這些少量的FP64運算核心目的僅為確保FP64程式能夠正常運作。

與前代架構相比，Ada Lovelace的SM具有2倍的運算效能與電力效率，因此能在不增加電力消耗的前提下，達到相同效能輸出，或是在消耗相同電力的情況下，將效能輸出提升2倍。

而實際搭載於GeForce RTX 4090的AD102則屏蔽1組GPC，因此總共少了6組TPC、12組SM、1536組CUDA核心，詳細規格請參考下表。此外GeForce RTX 4090也僅保留2組NVENC編碼器與1組NVDEC解碼器，但記憶體控制器與光流加速器則無異動。

（若手機版瀏覽器無法顯示表格，請點我看完整表格）

NVIDIA例代顯示卡規格對照表
項目	GeForce RTX 2080 Ti	GeForce RTX 3090 Ti	GeForce RTX 4080 12GB	GeForce RTX 4080 16GB	GeForce RTX 4090
GPU代號	TU102	GA102	AD104	AD103	AD102
GPC數量	6	7	5	7	11
TPC數量	34	74	30	38	64
SM數量	68	84	60	76	128
CUDA核心數量	4352	10752	7680	9728	16384
光流處理器數量（OFA）	無	126	305	305	305
核心Boost時脈	1635MHz	1860MHz	2610MHz	2505MHz	2520MHz
FP32運算效能	14.2TFLOPS	40TFLOPS	40.1TFLOPS	48.7TFLOPS	82.6TFLOPS
Tensor核心數量	544（第2代）	336（第3代）	240（第4代）	304（第4代）	512（第4代）
Tensor FP16運算效能（正常/稀疏運算）	113.8TFLOPS	160/320TFLOPS	160.4/320.8TFLOPS	194.9/389.8TFLOPS	330.3/660.6TFLOPS
Tensor FP8運算效能（正常/稀疏運算）	不支援	不支援	320.7/641.4TFLOPS	389.8/779.8TFLOPS	660.6/1321.2TFLOPS
RT核心數量	68（第1代）	84（第2代）	60（第3代）	76（第3代）	128（第3代）
RT運算效能	42.9TFLOPS	78.1TFLOPS	92.7TFLOPS	112.7TFLOPS	191TFLOPS
材質單元數量	272	336	240	304	512
材質填充率（Gigatexels/s）	444.7	625	626.4	761.5	1290.2
ROP數量	88	112	80	112	176
像素填充率（Gigapixels/s）	143.9	208.3	208.8	280.6	443.5
顯示記憶體容量、種類	11GB GDDR6	24GB GDDR6X	12GB GDDR6X	16GB GDDR6X	24GB GDDR6X
顯示記憶體通道寬度	352bit	384bit	192bit	256bit	384bit
顯示記憶體傳輸速度	14Gbps	21Gbps	21Gbps	22.4Gbps	21Gbps
顯示記憶體頻寬	616GB/s	1008GB/s	504GB/s	716.8GB/s	1008GB/s
L1快取記憶體容量	6.375MB	10.5MB	7.5MB	9.5MB	16MB
L2快取記憶體容量	5.5MB	6MB	48MB	64MB	72MB
影像編碼加速器	第7代NVENC	第7代NVENC	第8代NVENC x2	第8代NVENC x2	第8代NVENC x2
影像解碼加速器	第4代NVDEC	第5代NVDEC	第5代NVDEC	第5代NVDEC	第5代NVDEC
PCIe介面	PCIe Gen 3x16	PCIe Gen 4x16	PCIe Gen 4x16	PCIe Gen 4x16	PCIe Gen 4x16
TGP（顯示卡功耗）	360W	450W	285W	320W	450W
電晶體數量	186億	283億	358億	459億	763億
裸晶尺寸	754mm²	628.4mm²	294.5mm²	378.6mm²	608.5mm²
製程	TSMC 12nm FFN（FinFET NVIDIA）	Samsung 8nm 8N NVIDIA客製化製程	TSMC 4nm NVIDIA客製化製程	TSMC 4nm NVIDIA客製化製程	TSMC 4nm NVIDIA客製化製程