細看RDNA 2架構，AMD說明Infinity Cache提升效能的祕訣

AMD在RDNA 2架構顯示卡導入128MB的Infinity Cache快取記憶體，大幅提升顯示記憶體的等效頻寬，也帶來更強悍的整體效能輸出，就讓我們來看看這塊特殊的記憶體有什麼奧妙之處。

將伺服器快取概念導入顯示卡

AMD Radeon繪圖技術事業群工程部全球資深副總裁王啟尚在RDNA 2架構說明會中，說明了Infinity Cache的特色與細節，筆者將資訊整理於這篇文章中與大家分享。

由於資料類型與運算需求的差異，讓顯示卡效能對記憶體頻寬的敏感性比較高，對於記憶體延遲的需求則沒那麼高，也就是說提升記憶體頻寬就能有效增加顯示卡的整體效能表現，這也是為什麼追求記憶體頻寬的顯示卡會率先採用GDDR5、GDDR6，而系統主記憶體還使用DDR4的原因之一。

另一方面，除了增加顯示記憶體的頻寬，也能透過增加快取記憶體的容量或命中率，來提升等效記憶體頻寬。舉個極端例來說，如果快取記憶體命中率為0%，那麼顯示卡的等效記憶體頻寬就等於顯示記憶體頻寬，然而在命中率為100%的情況下，等效頻寬就是快取記憶體頻寬。

王啟尚表示，AMD具有豐富的處理器研發經驗，因此也思考可以將哪些應用於處理器的技術轉移到顯示卡，而Infinity Cache就是這樣的產物。它借鏡於EPIC伺服器處理器的快取記憶體，定位為高密度最後一階快取記憶體（High Density, Last Level Cache），能在有限的裸晶尺寸（Die Size）下提供高容量、高頻寬的特性。

▲ RDNA 2架構說明會由AMD Radeon繪圖技術事業群工程部全球資深副總裁王啟尚主講。

▲ 導入Infinity Cache最大的目的在於舒解顯示卡的記憶體頻寬瓶頸。

▲ Infinity Cache的技術源自EPIC伺服器處理器的快取記憶體，搭配Infinity Fabric匯流排與各元件溝通。

▲ 回顧RDNA 1架構，每個運算單元中具有L0快取記憶體，L1快取記憶體位於渲染引擎內（Shader Engine），L2快取記憶體則位於渲染引擎與控制處理器（Command Processer）之間。

▲ RDNA 2架構則將快取系統砍掉重練，總計有1MB分散於渲染引擎內的L1快取記憶體，以及4MB L2快取記憶體與128MB Infinity Cache。

▲ 細看RDNA 2架構的方塊圖，可以看到Infinity Cache位於渲染引擎與記憶體界面之間。

▲ Infinity Cache為L2快取記憶體與Die外部GDDR6顯示記憶體之間的緩衝。

128MB容量有效提升效能與電力效率

或許大家會有個疑問，相對於Radeon RX 6000系列顯示卡動輒16GB的顯示記憶體，Infinity Cache的容量僅有128MB，是不是有點太小？

對於這點，可以從AMD研發過程中對不同容量Infinity Cache所進行的分析看出端倪。在Full HD解析度下，快取命中率在64MB以下會隨Infinity Cache容量提升快速成長，而到100MB左右後成長趨勢就幾乎停止。

而1440p解析度的快取命中率的成長大約也在100MB左右放緩，至於4K解析度的情況，可以看到快取命中率成長與Infinity Cache容量幾乎成正比，就算到了140MB還是持續明顯成長。

綜合成本、裸晶面積、功耗以及繪圖處理器運算效能等考量，AMD最終決定在Radeon RX 6800、RX 6800 XT、RX 6900 XT等顯示卡搭載128MB Infinity Cache，以取得最佳平衡。

▲ Infinity Cache的用意在於盡可能提高將資料送進渲染引擎的速度，但仍需考慮諸多成本因素。

▲ 可以從圖表中看到，容量為128MB的Infinity Cache對Full HD、1440p解析度來說是個甜蜜點。如果搭再更高容量則可增加4K解析度的快取命中率。

可自動超頻，遊戲開發者也可手動最佳化

Infinity Cache無法像一般顯示記憶體一樣手動超頻，但其運作時脈會跟隨顯示卡的狀態自動超頻，達到最佳效能表現。

Infinity Cache的運作機制就像處理器的快取記憶體，能夠自動分配暫存的資料，不需遊戲開發者特地進行任何設定，就能達到增加頻寬、降低延遲的效果。

而AMD也規劃在未來提供對應的API，讓開發者可以指定讓常用的資料常駐於Infinity Cache，或強制排除使用率較低的資料，如此一來就能提升快取命中率，讓整體效能表現更上層樓。

整體而言，Infinity Cache透過在盡可能靠近渲染引擎的位置，設置高頻寬、低延遲的快取記憶體，減少需要向顯示記憶體存取資料的次數，來達到提升等效頻寬，並且節省整體功耗的效果，可以說是在顯示卡架構設計上相當傑出的一手。

▲ Infinity Cache可以在消耗相同電量的情況下提供更高等效頻寬，因此有助於提升電力效率。

▲ 加入Infinity Cache之後，RDNA 2架構的效能表現直接往上跳一級，整體遊戲效能也隨著渲染引擎的提升而增加。

▲ 與Radeon RX 5700 XT相比，當Infinity Cache快取命中時，可以發揮降低48%存取延遲的效果，整體而言也能平均降低34%存取延遲（含快取未命中）。

▲ Infinity Cache也能在光線追蹤運算時發揮效果，整體能讓光線加速器（Ray Accelerator）提供高於純軟體運算10倍效能表現。

王啟尚在架構說明會中提到，AMD的顯示技術有著強健的生態系統，除了在PC遊戲市場扮演重要角色外，也藉由Microsoft Xbox Series X、Series S以及Sony PlayStation 5等主機在家用遊戲市場佔有一席之地，因此具有能夠整合遊戲開發資源的特性，增加開發商導入AMD FidelityFX工具套件，以及為光線追蹤、FidelityFX Super Resolution等技術最佳化的意願，來提升生態系統的附加價值。

系列文章：
AMD發表Radeon RX 6000系列顯示卡，目標打敗RTX 3090
AMD遊戲平台的逆襲，Radeon RX6000系列顯示卡效能實測
 RDNA2架構說明，Radeon RX6000系列顯示卡重返榮耀的秘密武器
 AMD新世代卡王降臨，Radeon RX6900 XT效能實測
細看RDNA 2架構，AMD說明Infinity Cache提升效能的祕訣（本文）