細看RDNA 2架構,AMD說明Infinity Cache提升效能的祕訣

細看RDNA 2架構,AMD說明Infinity Cache提升效能的祕訣

ADVERTISEMENT

AMD在RDNA 2架構顯示卡導入128MB的Infinity Cache快取記憶體,大幅提升顯示記憶體的等效頻寬,也帶來更強悍的整體效能輸出,就讓我們來看看這塊特殊的記憶體有什麼奧妙之處。

將伺服器快取概念導入顯示卡

AMD Radeon繪圖技術事業群工程部全球資深副總裁王啟尚在RDNA 2架構說明會中,說明了Infinity Cache的特色與細節,筆者將資訊整理於這篇文章中與大家分享。

由於資料類型與運算需求的差異,讓顯示卡效能對記憶體頻寬的敏感性比較高,對於記憶體延遲的需求則沒那麼高,也就是說提升記憶體頻寬就能有效增加顯示卡的整體效能表現,這也是為什麼追求記憶體頻寬的顯示卡會率先採用GDDR5、GDDR6,而系統主記憶體還使用DDR4的原因之一。

另一方面,除了增加顯示記憶體的頻寬,也能透過增加快取記憶體的容量或命中率,來提升等效記憶體頻寬。舉個極端例來說,如果快取記憶體命中率為0%,那麼顯示卡的等效記憶體頻寬就等於顯示記憶體頻寬,然而在命中率為100%的情況下,等效頻寬就是快取記憶體頻寬。

王啟尚表示,AMD具有豐富的處理器研發經驗,因此也思考可以將哪些應用於處理器的技術轉移到顯示卡,而Infinity Cache就是這樣的產物。它借鏡於EPIC伺服器處理器的快取記憶體,定位為高密度最後一階快取記憶體(High Density, Last Level Cache),能在有限的裸晶尺寸(Die Size)下提供高容量、高頻寬的特性。

RDNA 2架構說明會由AMD Radeon繪圖技術事業群工程部全球資深副總裁王啟尚主講。

▲ 導入Infinity Cache最大的目的在於舒解顯示卡的記憶體頻寬瓶頸。

Infinity Cache的技術源自EPIC伺服器處理器的快取記憶體,搭配Infinity Fabric匯流排與各元件溝通。

回顧RDNA 1架構,每個運算單元中具有L0快取記憶體,L1快取記憶體位於渲染引擎內(Shader Engine),L2快取記憶體則位於渲染引擎與控制處理器(Command Processer)之間。

RDNA 2架構則將快取系統砍掉重練,總計有1MB分散於渲染引擎內的L1快取記憶體,以及4MB L2快取記憶體與128MB Infinity Cache。

細看RDNA 2架構的方塊圖,可以看到Infinity Cache位於渲染引擎與記憶體界面之間。

Infinity Cache為L2快取記憶體與Die外部GDDR6顯示記憶體之間的緩衝。

128MB容量有效提升效能與電力效率

或許大家會有個疑問,相對於Radeon RX 6000系列顯示卡動輒16GB的顯示記憶體,Infinity Cache的容量僅有128MB,是不是有點太小?

對於這點,可以從AMD研發過程中對不同容量Infinity Cache所進行的分析看出端倪。在Full HD解析度下,快取命中率在64MB以下會隨Infinity Cache容量提升快速成長,而到100MB左右後成長趨勢就幾乎停止。

而1440p解析度的快取命中率的成長大約也在100MB左右放緩,至於4K解析度的情況,可以看到快取命中率成長與Infinity Cache容量幾乎成正比,就算到了140MB還是持續明顯成長。

綜合成本、裸晶面積、功耗以及繪圖處理器運算效能等考量,AMD最終決定在Radeon RX 6800、RX 6800 XT、RX 6900 XT等顯示卡搭載128MB Infinity Cache,以取得最佳平衡。

Infinity Cache的用意在於盡可能提高將資料送進渲染引擎的速度,但仍需考慮諸多成本因素。

可以從圖表中看到,容量為128MB的Infinity Cache對Full HD、1440p解析度來說是個甜蜜點。如果搭再更高容量則可增加4K解析度的快取命中率。

可自動超頻,遊戲開發者也可手動最佳化

Infinity Cache無法像一般顯示記憶體一樣手動超頻,但其運作時脈會跟隨顯示卡的狀態自動超頻,達到最佳效能表現。

Infinity Cache的運作機制就像處理器的快取記憶體,能夠自動分配暫存的資料,不需遊戲開發者特地進行任何設定,就能達到增加頻寬、降低延遲的效果。

而AMD也規劃在未來提供對應的API,讓開發者可以指定讓常用的資料常駐於Infinity Cache,或強制排除使用率較低的資料,如此一來就能提升快取命中率,讓整體效能表現更上層樓。

整體而言,Infinity Cache透過在盡可能靠近渲染引擎的位置,設置高頻寬、低延遲的快取記憶體,減少需要向顯示記憶體存取資料的次數,來達到提升等效頻寬,並且節省整體功耗的效果,可以說是在顯示卡架構設計上相當傑出的一手。

Infinity Cache可以在消耗相同電量的情況下提供更高等效頻寬,因此有助於提升電力效率。

加入Infinity Cache之後,RDNA 2架構的效能表現直接往上跳一級,整體遊戲效能也隨著渲染引擎的提升而增加。

與Radeon RX 5700 XT相比,當Infinity Cache快取命中時,可以發揮降低48%存取延遲的效果,整體而言也能平均降低34%存取延遲(含快取未命中)。

Infinity Cache也能在光線追蹤運算時發揮效果,整體能讓光線加速器(Ray Accelerator)提供高於純軟體運算10倍效能表現。

王啟尚在架構說明會中提到,AMD的顯示技術有著強健的生態系統,除了在PC遊戲市場扮演重要角色外,也藉由Microsoft Xbox Series X、Series S以及Sony PlayStation 5等主機在家用遊戲市場佔有一席之地,因此具有能夠整合遊戲開發資源的特性,增加開發商導入AMD FidelityFX工具套件,以及為光線追蹤、FidelityFX Super Resolution等技術最佳化的意願,來提升生態系統的附加價值。

系列文章:
AMD發表Radeon RX 6000系列顯示卡,目標打敗RTX 3090
AMD遊戲平台的逆襲,Radeon RX6000系列顯示卡效能實測
RDNA2架構說明,Radeon RX6000系列顯示卡重返榮耀的秘密武器
AMD新世代卡王降臨,Radeon RX6900 XT效能實測
細看RDNA 2架構,AMD說明Infinity Cache提升效能的祕訣(本文)

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則