RDNA 4繪圖架構之AI運算與FSR 4效能禁藥解析:遊戲FPS效能催上3.7倍

RDNA 4繪圖架構之AI運算與FSR 4效能禁藥解析:遊戲FPS效能催上3.7倍

ADVERTISEMENT

AMD在RDNA 4繪圖架構改善AI運算加速器,並新增支援更多資料類型,以及透過軟體最佳化提升運算效能,也帶來以機器學習為基礎的FSR 4升頻技術。

回到系列文章目錄:AMD發表RDNA 4繪圖架構與Radeon RX 9070系列顯示卡,支援全新ML加持FSR 4升頻功能

AI效能最高翻8倍

筆者在先前《AMD RDNA 4繪圖架構說明》一文中提到RDNA 4架構的硬體設計改進,其中的第3代AI加速器(矩陣運算加速器)同樣支援Wave Matrix Multiply Accumulate指令集,並新增FP8與BF8(E4M3、E5M2)等資料類型,以及新增支援結構稀疏性(Structured Sparsity,可提升1倍峰值效能)。

與前代RDNA 3相比,RDNA 4的每組運算單元(CU)在FP64、FP32資料類型的基本運算效能相同,但在FP16有2倍效能表現,INT8、INT4則達到4倍,若再搭配結構稀疏性則可分別提高到4倍、8倍,提升相當顯著。

另一方面AMD也持續改善AI運算環境的框架,透過對模型的最佳化來提高整體運算效能,並簡化部署模型的工作流程。

RDNA 4除了延續支援FP64、FP32、FP16、BF16、INT8、INT4等資料類型的AI運算之外,還新增FP8與BF8等資料類型,以及新增支援結構稀疏性,提升各種運算條件下的峰值效能。

RDNA 3 / 4之每組CU能夠提供的基本運算量(Ops per CU)對照表。

從圖表可以清楚看出,RDNA 4的AI運算在不同資料類型搭配結構稀疏性最高可以達到RDNA 3峰值效能之8倍。

RDNA 4繪圖架構之AI運算與FSR 4效能禁藥解析:遊戲FPS效能催上3.7倍

▲在進行Stable Diffusion XL、Stable Diffusion 3、Flash Stable Diffusion 3、FLUX.1等模型的AI圖像生成運算時,RDNA 4架構能透過Microsoft Olive框架與最佳化的ONNX框架加速運算效能。

改善FSR 4與AFMF 2.1效能禁藥畫質

AMD也在FSR 4(FidelityFX Super Resolution 4)升頻功能導入機器學習(Machine Learning,AI運算的一個分枝)類型的模型,能夠在提升遊戲FPS效能的同時,改善升頻後的畫質表現。不過AMD資深副總裁暨GPU技術與工程研發王啟尚在Radeon RX 9000系列顯示卡發表會說明,FSR 4的模型採用FP8資料類型,然而RDNA 3 / 3.5以及先前的顯示架構並不支援FP8,代表只有採用RDNA 4架構的有Radeon 9000系列顯示卡才能使用這項功能。

值得注意的是AMD在FSR 3.1導入可升級式API,能夠降低已支援FSR 3.1的遊戲可以升級至FSR 4的開發門檻,讀者可以參考AMD提供的FSR 4遊戲相容清單,並在AMD Software Adrenalin Edition驅動程式中開啟FSR 4升頻功能。

另一方面,AMD也推出強化畫質的AFMF 2.1畫格生成(AMD Fluid Motion Frames)功能,它以先前推出的AFMF 2為基礎,能在所有使用DirectX 11、DirectX 12、OpenGL、Vulkan等繪圖API的遊戲強制開啟畫格生成,提升遊戲的FPS效能表現。

另一方面,AMD也在AMD Software中透過HYPR-RX整合多種改善遊戲效能與延遲的技術,讓玩家只需開啟HYPR-RX,就能自動套用多種技術為遊戲效能最佳化,簡化設定的操作流程。

FSR 4升頻技術以機器學習為基礎,能夠進一步改善升頻後的畫質。值得注意的是它能透過FSR 3.1的可升級式API直接套用於現有遊戲。

AMD利用搭載自家Instinct加速器的伺服器訓練FSR 4的機器學習模型,並將模型部署到玩家的電腦,透過RDNA 4架構的顯示卡進行推論運算,但需注意的是FSR 4的模型採用FP8資料類型,代表只有Radeon 9000系列顯示卡才能使用。

AMD特別說明FSR 4架構的「一條龍」生產流程,透過Zen與XDNA架構的處理器、神經處理器(NPU)開發程式,然後透過EPYC伺服器級處理器與Instinct加速器訓練模型,最後在RDNA 4架構的顯示卡進行推論運算。

根據AMDW提供的數據,FSR 4搭配畫格生成功能最高可以帶來3.7倍於原生FPS的效能表現。

受益於更強大的機器學習模型,FSR 4能夠提供更細緻的圖像品質,請注意建築物的尖塔部分。

歷代FSR與顯示卡的相容性列表。其中FSR 3的升頻功能需要Radeon RX 590以上之顯示卡,而畫格生成需要Radeon RX 5000系列以上。FSR 4的升頻與畫格生成皆需要Radeon RX 9000系列以上。

AMD透過HYPR-RX簡化玩家設定流程,可以「一鍵開啟」FSR、Anti-Lag、Boost、RSR、AFMA等多種升頻、最佳化功能。

Anti-Lag能夠降低遊戲操作延遲,透過更敏捷的反應速度提高玩家在遊戲中的競技優勢。

AFMA 2.1可以對幾乎所有遊戲強制開啟畫格生成功能,並相容於Radeon RX 6000系列之後的顯示卡,以及Ryzen AI 300系列處理器之內建顯示晶片。

AFMF 2.1較先前AFMF 2改善了圖像品質,能夠改善鬼影、精細材質、混疊等細節。

其中改善鬼影的效果最為明顯,可以看到AFMF 2(上)的車輪相當模糊,AFMF 2.1(下)則較為清晰。

透過HYPR-RX與AFMA 2.1能為遊戲帶來最多3倍於原生狀態的FPS效能。

AMD的FSR 4與競爭對手NVIDIA的DLSS 4相比,缺少了最多能讓FPS效能提升4倍的多重畫格生成功能,但卻能以同時開啟FSR與AFMF等2種畫格生成的方式達到接近的成效,有興趣的讀者可以參考筆者先前所寫的《AMD AFMF 2畫格生成效能禁藥再升級,疊加FSR 3猛上加猛效能實測!》一文,看看疊加2種效能禁藥的效果如何。

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則