AMD Zen 5架構詳解(二):Zen 5、RDNA 3.5、XDNA 2架構解說

AMD Zen 5架構詳解(二):Zen 5、RDNA 3.5、XDNA 2架構解說

ADVERTISEMENT

繼前文主要解說Ryzen 9000系列、Ryzen AI 300系列處理器與Zen 5、Zen 5c等衍生核心的差異,本為將聚焦於Zen 5、RDNA 3.5、XDNA 2等架構。

Zen 5世代效能再上層樓

由於筆者已在先前Tech Day 2024系列文章文章中,解說過Zen 5處理器、RDNA 3.5繪圖、XDNA 2 AI運算等架構的設計與特色,這邊將針對AMD於Zen 5 Architecture Deep Dive說明會提供的投影片進行補充,請讀者參考下方圖文說明。

Zen 5架構每組核心的L1快取記憶體配置為32 KB、8路指令快取加上48 KB、12路資料快取,搭載1MB、16路L2快取記憶體。

改良的分支預測機制能在進行條件分支(Conditional Branch)時能達到零空隙(Zero-Bubble)以提生資源利用率,在指令快取部分則具備2組指令預取串流(Instruction Fetch Stream)。

2組指令預取串流搭配2組指令解碼單元,可以同時處理2組獨立指令,有助於提升核心內2條執行緒的同時執行效能,強化SMT(Simultaneous Multithreading)多執行緒功能的表現。

在整數運算的指派(Dispatch)與執行單元部分,Zen 5搭載8-Wide Dispatch, Rename, Rretire單元,並具有6組ALU(算數邏輯)與4組AGU(記憶體位置產生)單元。

Zen 5也提升了資料傳輸頻寬,透過增加讀取與儲存佇列、合併儲存緩衝記憶體、可擴展讀取排序佇列以擴大即時資料窗口,並藉由新增的2D stride預取器改善串流與區域預取的系能。

在浮點運算部分,最大的改進點在完整支援AVX-512指令集的512 bit資料路徑(Datapath),並提供4組執行管線。相較於前代架構需要3個時脈週期才能完成FADD(浮點加法運算),Zen 5在特定情況下只需2個時脈週期就能完成。

同CCX(Core Complexes,核心複合體)內的各核心在交換資料時需要透過L3快取記憶體做為中介。其運作過程會先查尋儲存於L3快取記憶體內的資料查找表,確認資料存放在哪個核心的L2快取記憶體,接著傳送至L3,再由需要的核心讀取進自己的L2。

Zen 5架構新增了許多指令集,例如可以讓資料跳過快取直接寫入儲存區的MOVIDIRI/MOVD64B,將AVX-512指令擴展至VEX引擎的VNNI/VEX等等。

Zen 5與前代Zen 4架構的主要差異對比。

RDNA 3.5繪圖架構則是擴大引擎規模,提升2倍材質子系統的取樣率、提升2倍渲染子系統的內插與比較率,改善記憶體的使用效率與資料壓縮效率,估計可帶來30%的效能增益。

XNDA 2 AI運算架構的主要改善包括增加NPU(神經處理器)內的AI引擎模塊(AI Engine Tile)數量,並可支援Block FP16資料類型能夠在提供接近FP16的精確度下,享有接近INT8較低的記憶體佔用量以及更高的效能輸出。

總結來說,Zen 5架構再次帶來顯著效能提升,並透過AVX-512指令集強化AI運算效能,展現AMD持續帶來領導地位效能與電力效率的決心。

AMD將Ryzen 9000系列桌上型處理器拆分為2批上市,筆者也會在第一時間帶來效能測試專題報導,並更新於本文首的「系列文章」專區。

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則