AMD Trinity 內顯不死徹底解析:北島架構、南島影像引擎,加上 Piledriver 的 A10 處理器

ADVERTISEMENT

直接存取虛擬記憶體

此外UNB還納入IOMMU v2功能,讓獨立顯示卡的GPU可以直接存取處理器的虛擬記憶體空間。使用上代APU的情況下,需要先將資料從硬碟讀到主記憶體中,然後處理器需要將這筆資料從處理器的定址空間中,複製到顯示卡的定址空間(資料還是在主記憶體上),此時顯示卡才能將資料抓到顯示記憶體內。有了IOMMU v2,資料從硬碟讀到主記憶體後,由於虛擬記憶體空間是相通的,顯示卡就能直接取用,省去了在主記憶體內複製的步驟。

 

VLIW4顯示架構再現

在Trinity之前,只有北方群島中代號為Cayman 的Radeon HD 6950與6970採用VLIW4架構。在VLIW4架構中,每組thread processor中只有4個stream processing unit(即ALU),比起VLIW5架構少了1個,被刪去的ALU中負責sin、cos、log等特殊運算的「T Unit」。

根據AMD的分析,目前大部分的遊戲程式在每個運算週期中,只會用到3至4個ALU,因此VLIW4架構雖然每組thread processor中的ALU比較少,但是被刪去的部分是用量較少的低效率ALU,因此這樣做可以提升整體ALU的使用率。

有點迷糊嗎?沒關係,舉個例子。我們先假設2種架構的核心同為100個thread processor,VLIW4這方將會有400個ALU,然而VILW5將會有500個ALU,在理論情況下VILW5的效率會大於或等於VLIW4,那這樣我們還要選VLIW4幹麻?

AMD Trinity 內顯不死徹底解析:北島架構、南島影像引擎,加上 Piledriver 的 A10 處理器

▲隨著Trinity顯示核心效能增長為736GFLOPS,對記憶體存取的需求勢必跟著擴大,Fusion Control Link與Readon Memory Bus就是它的任督二脈。

VLIW4的單位空間效率高

因為核心面積是有限的,所以我們要想辦法將空間的運用最佳化。我們先將thread processor中其他諸如接收指令、分支預測、暫存器等元件忽略,假設可用空間只夠擺400個ALU的話,使用VLIW4架構可以塞入100個thread processor,但是VLIW5的架構只能容納80個thread processor。

這時候VLIW4的優勢就得以顯現,在相同的空間中,使用VLIW4架構能獲得較多的thread processor總量,依照先前提到的每個運算週期中,單一thread processor只有3至4個ALU會被用到,以平均值3.5進行估算,VLIW4可以獲得3.5 x 100 = 350的效能當量,然而假設VLIW5就算能夠用到4個ALU,其效能當量也只有4 x 80 = 320,低於VLIW4的估算值。

AMD Trinity 內顯不死徹底解析:北島架構、南島影像引擎,加上 Piledriver 的 A10 處理器

▲Trinity採用VLIW4架構,每組thread processor擁有4個ALU,在增進單位空間效能同時,也能簡化排程與暫存的管理。

AMD Trinity 內顯不死徹底解析:北島架構、南島影像引擎,加上 Piledriver 的 A10 處理器

▲Trinity的顯示架構與北方群島的Radeon HD 6970十分相近,雖然整體ALU數量少於上代APU的400個,但是仍可帶來較好的整體效能。

SIMD容易堆疊

NVIDIA的顯示核心採用MIMD架構,將所有的ALU打散為1D純量,雖然比Trinity採用的4D向量SIMD架構靈活(資源利用度高),但是每個ALU都需要有資料發射口,因此整體的電晶體數量以及功耗會比較大。反過來看Trinity的SIMD架構,每個資料發射口只需對應4個ALU,因此電晶體使用量及功耗都會比MIMD還要低。

Trinity的顯示核心由6組SIMD引擎組成,每個SIMD引擎包含16個thread processor以及4個材質單元,每個thread processor包含4個ALU,因此總計共有384個ALU、24個材質單元可供運用。

強化的影像功能

Trinity具有獨立的影像處理單元:AMD HD Media Accelerator ,它包含了影像編碼(VCE)以及解碼(UVD 3)元件。VCE提供了更完整的硬體加速功能,在整個編碼過程中,從分析每幀畫面的畫格內預測(Intra Prediction)、動態補償預測(Motion Estimation),到離散餘弦轉換(Forward DCT)、量化(Quantization),以及最後的熵編碼(Entropy Encode)等工作,都是交由GPU處理。此時CPU的工作僅有測量輸出影片的資料流量,並將依結果進行流量控管。

UVD 3部分除了和UVD 2一樣可以支援H.264、VC-1、MPEG 2等格式外,還支援MPEG 4、DivX,以及Multiview Video Coding (MVC) 格式的3D影片(或是3D藍光影片),Dual stream輸出則是從限定HD + SD,升級為可輸出雙HD畫面。

在影音輸出部分,Trinity將DisplayPort的支援版本從1.1a提升至1.2,並且支援Eyefinity多螢幕,最多可以支援4螢幕影像輸出,且4組影像都可以搭配7.1聲道音源,但是在使用4螢幕的情況下,其中2組影像輸出限定需要以DisplauPort菊花鏈模式串接2台螢幕,此外Trinity也支援display grouping功能,可以將多個螢幕組成電視牆。

AMD Trinity 內顯不死徹底解析:北島架構、南島影像引擎,加上 Piledriver 的 A10 處理器

▲紅色部分代表使用VCE編碼時,以GPU進行運算的部分,而比例只剩下一點點的綠色部分,則是由CPU負責控制輸出影片的流量。

(後面還有,Trinity實測:顯示真的扛得住)

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
D219af79b45e5891507fda4c4c2139a0?size=48&default=wavatar
1.  @@ (發表於 2012年9月10日 10:22)
Trinity為首次導入了整合式北橋(Unified Northbridge,UNB)的APU

難道Llano不是UNB架構?
yyc
3.  yyc (發表於 2012年9月11日 12:29)
在CINEBENCH圖片渲染測試中,A10-4600M單核心效能只有Core i5- 3210M的55.12%,落差相當大,然而在多核心部分,效能也只有競爭對手的70.19%---也許處理器的運算能力對使用者體驗已經呈現飽和狀態,但不強大的處理器一定能讓使用者所感受到的速度變慢,

反正現在顯卡TDP都高過CPU,乾脆AMD出顯卡,晶片附送CPU吧,如同tegra3一般,低耗能的交給顯卡上的cpu,高需求轉給原CPU,或再協同也可以.
方
5.  (發表於 2014年6月08日 22:56)
希望AMD加油,沒了AMD,INTEL會有多垃圾大概也想得出來
現在I7幾乎沒進步
E3還能被超頻的第一代I7穩穩幹掉
坦白說X86跑分越來越沒有討論價值了
發表回應
謹慎發言,尊重彼此。按此展開留言規則