AMD HD 7970 之 GCN 架構完全解析,帶來 GPU 革命

AMD HD 7970 之 GCN 架構完全解析,帶來 GPU 革命

ADVERTISEMENT

睽違1年,AMD 的新顯卡終於來了。這次代號為 Tahiti XT 的 HD 7970 維持 AMD 以往「規格搶先」的傳統,使用 28nm 核心製程、PCI-E 3.0 傳輸介面,還支援 DirectX 11.1,而使用 GCN 架構則是最大的亮點。

快速目錄:

其中最令人期待的還是新的GCN(Graphic Core Next)架構,一改過去SIMD(Single Instruction Multiple Data,單指令流多數據流)設計,成為「基於SIMD基礎的MIMD架構」,試圖在繪圖與GPGPU(General-Purpose Computing on Graphics Processing Units,通用繪圖處理器)運算取得平衡點,有什麼特色?接著看下去就知道。

效能指標 T&L

在討論GCN架構之前,得從頭開始考古,才會比較容易了解。早在10年多前那個DirectX 9年代,顯示卡還沒現在這麼複雜,主要就是處理幾何圖形變換以及光線渲染。當時遊戲的靜態圖像生成有4個關鍵步驟,分別是Transform(座標轉換)、Lighting(光線投影)、Triangle Setup(三角形設定)與Rendering(成像)。

最初T&L(Transform & Lighting)是由處理器負責,直到NVIDIA將其導入GPU,人們才開始了解硬體T&L價值。受到遊戲的影響,顯卡效能指標自然就是Transform與Lighting管線的多寡。這個時期代表的顯卡是GeForce 256與GeForce 2 MX,前者是前幾款導入T&L硬體架構的顯卡,後者則透過低價大幅攻佔市場。至於此時期知名的遊戲則是Soldier of Fortune(傭兵戰場),相信不少老玩家都知道。

往後開始大量使用三角形產生3D模組,顯卡架構也越來越複雜。此時核心最重要的規格就是VS(Vertex Shader,頂點著色引擎)與PS(Pixel Shader,像素著色引擎),這樣的核心架構持續到DirectX 9末期,微軟推出了DirectX 10才打破這個規矩。

大一統的 DirectX 10

微軟在DirectX 10當中,取消了VS與PS,取而代之的是Unified Shader(統一著色引擎),也就是大家熟知的Stream Processor(串流處理器,簡稱SP)。現在我們所看到的顯卡,都是基於這種模式設計,但是AMD與NVIDIA設計方式略有不同,名稱也不太一樣。AMD稱之為SP或ALU(Arithmetic Logic Unit,算數邏輯單元),NVIDIA則先稱之為SP後來改命名為CUDA Core。

AMD HD 7970 之 GCN 架構完全解析,帶來 GPU 革命

▲第一代核心是以T&L硬體架構為主,接著到了VS與PS的時代,這時買顯卡還是看管線的多寡。直到DirectX 10時代,第三代核心將VS與PS統一為SP,讓效能指標變成了SP。不過在第三代架構中,AMD與NVIDIA的作法略有不同,前者採用SIMD架構,後者則是MIMD架構,直到今天AMD才從SIMD轉向MIMD架構靠攏。

SIMD與MIMD之爭

開啟DirectX 10時代後,NVIDIA以G80打頭陣,使用的是MIMD(Multiple  Instruction Multiple Data,多指令流多數據流)的1D純量(Scalar)架構;AMD則以R600為主,使用的是SIMD(Single Instruction Multiple Data,單指令流多數據流)的4D+1D向量(Vector)架構,也就是VLIW(Very Long Instruction Word,超長指令集)體系。直到HD 7970推出後,才轉換為SIMD與MIMD兼具的GCN架構。

Keyword:費林分類法

AMD HD 7970 之 GCN 架構完全解析,帶來 GPU 革命

  單指令流 多指令流
單指令流 單指令流單資料流(SISD) 多指令流單資料流(MISD)
多指令流 單指令流多資料流(SIMD) 多指令流多資料流(MIMD)

▲費林分類法(Flynn's Taxonomy)是電腦運算分類方式,1972年費林(Michael J. Flynn)將資訊流(Information Stream)根據指令(Instruction)與資料(Data)進行分配,歸類出4種運算模式。(資料來源:Wikipedia

(後面還有運算架構詳解)

延伸閱讀:

據說顯示卡不接訊號線能省電?4個實驗告訴你真相

魯蛇實驗室
作者

戶田惠梨香 新垣結衣 長澤雅美 吉高由里子 志田未來 北川景子 香里奈 竹內結子 北乃紀伊 菅野美穗 黑川智花 宮崎葵 夏帆 貫地谷詩穗梨 石原里美 有村架純 井上真央 真野恵里菜 能年玲奈 深田恭子

使用 Facebook 留言
036a5697218da19bc678160938417d48?size=48&default=wavatar
2.  Ed (發表於 2012年1月30日 14:35)
建議這種電腦結構的介紹文章可以減少縮寫或特殊名詞的使用,因為在這些元件/名詞有些並不是文章中的主角,甚至只是稍微提到而已,但卻可能會使閱讀短暫中斷(因為無法理解內容)。

其實現在很多新名詞都是廠商創造出來的商業口號,有些時候拿起書本翻一翻,會突然發現,"咦,這根本就是最近在推的XX嘛"。

個人認為,可以記得住各種電腦名詞用語固然有趣,但最有趣的還是當你看到隱藏在這詭異詞語之後的美麗原理,恍然大悟的那一刻。

所以,電腦王要不要從電腦圖學開始介紹啊?(逃)
Shinwill
4.  Shinwill (發表於 2012年1月30日 16:22)
夠專業的好文章 !!
就是要到這種程度才是T客邦應該要有的水準 <( ̄︶ ̄)>
收藏了~~~~
A0ed2e1e9af88778b2d17b10b90cf471?size=48&default=wavatar
8.  halien (發表於 2012年1月30日 19:41)
VLIW跟SIMD八竿子打不著,你的計算機結構該重修了.
546cac667d5d492896df1aa9f732fc71?size=48&default=wavatar
10.  pppee (發表於 2012年1月31日 07:53)
※ 引述《halien》的留言:
> VLIW跟SIMD八竿子打不著,你的計算機結構該重修了.
>
我到覺得你國文閱讀能力才應該加強
A0ed2e1e9af88778b2d17b10b90cf471?size=48&default=wavatar
11.  halien (發表於 2012年1月31日 13:58)
※ 引述《pppee》的留言:
> ※ 引述《halien》的留言:
> > VLIW跟SIMD八竿子打不著,你的計算機結構該重修了.
> >
> 我到覺得你國文閱讀能力才應該加強
讓我們重看一遍原文:
===
AMD則以R600為主,使用的是SIMD(Single Instruction Multiple Data,單指令流多數據流)的4D+1D向量(Vector)架構,也就是VLIW(Very Long Instruction Word,超長指令集)體系
===
請問這位計算機結構大師, 哪一本計算機結構的教科書教你SIMD是VLIW的體系?
陳茗豪
12.  陳茗豪 (發表於 2012年9月10日 21:23)
"AMD則以R600為主,使用的是SIMD(Single Instruction Multiple Data,單指令流多數據流)的4D+1D向量(Vector)架構,也就是VLIW(Very Long Instruction Word,超長指令集)體系"
這句話的確有待商榷..SIMD.與VLIW本質上是不能混為一談的
但也不至於八竿子打不著關係..一直以來..對於提升處理器性能
大致上朝向兩個方向發展..
1.透過製程精進.將電子元件的體積規模不斷微縮.在有限面積裡能集成更多的電路元件.增加處理器晶片更多的功能性單元.也減少了電子元件工作時所產生的廢熱.可以讓處理器平穩運行於更高的時脈設定.
2.平行運算:平行運算其實也可以算是由精進製程所衍生的
相對於提升時脈是讓處理器能在更短的時間完成一項工作(降低CPI)平行運算則是在同樣的時間裡完成更多的工作(提升IPC)由於處理器能夠集成更多的IC電路.將這些增加的電晶體用在提升效能的刀口上.正是平行運算的思維.而SIMD與VLIW都是基於平行運算而生的架構
平行運算大致可分為時間平行與空間平行兩個主軸..由這兩項主軸對於不同層級運算瓶頸增加硬體運算單元.從而使效能得到提升.這種"哪裡癢,抓哪裡"直覺式思維..說來簡單..做來卻不容易
每個架構都有其優點..當然不免也有"力有未逮"的缺憾..
SIMD的作法是以一組控制器加上多組平行處理微元.能夠同時的處理多筆的資料.很明顯屬於空間平行而就程式的運行層級來區分是屬於資料平行..這種架構的優勢在於不需要增加許多複雜的電路結構.就能夠達到加速運算的結果.能夠取得最佳指令執行效率.不過只能適用於指令所處理的資料都具備同樣的性質而且之間不存在相依關聯性一般來說..只有影像等多媒體程式才具備這樣的性質所以在應用上有其侷限
至於VLIW的作法是將多個短指令結合成一串長指令執行..相當於處理器核心同時執行多個指令..屬於時間並行而就運算層級區分
則是指令級並行.不能避免的VLIW也有指令依存的頭疼問題
指令能不能並行是最重要的障礙..相較於管線化技術把指令依存的交由硬體管線判斷.指令在解碼後會在經過分派決定那些任務可以同時執行.但這增加硬體結構設計的複雜度.'當然開發成本也因此提高.VLIW則是以另一種方式因應..一開始在短指令組成長指令串時就已經將不能並行的指令排除處理器核心就無需顧慮是否有依存的指令只要傻傻地運算就輸出效率來說肯定是會提高.不過
並不是指令依存的障礙就此消失.由於一開始指令編譯時就得避免將無法並行的指令排除..代表指令執行的分派重任得由編譯器一肩扛起..所以開發編譯器的複雜度自然提高..除此之外..VLIW架構還有相容性的問題.編譯器只能適用於特定架構也就是說VLIW4的編譯器無法用於VLIW5..而能夠有效調度這麼多平行指令的任何編譯器都將是十分複雜而且難以編寫..加上VLIW編譯軟體絕大部份要比它所控制的硬體落後.都是VLIW架構目前所遭遇到的責難另外運行過程中無法隨時改變指令執行條件使得VLIW僅能在圖像處理技術中發揮所長所以一般使用VLIW架構的多為DSP
嵌入式晶片
發表回應
謹慎發言,尊重彼此。按此展開留言規則