ADVERTISEMENT
GCN:率先使用新規格
看到AMD的新架構,很難不去跟NVIDIA先前發表的Fermi比較,不過架構只是追求效能與節省成本的手段。論斷好壞並不客觀,但是在設計上倒是可以比較一下兩者的異同。
強化的快取架構
比較值得一提的是兩者的快取架構,Fermi每個SM(Streaming Multiprocessors)有64KB的L1快取,而所有SM則是共享768KB的L2快取。GCN設計上則較為複雜,CU有獨立64KB的L1快取,每4個CU還可共享16KB的指令快取(instruction cache)以及32KB的純量資料快取(scalar data cache)。L2則是每個記憶體控制器(memory controller)可支援64或128KB,HD 7970內具備6個記憶體控制器,因此L2快取與Fermi同為768KB。
▲新架構的快取共享機制很複雜,每個CU有獨立也有共享的快取。重視數據共享是GCN的特點之一,加上X86虛擬記憶體技術,讓複雜程度再上一層。
X86虛擬記憶體
GCN架構的L1快取都是與L2共通的,且能跟顯卡上的GDDR5記憶體同步數據。GCN比Fermi更為注重資料同步,L1與L2、L2與顯卡記憶體、L2與系統記憶體都能同步數據。另外還有首次出現的X86 Virtual Memory(X86虛擬記憶體),可讓顯卡上的記憶體虛擬為系統記憶體。即使是X79用的四通道記憶體頻寬(memory bandwidth)不過30~50GB/s左右,HD 7970上的GDDR5記憶體頻寬可高達264GB/s,是系統記憶體的數倍,有助於通用運算與少部分遊戲。
DX 11.1能看不能玩
除了X86虛擬記憶體外,這次HD 7970也支援了不少新規格,舉凡PCI-E 3.0、DirectX 11.1,而且又是第一款28nm製程的顯卡。PCI-E 3.0部分,下個章節會搭配效能實測介紹,在此我們先來了解能看不能玩的DirectX 11.1。
會說能看不能玩,主要還是因為目前微軟並不支援DirectX 11.1,大多猜測會到了Windows 8之後才會搭配新版API。從MSDN(Microsoft Developer Network)提供的資料來看,這次DirectX 11.1跟以往小改版相同,目的不在於增加新技術,大多是除錯與擴展功能。
DirectX 11.1新功能
- Shader tracing
- Direct3D device sharing
- Check support of new Direct3D 11.1 features and formats
- Create larger constant buffers than a shader can access
- Use logical operations in a render target
- Force the sample count to create a rasterizer state
- Process video resources with shaders
- Change subresources with new copy options
- Discard resources and resource views
- Support a larger number of UAVs
- Bind a subrange of a constant buffer to a shader
- Retrieve the subrange of a constant buffer that is bound to a shader
- Clear all or part of a resource view
- Map SRVs of dynamic buffers with NO_OVERWRITE
- Use UAVs at every pipeline stage
資料來源:MSDN
迎接光線追蹤
目前DirectX 11.1有15項新功能,其中比較值得注意的是子項目DoublePrecisionFloatShaderOps,也就是較常聽到的DP Shader。DP指的是Double Precision,也就是雙精度運算。是微軟在DirectX中首度加入的Shader類型,可在運算當中加入雙精度規則。
先前有提過,雙精度比起單精度運算精確度更高,先前所有Shader運算都是採用FP32也就是單精度運算,應用面來說單精度運算已經足以使用,轉換成雙精度提升的精確度是多餘的。那為什麼要支援雙精度?能想到最直接的例子就是ray tracing(光線追蹤)。
在模擬ray tracing的過程中,必須依靠雙精度運算維持數據的精確性。Ray tracing特色在於物體與光線之間的高度模擬,依照現有的處理精確度,讓物體與光線交互作用數次就會產生不可忽略的誤差,對於交互次數多達數十次的ray tracing只用單精度是絕對不夠的,可能會造成模擬失真,於是只能靠雙精度技術加強。
關鍵字:Ray Tracing(光線追蹤)
▲光線追蹤是幾何光學的技術,主要是計算光線碰到物體時的折射與反射,由於物體與物體、物體與光線、光線與光線之間都會互相影響,因此運算的數據量十分龐大。高階顯卡跑起來可能都不太夠力,且未來加入雙精度運算,雖精確度提升但是效能可能還要打折扣。圖中的車輛即是用光線追蹤模擬出來,板金上的光影十分逼真。
延伸閱讀:
傳 AMD 將於12月5日發表新 GPU:Radeon HD 7000
AMD HD 7970 之 GCN 架構完全解析,帶來 GPU 革命
新卡王 Radeon HD 7970 實測:效能強大,驅動有待完善
真不知道是怎樣弄得 竟然功耗降著麼多
680還可以把7970壓在地上打
<( ̄︶ ̄)>
問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
然後加上延遲應該會比系統記憶體更高...
這樣真的會有用嗎?
> "...即使是X79用的四通道記憶體頻寬(memory bandwidth)不過30~50GB/s左右,HD 7970上的GDDR5記憶體頻寬可高達264GB/s,是系統記憶體的數倍,有助於通用運算與少部分遊戲。"
>
> 問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
> 然後加上延遲應該會比系統記憶體更高...
> 這樣真的會有用嗎?
>
記憶體是雙向的阿
對主板那邊當然是夠 但對GPU那裡當然是要更快才行啦
CPU的快取也是相同道理 一樣快的話 何須另加記憶體
資料全部暫存在主機板的記憶體就好啦 還比較便宜咧
╮(╯_╰)╭
> 問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
> 然後加上延遲應該會比系統記憶體更高...
> 這樣真的會有用嗎?
一般顯示卡所稱的記憶體頻寬
是指 GPU 與 VRAM 間溝通的頻寬
每出一批新遊戲
都必須一一改版來修正遊戲特效BUG
或效能低落的問題
> 看了這篇之後 我更想了解開普勒的架構了
>
> 真不知道是怎樣弄得 竟然功耗降著麼多
>
> 680還可以把7970壓在地上打
>
>
28nm是主因,再者,kepler持續改良兩代的fermi架構
架構上更完善,電力效率自然表現更好
> ※ 引述《PCABC》的留言:
> > 看了這篇之後 我更想了解開普勒的架構了
> >
> > 真不知道是怎樣弄得 竟然功耗降著麼多
> >
> > 680還可以把7970壓在地上打
> >
> >
> 28nm是主因,再者,kepler持續改良兩代的fermi架構
> 架構上更完善,電力效率自然表現更好
這期雜誌講的還蠻詳細的
Shader的部分更證實了我的疑慮 拿掉後核心頻率終於上的來了
若真有GK110 GTX685我想應該就像是460跟465的差距一樣吧
通用運算效能大增 但遊戲效能沒增多少
GPU面積大增 結果超吃電 ╮(╯_╰)╭
> ※ 引述《tandee》的留言:
> > ※ 引述《PCABC》的留言:
> > > 看了這篇之後 我更想了解開普勒的架構了
> > >
> > > 真不知道是怎樣弄得 竟然功耗降著麼多
> > >
> > > 680還可以把7970壓在地上打
> > >
> > >
> > 28nm是主因,再者,kepler持續改良兩代的fermi架構
> > 架構上更完善,電力效率自然表現更好
>
>
>
> 這期雜誌講的還蠻詳細的
>
> Shader的部分更證實了我的疑慮 拿掉後核心頻率終於上的來了
>
> 若真有GK110 GTX685我想應該就像是460跟465的差距一樣吧
>
> 通用運算效能大增 但遊戲效能沒增多少
>
> GPU面積大增 結果超吃電 ╮(╯_╰)╭
>
> 很難講喔,以規格來說,基本上可以把兩家目前的雙核卡王打趴,而且可能跟580差不多耗電而已,跟460和465是完全不一樣的狀況阿,畢竟GK110比GK104較像是GTX580比上GTX460才對(所以我覺得GK110相當有可能是7系列的),不過因為良率問題,所以要等到8月才會出來。
>
兩者拉距肯定在玩遊戲時看不太出來
為求爽度而已
7970輸在兩點
1. 價格還不降?
2. 不CP求爽度時~我若有錢想買只買老大 ~說白點680也不夠看