ADVERTISEMENT
圖解編譯器指令集排程
編譯器Wavefront時程序列
假設有A~O共15條Wavefront,順序是由A到O,且部分Wavefront存在相依性。其中C必須依賴B,也就是Wavefront C必須等到Wavefront B運算完畢之後,才能算Wavefront C。有點類似B+2=4,B+C=6,必須先求得B的解才能解第二個方程式。其餘E與F、F與G、L與K都是相同情況。
VLIW 4
在VLIW 4架構中缺乏動態調度功能,某些環境使用率相當低。在週期一當中,由於Wavefront C必須依賴Wavefront B,因此SIMD的第三與第四組ALU處在閒置狀態。同樣的情況在週期二、三、五都出現,特別是週期三與五效率特差,只有執行1組Wavefront。理 想中的高效率滿載狀態,只有週期四與六可達到。
▲Wavefront B與C的相依性並未解決,加上缺乏動態調度,只能讓第三與第四組ALU閒置。
▲上個週期未處理的Wavefront C,被留到這個週期運算。由於Wavefront E與F又存在相依性,因此F不能在這個週期處理,使得第四組ALU閒置。
▲這個週期依序處理Wavefront F,由於Wavefront G依賴Wavefront F,因此Wavefront G、H、I只能延後處理。
▲由於此週期沒有相依性,因此能依序處理Wavefront G、H、I、J。這也是VLIW 4架構最理想的狀態。
▲依序處理Wavefront K,但是Wavefront K與L又有相依性,週期五只能單獨處理Wavefront K。
▲剩下的Wavefront L、M、N、O都沒有相依性,因此能執行4個Wavefront。VLIW 4架構處理15個Wavefront總計花費6個週期。
Compute Unit
透過GCN的CU運算,由於具備動態調度功能,因此在允許的行況下,可先執行順位較低的Wavefront。像是週期一當中,可先略過依賴 Wavefront B的Wavefront C,先執行Wavefront D與E。如此一來,15條Wavefront只需要1組CU花費4個週期就能處理完畢,足足比VLIW 4少了2個週期。
▲由於Wavefront B與C存在相依性,透過動態調度功能,可讓排程在後面的Wavefront D與E先行運算,讓CU的SIMD陣列滿載。
▲週期二接著處理Wavefront C,其中依照順序應該接著處理Wavefront F、G、H,不過Wavefront G與F有相依性,因此捨棄Wavefront G先行處理Wavefront I。
▲週期三繼續運算Wavefront G,Wavefront L跟K有相依性,因此先處理順位中的Wavefront M。
▲最後一個週期將剩下的Wavefront處理完畢,一共花費4個週期就處理完畢。其中週期一、二與三都是滿載。
(下一頁:GCN:率先使用新規格)
真不知道是怎樣弄得 竟然功耗降著麼多
680還可以把7970壓在地上打
<( ̄︶ ̄)>
問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
然後加上延遲應該會比系統記憶體更高...
這樣真的會有用嗎?
> "...即使是X79用的四通道記憶體頻寬(memory bandwidth)不過30~50GB/s左右,HD 7970上的GDDR5記憶體頻寬可高達264GB/s,是系統記憶體的數倍,有助於通用運算與少部分遊戲。"
>
> 問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
> 然後加上延遲應該會比系統記憶體更高...
> 這樣真的會有用嗎?
>
記憶體是雙向的阿
對主板那邊當然是夠 但對GPU那裡當然是要更快才行啦
CPU的快取也是相同道理 一樣快的話 何須另加記憶體
資料全部暫存在主機板的記憶體就好啦 還比較便宜咧
╮(╯_╰)╭
> 問題是就算是PCI-E 3.0的極限頻寬也才32GB/s(應該是雙向各16GB/s沒錯吧...)
> 然後加上延遲應該會比系統記憶體更高...
> 這樣真的會有用嗎?
一般顯示卡所稱的記憶體頻寬
是指 GPU 與 VRAM 間溝通的頻寬
每出一批新遊戲
都必須一一改版來修正遊戲特效BUG
或效能低落的問題
> 看了這篇之後 我更想了解開普勒的架構了
>
> 真不知道是怎樣弄得 竟然功耗降著麼多
>
> 680還可以把7970壓在地上打
>
>
28nm是主因,再者,kepler持續改良兩代的fermi架構
架構上更完善,電力效率自然表現更好
> ※ 引述《PCABC》的留言:
> > 看了這篇之後 我更想了解開普勒的架構了
> >
> > 真不知道是怎樣弄得 竟然功耗降著麼多
> >
> > 680還可以把7970壓在地上打
> >
> >
> 28nm是主因,再者,kepler持續改良兩代的fermi架構
> 架構上更完善,電力效率自然表現更好
這期雜誌講的還蠻詳細的
Shader的部分更證實了我的疑慮 拿掉後核心頻率終於上的來了
若真有GK110 GTX685我想應該就像是460跟465的差距一樣吧
通用運算效能大增 但遊戲效能沒增多少
GPU面積大增 結果超吃電 ╮(╯_╰)╭
> ※ 引述《tandee》的留言:
> > ※ 引述《PCABC》的留言:
> > > 看了這篇之後 我更想了解開普勒的架構了
> > >
> > > 真不知道是怎樣弄得 竟然功耗降著麼多
> > >
> > > 680還可以把7970壓在地上打
> > >
> > >
> > 28nm是主因,再者,kepler持續改良兩代的fermi架構
> > 架構上更完善,電力效率自然表現更好
>
>
>
> 這期雜誌講的還蠻詳細的
>
> Shader的部分更證實了我的疑慮 拿掉後核心頻率終於上的來了
>
> 若真有GK110 GTX685我想應該就像是460跟465的差距一樣吧
>
> 通用運算效能大增 但遊戲效能沒增多少
>
> GPU面積大增 結果超吃電 ╮(╯_╰)╭
>
> 很難講喔,以規格來說,基本上可以把兩家目前的雙核卡王打趴,而且可能跟580差不多耗電而已,跟460和465是完全不一樣的狀況阿,畢竟GK110比GK104較像是GTX580比上GTX460才對(所以我覺得GK110相當有可能是7系列的),不過因為良率問題,所以要等到8月才會出來。
>
兩者拉距肯定在玩遊戲時看不太出來
為求爽度而已
7970輸在兩點
1. 價格還不降?
2. 不CP求爽度時~我若有錢想買只買老大 ~說白點680也不夠看