原子力巨獸GF100嘴炮模擬戰

NVIDIA下一代Fermi架構早就是公開的秘密，不過實際效能卻一直是個謎。而CES之後NVIDIA提供媒體一份包含「少數」效能測試與特色的報告，配合之前的Fermi白皮書啃一啃，能稍微讓我們看出這巨獸的一些輪廓。

又見新代號

解說談到規格與性能之前，我們先來看看這所謂的Fermi是什麼？其實Fermi是曾得過諾貝爾物理學獎的已故物理學家Enrico Fermi，他是量子力學和量子場論的創立者之一。NVIDIA使用這個名字，應該也是想沾沾前人的光，看看新架構的GF100能不能帶給他們爆炸性發展。
而GF100是Fermi架構第一款顯示卡的代稱，其中G是指Graphics而F是Fermi，GF100同時也是該系列最高階型號。另外有小道消息指出，未來顯示卡推出時，將會是高、中、低階全系列一起發表。不過筆者猜測中低階市場，可能仍由GT200甚至由更改製程的G92填補。

▲GF100架構相當龐大，L2快取與ECC除錯是最大的特色，另外還有Raster Engine與PolyMorph Engine。

大容量L2快取

從規格上來看，GF100具備512個CUDA核心，每32個構成一個群組，因此共有16個群組。比較重大的改進是讓每個群組擁有64KB共享/快取記憶體，可分配成16KB共享加上48KB的L1快取，或是48KB共享加上16KB的L1快取。另外還首次新增L2快取記憶體，容量還高達768KB，在這之前未曾有過顯示卡具有如此容量的L2快取記憶體。相比之下，GT200只有240個CUDA核心，只有16KB共享記憶體，運算效能與效率方面可望有相當大的突破，一般來說GF100執行大量運算時，估計會比GT200快上4.7倍。

▲快取容量大增是GF100與GT200很大的差異，其中L2更增加到768KB。

▲SM（Streaming Multiprocessors）是運算上的基礎單位，內含32個CUDA核心與1個PolyMorph Engine。

新增2種引擎

GF100共有4組GPC（Graphics Processing Cluster，圖形處理集群），並由4個SM（Streaming Multiprocessors）也就是128個CUDA核心等元件構成。值得注意的是，在GPC中新增Raster Engine與PolyMorph Engine，前者會依序執行Edge Setup、Rasterizer與Z-Cull。而後者PolyMorph Engine則是GF100最重要的關鍵，因為它掌握Vertex Fetch、Tessellation、Viewport Transform、Attribute Setup、Stream Output五個運算。因此也就是說，GF100單顆晶片最多可擁有16個Tessellation運算核心（主要是PolyMorph Engine），如此龐大的運算單元，足以讓顯示卡執行大量運算。另外，Tessellation只應用在物件中獨立的區域（可視為一層額外的材質），與原本的物件並不是直接相關，運算效能上並不會受到牽連，所以理論上同樣遊戲在DirectX 11與DirectX 10模式下，效能差距應該不大。

▲Tessellation是DirectX 11的關鍵，而PolyMorph Engine則是主要的運算單元。

Tessellation是關鍵

DirectX 11時代來臨最大的關鍵就是Tessellation與DirectCompute、Displacement Mapping等技術，Tessellation簡單來說就是在原有的3D物件上，加上更多細節讓立體物件更有立體感與質感，同時Tessellation也會是DirectX 11影像表現更強大的關鍵。不過Tessellation並非新技術，只不過以前都是運用在電影特效居多。
相信大家都有經驗，即使像Crysis這樣的遊戲，在某些部分的立體感依然很差，像是鐵皮屋頂應該有波浪狀皺折，手槍的槍套應該不只是簡單的平面，很多地方都規避掉應該具有的立體感。然而運用DirectX 11後，就能在固有的物件上再貼上一層「材質」，讓物件的質感更好，也更接近人眼所看到的世界。

▲影片中可看出建築細節與龍的皮膚，在開啟Tessellation後有大幅的改變。

▲該軟體分別於兩陣營的顯示卡測試，平均來說GF100約有HD 5870近1.6倍效能。

▲各項Tessellation測試中GF100都有2倍以上效能，不過一般來說要搭配遊戲測試才準確。

開32X CSAA效能只降7%

打開遊戲特效常常會看到反鋸齒選項，而CSAA（Coverage Sample Anti-Aliasing）也是其中一種。CSAA早在G80核心就已經被應用，不過現在GF100的CSAA能夠開到32倍，而且Color samples與Coverage samples可分開處理，在品質與強度上面都有大幅提升。另外附帶一提，上一代GT200只能開16倍。
雖然反鋸齒效果很棒，但是顯卡不夠力，多數人還是寧願啟動「肉眼反鋸齒」，以免效能受到反鋸齒連累。不過就NVIDIA的數據資料來看，GF100開啟8倍傳統反鋸齒與32倍CSAA效能只差7%，不過沒提供開啟前後的差距，還有傳統反鋸齒與32倍CSAA的實際影像差異有點遺憾。

▲反鋸齒提高後衰減的幅度只有7%，不過應該要與未開啟之前做對照比較正確。

▲左圖是GT200開啟16CSAA，右圖則是GF100開啟32CSAA，若放大後可看出右圖細節較高且雜訊減少。

▲至於在自家AA效能方面，約有97%至133%的成長。

PhysX效能強3倍

在遊戲效能方面這次提供的資料著墨並不多，但是有部分特效上的效能差異可供參考。從數據上來看，PhysX Fluid測試PhysX效能可達GT200的3倍，新推出的遊戲Dark Void效能可達2.1倍，而Ray Tracing（光線追蹤）效能更是達到3.5倍，至於在AI的部分則約3.3倍。
其中比較值得期待的是Ray Tracing效能，當初利用GT200展示時，畫面雖然非常逼真，但是流暢度有待加強，然而實地看過GF100的Ray Tracing效果時，相當令筆者驚訝，處理速度與流暢度都大幅提升。

▲PhysX等特效能力大幅提升，平均來說都有2倍以上的成長。

▲這張照片是筆者用相機翻拍GF100的Ray Tracing效果，螢幕上的效果已經跟肉眼所見相近。

巨獸何時醒？

每當AMD推出新晶片前後，NVIDIA都會有意無意地釋出一些GF100的新消息，或許是要稍微搶一下報導版面，讓大家想起來還有這個沉睡中的晶片。說NVIDIA不緊張絕對是騙人的，不過到底何時這沉睡的巨獸才會醒，沒人說的準，大多數人都預估二月初開始大規模量產，今年3月前後會正式發表。
至於售價會落在哪裡？雖然問這個還太早，不過國外有網站取得GF100晶圓切割圖，一片晶圓最多能切出94顆GF100晶片，若按照台積電樂觀的40%良率來計算，單顆GF100晶片成本約在131美元左右，而目前AMD Cypress則約96美元。若要獲得足夠的利潤，預估市場售價會落在599美元，但是考量到對手可能會有些微的調整，最終應該落在Radeon HD 5970與HD 5870之間。

使用 Facebook 留言

1. shift （發表於 2010年1月25日 17:40）

引用回覆

"肉眼反鋸齒" XD!?

2. GeS （發表於 2010年1月25日 17:55）

肉眼反鋸齒大概是指無視鋸齒吧XDD

其實螢幕只要可以調整模糊度
把他調成最模糊也有類似反鋸齒的效果唷!!

3. KK （發表於 2010年1月25日 20:56）

等它等很久終於快要量產了
售價聽說要599美金不便宜有錢人的玩具

4. POWERXP （發表於 2010年1月25日 22:39）

A~~~~~~ 數據都很好看啦

用說的大家都會啦

有東西先出來再說吧

講在多看實品最快啦

5. JOE （發表於 2010年1月26日 00:12）

新玩具出來
要撿跳水貨囉

6. QneB （發表於 2010年2月01日 15:46）

嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲
嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲
嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲
嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲嘴砲
意思就是除了嘴砲還是嘴砲之前AMD的CPU有TLB bug至少官方還有承認但是nvidia
的G84/G86封裝問題 nvidia根本當作沒看到對此事很不諒解而現在呢還是嘴砲
和rename 雖然筆電還是用nvidia GT220M但居然是G96不是GT200 Orz
桌機的GT 220卻是GT200 我真的無話可說了 = =

謹慎發言，尊重彼此。按此展開留言規則