處理器運算效能知多少?Intel 再次強調真實世界應用重要性!

處理器運算效能知多少?Intel 再次強調真實世界應用重要性!

ADVERTISEMENT

Intel 昨日在台同步舉辦第十代 Core 系列處理器代號 Comet Lake 發表會,會後更聚集技術型媒體針對桌上型與行動版處理器效能進行交流,除了能夠先行一窺 Ice Lake 內建顯示繪圖、深度學習指令集加速效果,亦針對碩果僅存 2 家主要 x86 處理器廠商效能測試方式提出解方。

代號 Ice Lake 的第十代 Core 系列行動版處理器,採用 Intel 第二代 10 奈米製程,相對使用於第一代 Cannon Lake Core i3-8121U,本次 Ice Lake 才算是首批大量出貨 10 奈米產品。Ice Lake 在微架構、指令集、內建顯示繪圖、I/O 等也跨出一大步,Sunny Cove 微架構對比使用已久的 Skylake 進步不少,Gen11 更依賴眾多 EU 達成 Gen9 1.7 倍~1.8 倍效能。

內建顯示繪圖效能部分,Intel 將 Ice Lake U cTDP 調整至 25W,以便和 TDP 25W AMD Ryzen 7 3700U 進行比較。藉由 Total War: THREE KINGDOMS「全軍破敵:三國」遊戲實測,在相同設定之下,Ryzen 7 3700U 表現僅為 18.5FPS,而 Ice Lake U cTDP 25W 則有 32.2FPS,因此玩家確實能夠期待 Gen11 所帶來的效能增長幅度,也別忘了 Gen11 還支援 Variable Rate Shading,降低畫面當中不重要物件的 shading rate。

▲ 使用 Total War: THREE KINGDOMS「全軍破敵:三國」遊戲實測,Ice Lake U cTDP 25W 畫面張數甚至能夠勝過 Ryzen 7 3700U。

▲ Ice Lake U 內建 Gen11 顯示繪圖處理器支援 Variable Rate Shading,開啟此功能之後,3DMark VRS feature test 畫面張數提升約 40.7%。

另一方面,Ice Lake 所增加的 AVX-512 系列指令集,市場行銷名詞 DL Boost 能夠強化深度學習方面的運算效能,Intel 於會場展示 AIXPRT Image Classification 應用,使用電腦辨識照片當中的生物。Ice Lake U 每秒能夠辨識約 164.48 張圖片,Ryzen 7 3700U 每秒約辨識 26.15 張,差距不小。

▲ 深度學習應用,Ice Lake U 於 AIXPRT Image Classification 展示程式效能約為 Ryzen 7 3700U 的 6.3 倍。

▲ 電池續航力不用多說,一向都是 Intel 的強項。

針對競爭對手第三代 Ryzen 桌上型處理器利用 Cinebench R20 展示 IPC 效能一事,Intel 表示 Cinema 4D 多用於大型專案渲染工作,例如商業廣告或是電影等,一般消費者日常並不太容易接觸到此軟體。依筆者看法,Cinebench R20 能夠反映第三代 Ryzen 桌上型處理器部分優秀面向,例如 AVX2 浮點運算效能、大型快取帶來的優勢,但玩家應該也要同時參考其它不同類型測試。

如同我們的處理器評測項目多元,於截稿或是 NDA 時限之前,筆者均會盡量多提供一些效能數據,並依據雙方微架構的不同,分析各種應用的優缺點。加上 x86 微架構演化至今,AMD 與 Intel 雙方在設計時各有取捨,例如 Intel 設計並同時製造晶圓晶片,因此設計和製造雙方相輔相成,至今仍多使用單一晶粒設計;AMD 則因交由 GlobalFoundries 或是 TSMC 代工,因此選擇較有效率的多晶片封裝方式。

Intel 所提出來的多晶片組裝劣勢之一,即為 Infinity Fabric 資料存取、傳遞延遲。依據 Intel 內部測試,第三代 Ryzen 桌上型處理器單一 CCX 內部核心相互存取的延遲約為 33ns(約略值,依據運作頻率不同略有增減),不同 CCX 之間則約為 78ns,CCX 和系統記憶體之間約為 75ns。Intel 目前主流市場均使用 ring 匯流排架構串聯處理器內部核心、LLC、GPU、SA 等區塊,因此相互存取延遲均為 44ns,對外存取系統記憶體則是約 62ns。

▲ 由於 AMD 和 Intel 雙方處理器內部互連架構的不同,AMD 存取延遲比較高。

AMD 並非不知道 Infinity Fabric 互連延遲相對 Intel ring 匯流排略高的缺點,因此每個 CCD 晶粒均有大型 L3 快取,行銷名詞 Game Cache 用於填補存取延遲對效能的影響。當應用模式不利於預測模型導致 cache miss,或是資料組 data set 過大放不進 L3 快取時,AMD 較高的存取延遲就會對效能產生影響。

▲ cache miss 機率過高,因而考驗處理器對外存取系統記憶體的效率,Intel 以 Core i7-9700K 和 Ryzen 9 3900X 執行流體模擬示範。

▲ 左方為 Ryzen 9 3900X 執行成績,需要 17 分 49 秒,右方為 Core i7-9700K 執行成績,僅需 15 分 24 秒。

綜上所述,AMD 和 Intel 雙方 x86 微架構不同,各自考量與取捨的先後順序更是大異其趣,因此雙方效能並非單方壓制另外一方,而是根據使用者的實際使用情境出現變化,過去習慣參考單一 CPUMark 99 分數選擇產品早已不適用,玩家應以自身使用情境,如遊戲導向、生產力工作導向、渲染繪圖導向、多工綜合應用......等,再參考我們以及各大信譽良好媒體所製作的評測,選擇對自己最佳的產品。

▲ 以 Intel 觀點而言,Core i9-9900Ki7-9700K 和 Ryzen 9 3900X 相互比較,雖然在 Cinebench R20 多執行緒不敵對手,但在其它多種實際應用仍有領先優勢。

R.F.
作者

誤入叢林的小白兔,每天爬樓梯到七樓的白癡,幻想自己很瘦的豬,一放假就睡死的bed potato。

使用 Facebook 留言
訪客
2.  訪客 (發表於 2019年8月27日 19:39)
因此每個「CCD」晶粒均有大型 L3 快取    CCD > CCX(?)
發表回應
謹慎發言,尊重彼此。按此展開留言規則