效能實測，洋垃圾跑得贏最新家用處理器嗎？洋垃圾戰記（5） - 第 2 頁 | T客邦

ADVERTISEMENT

歲月不饒人，效能擂台不吃香

整體而言，Xeon E5-2650 v2無論在時脈、IPC（Instructions per cycle，每周期指令）、指令集相容性（僅支援AVX而不支援AVX2）都落後於這次參賽的其他處理器，可以預期在單核效能將敬陪末座。

不過這台洋垃圾透過雙路處理器的方式，拼湊出16個實體核心，則是參賽選手中最高的規格，所以多核心效能表現是否能逆轉勝，才是這場比賽的重點。

在測試項目的挑選上，筆者將專注於處理器的部分，而略過與顯示效能有關的測試，其原因除了可以預期洋垃圾的顯示效能真的跟垃圾一樣之外，在實際操作過程中它甚至無法執行Cinebench R15的OpenGL測試。話說回來看其他對手霸凌僅搭載32MB顯示記憶體的Matrox G200eh顯示卡，好像也沒什麼意義。

效能擂台的精彩賽況，就請各位看倌拖板凳、拿雞排，慢慢觀賞下列的圖表與賽評。

▲ Matrox G200eh顯示卡連Cinebench R15的OpenGL測試都無法正常執行，大家就饒過它吧。

▲ 在熱身賽部分，先拿舊版Cinebench R15小試一下2路Xeon E5-2650 v2與Xeon E3-1231 v3，可以看到彼此因架構與時脈差距，造成Xeon E3-1231 v3單核心效能領先65.91%，而多核心部分則由具有4倍實體核心數量的2路Xeon E5-2650 v2領先186.47%，打不贏就用圍毆的就對啦！

▲ Cinebench R23有趣的部分是能直接與Arm架構的Apple M1進行效能比較。參考Anandtech測試結果， M1的單核心效能為1522分，遠高於這2顆x86老將，4大+4小核心的效能為7833分，16個實體核心的2路Xeon E5-2650 v2一樣透過圍毆的方式獲勝。（謎之音：有種來比一下電力效率或裸晶面積效率啊，這是核動力航空母艦戰鬥群 V.S. 舢舨的戰爭啊XD）

▲透過實際操作錄影可以看到其實2路Xeon E5-2650 v2的實力並沒有完全發揮出來，在第2顆處理器的執行緒占用率只有50%左右，導致多核心效能無法完全發揮。

▲ 回到正歸賽場，2路Xeon E5-2650 v2以16核32緒的陣仗差不多能與6核12緒的Ryzen 5 5600X打成平手，可以看到這7年來x86處理器效能還是有長足進步。

▲ POV-Ray光線追蹤效能測試的趨勢與前者相同，也能看到在單核心的成績部分，Ryzen 5 5600X的表現大約是Xeon E5-2650 v2的3倍。

▲ 2路Xeon E5-2650 v2在X264與X265轉檔測試中吃足了虧，表現甚至沒有超過Xeon E3-1231 v3的1倍。

▲ 細查其原因，可以發現測試工具並無對2路處理器最佳化，因此只能用到1組NUMA節點（後詳），造成只使用其中1個處理器而導致效能低落。

▲ SiSoftware Sandra多媒體處理器測試包含多種字串、整數、長整數、i128以及半精度、單精度、雙精度、四精度、浮點數等資料型態的運算，能夠反映處理器的多媒體效能，2路Xeon E5-2650 v2大約緊能追平Zen 2架構的Ryzen R5 3600X。

▲ 在SiSoftware Sandra CPU測試最多支援320個處理器核心，因此2路Xeon E5-2650 v2能發揮所長，加密解密性能測試表現甚至優於Core i9-10900K。

▲ 財務分析測試會透過浮點、雙精度、四精度等數學模型衡量處理器效能。2路Xeon E5-2650 v2稍微超越Ryzen 5 5600X。

▲ 科學分析測試會執行許多常見的科學相關演算法，或許是透過指令集加速的空間比較小，所以2路Xeon E5-2650 v2有機會亂拳打死老師傅，在這個項目拔得頭籌。

▲ 影響處理測試則會使用卷積模糊/銳化、邊緣檢測、降噪、油畫/擴散/大理石紋特效等負載衡量效能，最新的Core i9-10900K或是Ryzen 5 5600X、Ryzen 9 5900X都能輕鬆取勝。

▲ 多內核效率是考驗處理器核心之間資料傳輸的效能，成績深受共享L2、L3等快取記得憶體影響。2路Xeon E5-2650 v2透過20MB+20MB L3快取記得憶體取得不少優勢。

▲ 整體處理器得分為各測試的幾何平均數，沒想到2路Xeon E5-2650 v2居然能追平Core i9-10900K與Ryzen 5 5600X，雖然沒有什麼實際參考價值，但也只能說「老歸老，拿來跑分還真有效」（感冒藥廣告詞聲調!?）。

▲ 最後看看記憶體頻寬，2路Xeon E5-2650 v2透過SiSoftware Sandra Memory測試量測的頻寬為52.25GB/s，已經超越4通道DDR3-1066的理論值（8533MB/s x 4 = 33.33GB/s），推測是測試軟體同時向2組NUMA節點傳送資料，所以吞吐量為2組4通道記憶體的總合。補充說明一下，Core i9-10900K測試平台使用雙通道DDR4-2400記憶體配置，但因不明原因效能表現甚至比Xeon E3-1231 v3的雙通道DDR3-1600差，推測應該是測試軟體之誤差。而其餘4組Ryzen測試平台都是使用雙通道DDR4-4000配置。

▲ 不過在記憶體延遲的測試方面，2路Xeon E5-2650 v2的表現就不是那麼好了。

▲ 筆者再透過AIDA64驗證2路Xeon E5-2650 v2的記憶體頻寬得到差不多的數據。假設測得的數據為2組4通道記憶體吞吐量的總合，那將成績除以2之後，也有將近30.09~32.23GB/s的頻寬表現，有正常發揮4通道的優勢。AIDA64測得的記憶體延遲則為87ns。

▲ 爬文之後發現我的推測果然沒錯，AIDA64開發者在官方論壇中說明，多路處理器確實會讓測試成績倍增，所以2路處理器搭配4通道記憶體，能夠發揮等效8通道的成績，但這成績並無法真實反映實際運作中的記憶體頻寬。

補充資料：NUMA（Non-Uniform Memory Access，非統一記憶體存取架構）節點
簡單地說，NUMA節點就是把SMP（Symmetric Multiprocessing，對稱多處理）的單元細切，每個節點有獨立的記憶體子系統。以本文的洋垃圾為例，單一處理器與其週邊的4組記憶體通道構成1個NUMA節點，而整台伺服器共有2個NUMA節點。
若系統存取的資料為於同一NUMA節點，那麼會因為節點中只有4通道記憶體，而不會有等效8通道的效能。
若存取的資料位於多個不同NUMA，則需要透過QPI等匯流排進行跨處理器資料傳輸，因此還要考慮傳輸耗損與QPI瓶頸，而不會是單純疊加，也無法發揮等效8通道的效能，因此上述記憶體測試成績只能說是「看爽的」，而無法真實反映實際運作情況。

做個簡單的總結，隨著IPC效能與時脈的提升，當代處理器單一核心的效能大約能達到Xeon E5-2650 v2的3倍，因此6核心的處理器就能超越2路Xeon E5-2650 v2共有16核心的表現，若考慮Ryzen R5 5600X的預設TDP只有65W，2路Xeon E5-2650 v2的總合高達190W，當代處理器電力效率也是大幅領先，可真是歲月不饒人，當年叱吒風雲的洋垃圾也要變成貨真價實的垃圾了。

而另一個有趣的題外話，則是可以從這個測試結果看出Intel祖傳工藝的進化，2013年推出的Xeon E5-2650 v2採用22nm節點製程，隨著Intel於2015年的Broadwell微架構進入14nm節點製程後，到2020年推出的Core i9-10900K都是採用「同款但不同師父」的14nm節點製程，隨著設計與電晶體結構的改善，仍能讓Core i9-10900K的單核心效能達到洋垃圾的3倍左右，可見不斷最佳化的祖傳工藝還是有所進步。不過認真地說，Intel在製程工藝上還是有所長進，雖有提升電晶體密度但沒有改變命名方式，所以有點吃了悶虧，詳細解說可以參考筆者先前撰寫的《半導體製程怎麼命名比較好？Intel：遵照摩爾定律走就對了》一文。

在看完了可能具有一點娛樂性，但沒有什麼實質功用的效能測試後，可以發現洋垃圾雖然有著核心數的優勢，但在整體效能表現上並不吃香，於是筆者最後想到可以「揮霍」多核心數的使用情境……拿來跑Android模擬器。

繼續閱讀 – 退役伺服器處理器改造的家用主機，跑得動幾個Android模擬器？洋垃圾戰記（6）

回到全文目錄

上一頁 1 2 下一頁

#電腦王 #xeon #教學 #處理器 #伺服器 #洋垃圾戰記 #過年專題 #2020過年專題

使用 Facebook 留言

謹慎發言，尊重彼此。按此展開留言規則