Intel Arc Battlemage系列顯示卡架構說明，Xe2繪圖架構搭配XeSS 2 AI升頻

Intel發表搭載Xe2繪圖架構的Arc Battlemage系列顯示卡，在效能測試解禁前夕，先讓我們來看看它的架構細節。

第2代Arc登場

Intel在最初發表Arc顯示卡產品線時，就預告第1至4代的產品代號分別為Alchemist（鍊金術師）、Battlemage（戰鬥法師）、Celestial（天界人）、Druid（德魯伊）等充滿奇幻角色風格的名稱，如今也順利走到第2世代，首波將推出Arc B580、Arc B570等2款產品。

延伸閱讀：Intel Arc A750顯示卡效能實測，驅動更新、價格下殺是否值得進場？

Arc Battlemage系列顯示卡（以下簡稱B系列顯示卡）採用Xe2繪圖架構，支援SIMD16資料架構改善運算效率，並透過Xe矩陣延伸單元（Xe Matrix eXtensions，以下簡稱XMX）大幅提升AI運算效能。

Intel在測試說明文件中提到，Xe2的開發目標包括提高資源使用率、改善工作負載分配、無縫的軟硬體交握，以改善整體效率，根據官方提供的數據，能夠提升Xe核心效能最高達70%，並改善50%電力效率。

以Arc B580為例，它具有5組繪圖切片（Render Slice）以及1組媒體引擎，每組切片內部具有4組Xe核心與光線追蹤單元（Ray Tracing Unit，以下簡稱RTU），並有共用的L2快取記憶體。

上述Xe核心為B系列顯示卡的基礎運算單元，它由8組Xe向量引擎（Xe Vector Engine，以下簡稱XVE）構成，透過更寬的SIMD16寬度算術邏輯單元以強化效率與相容性，並搭載256 KB共用L1快取記憶體，以改善資料存取效率。而每組XVE所搭配的XMX能夠提供每週期2048次FP16或4096次INT8運算，並支援TF32、BF16、INT4、INT2等資料類型，在INT8資料類型的AI運算較能較傳統MAC（Multiply–accumulate，乘積累加運算）運算提高16倍之譜。

Xe2架構也整合第2代RTU，每組RTU具有3組遍歷管線（Traversal Pipeline，計算光線路徑）與18組接觸偵測單元（Box Intersection，偵測光線是否與物件接觸），較前代Xe-HPG提升50%，每運算週期能夠進行2次多邊型接觸偵測（Triangle Intersection，偵測光線是否與繪製的多邊型接觸），效能較前代提升100%，而搭載的BVH（Bounding Volume Hierarchies）快取記憶體容量也提升至16KB，為前代的2倍。

此外Xe2架構也支援DXR光線追蹤（DirectX Raytracing）、可變速率著色（Variable Rate Shading）、網格著色器（Mesh Shader）、取樣器回饋（Sampler Feedback）等多項DirectX 12 Ultimate功能，並進行效最佳化，以提供更完整的遊戲功能。

不過需要注意的是，Xe2架構的媒體引擎與Lunar Lake處理器內建的規格並不相同，因此不支援H.266（VVC）之加速，仍可H.264（AVC）、H.265（HEVC）、VP9、AV1 等格式之編解碼加速，以及JPEG、MPEG-2之解碼加速。另一方面雖然Arc B580、Arc B570等2款顯示卡都是採用PCIe x16的插槽，但僅使用PCIe Gen 4x8匯流排。參考其他廠商之中皆產品設計，這也是相當常見的規劃。

▲ Intel發表Xe2架構的Arc Battlemage系列顯示卡，首波將推出Arc B580、Arc B570等2款產品。

▲ 2者分別將於2024年12月13日與2025年1月16日上市，其中只有Arc B580會推出等同公板卡的Intel Limited Edition。

▲ Arc B580採用BMG-G21繪圖處理器，具有5組繪圖切片（Render Slice）以及1組媒體引擎，並搭載18 MB L2快取記憶體。

▲ 媒體引擎內部具有2組多格式轉碼器（Multi-Format Transcoder，MFX），支援H.264、H.265、VP9、AV1 等格式之編解碼加速，以及JPEG、MPEG-2之解碼加速。

▲ 每組切片內部具有4組Xe核心與光線追蹤單元，所有切片使有共用的L2快取記憶體。。

▲ 每組Xe核心則具有8組Xe向量引擎與Xe矩陣延伸單元。

▲ Xe核心的算術邏輯單元原生支援SIMD16寬度，並支援SIMD32寬度，Xe矩陣延伸單元支援TF32、FP16、BF16、INT8、INT4、INT2等資料類型。

▲ 光線追蹤單元的各項單元為前代產品的1.5至2倍。

▲ 第2代Xe核心效能與前代相比最高提升達70%，並改善50%電力效率。。

▲ 細部分析Xe2架構的多項繪圖功能有20%到1150%不等的增益。

▲ Arc B580、Arc B570的規格一覽。雖然表格未列出，但需要注意的是，它們僅使用PCIe Gen 4x8匯流排。

▲ 這2款顯示卡皆以1440p解析度遊戲應用為目標，瞄準普及性日益升高的1440p螢幕。

▲ Arc B580的訂價為美金249元，光柵繪圖（左）與光線追蹤（右）效能表現較價位接近的NVIDIA GeForce RTX 4060、AMD Radeon RX 7600出色。

▲ Arc B580的多款遊戲效能較前代Arc A750平均高出24%。

▲ 與GeForce RTX 4060相比則平均高出10%。

AI功能迎頭趕上

Intel這次也推出XeSS 2（Xe Super Sampling 2）超級採樣功能，除了既有的XeSS Super Resolution畫面升頻之外，也加入XeSS Frame Generation畫格生成以及XeSS Low Latency低延遲等功能。

畫面升頻、畫格生成功能的概念與NVIDIA DLSS、AMD FSR等技術類似，前者會降低遊戲過程3D繪製畫面的解析度，並透過AI運算將其放大後再輸出，藉由降低繪圖負載以提升FPS並降低遊戲延遲，後者則是透過AI方式生成額外畫格，透過「補幀」的方式提升FSP與遊戲視覺流暢度，但對遊戲的延遲並無幫助。

至於XeSS Low Latency則與NVIDIA Flex、AMD Radeon Anti-Lag相近，都是透過改善遊戲API與資源調度的方式，縮短由玩家輸入指令到最終反應到螢幕上的延遲時間。

B系列顯示卡當然也具備執行AI功能的能力，支援PyTorch、ONNX、TensorFlow等框架與OpenVINO、ONNX、Web NN等執行環境，使用者可以自行安裝各種程式與模型，或是透過Intel提供的AI Playground軟體，體驗生成圖像（支援Stable Diffusion 1.5、SDXL等模型）、圖片編輯、聊天機器人等AI功能。

▲ XeSS 2包含畫面升頻、畫格生成、低延遲等功能。

▲ XeSS Super Resolution畫面升頻功能會降低遊戲畫面繪製的解析度，並參考動態向量與歷史畫格等資訊，搭配AI推論放大畫面後再輸出至螢幕。

▲ XeSS Frame Generation畫格生成則是參考動態向量、深度資料（Depth Map）等資訊，搭配AI推論生成全新的額外畫格。

▲ 畫面升頻與畫格生成可以同時使用，帶來與NVIDIA DLSS、AMD FSR等技術相近的遊戲效能提升功能。

▲ 根據Intel提供的數據，XeSS 2能在平衡模式下，將《F1 24》、1440p解析度、Ultra畫質的FPS效能推升至原始的3.2倍，若使用最高效能模式則可達到3.9倍。

▲ 遊戲延遲的部分，則是指玩家輸入指令後送達處理器運算、繪圖佇列，然後進入繪圖處理器繪製畫面，最後顯示於螢幕所經過的時間。

▲ XeSS Low Latency能夠改善這段處理流程並縮短延遲。圖中上半部為一般流程，下半部為XeSS Low Latency流程，主要可以省下繪圖佇列的等待時間。

▲ 上述3項XeSS 2功能可以在Arc A系列與B系列顯示卡 / 顯示晶片以及代號為Lunar Lake的Core Ultra 200V系列處理器使用。Core Ultra 1系列處理器（Meteor Lake）與Core Ultra 200S系列處理器（Arrow Lake-S）則不支援畫格生成。Tiger Lake、Alder Lake、Raptor Lake等第11~14代Core i處理器則只支援升頻功能。