Intel Arc Battlemage系列顯示卡架構說明,Xe2繪圖架構搭配XeSS 2 AI升頻

Intel Arc Battlemage系列顯示卡架構說明,Xe2繪圖架構搭配XeSS 2 AI升頻

ADVERTISEMENT

Intel發表搭載Xe2繪圖架構的Arc Battlemage系列顯示卡,在效能測試解禁前夕,先讓我們來看看它的架構細節。

第2代Arc登場

Intel在最初發表Arc顯示卡產品線時,就預告第1至4代的產品代號分別為Alchemist(鍊金術師)、Battlemage(戰鬥法師)、Celestial(天界人)、Druid(德魯伊)等充滿奇幻角色風格的名稱,如今也順利走到第2世代,首波將推出Arc B580、Arc B570等2款產品。

延伸閱讀:Intel Arc A750顯示卡效能實測,驅動更新、價格下殺是否值得進場?

Arc Battlemage系列顯示卡(以下簡稱B系列顯示卡)採用Xe2繪圖架構,支援SIMD16資料架構改善運算效率,並透過Xe矩陣延伸單元(Xe Matrix eXtensions,以下簡稱XMX)大幅提升AI運算效能。

Intel在測試說明文件中提到,Xe2的開發目標包括提高資源使用率、改善工作負載分配、無縫的軟硬體交握,以改善整體效率,根據官方提供的數據,能夠提升Xe核心效能最高達70%,並改善50%電力效率。

以Arc B580為例,它具有5組繪圖切片(Render Slice)以及1組媒體引擎,每組切片內部具有4組Xe核心與光線追蹤單元(Ray Tracing Unit,以下簡稱RTU),並有共用的L2快取記憶體。

上述Xe核心為B系列顯示卡的基礎運算單元,它由8組Xe向量引擎(Xe Vector Engine,以下簡稱XVE)構成,透過更寬的SIMD16寬度算術邏輯單元以強化效率與相容性,並搭載256 KB共用L1快取記憶體,以改善資料存取效率。而每組XVE所搭配的XMX能夠提供每週期2048次FP16或4096次INT8運算,並支援TF32、BF16、INT4、INT2等資料類型,在INT8資料類型的AI運算較能較傳統MAC(Multiply–accumulate,乘積累加運算)運算提高16倍之譜。

Xe2架構也整合第2代RTU,每組RTU具有3組遍歷管線(Traversal Pipeline,計算光線路徑)與18組接觸偵測單元(Box Intersection,偵測光線是否與物件接觸),較前代Xe-HPG提升50%,每運算週期能夠進行2次多邊型接觸偵測(Triangle Intersection,偵測光線是否與繪製的多邊型接觸),效能較前代提升100%,而搭載的BVH(Bounding Volume Hierarchies)快取記憶體容量也提升至16KB,為前代的2倍。

此外Xe2架構也支援DXR光線追蹤(DirectX Raytracing)、可變速率著色(Variable Rate Shading)、網格著色器(Mesh Shader)、取樣器回饋(Sampler Feedback)等多項DirectX 12 Ultimate功能,並進行效最佳化,以提供更完整的遊戲功能。

不過需要注意的是,Xe2架構的媒體引擎與Lunar Lake處理器內建的規格並不相同,因此不支援H.266(VVC)之加速,仍可H.264(AVC)、H.265(HEVC)、VP9、AV1 等格式之編解碼加速,以及JPEG、MPEG-2之解碼加速。另一方面雖然Arc B580、Arc B570等2款顯示卡都是採用PCIe x16的插槽,但僅使用PCIe Gen 4x8匯流排。參考其他廠商之中皆產品設計,這也是相當常見的規劃。

Intel發表Xe2架構的Arc Battlemage系列顯示卡,首波將推出Arc B580、Arc B570等2款產品。

2者分別將於2024年12月13日與2025年1月16日上市,其中只有Arc B580會推出等同公板卡的Intel Limited Edition。

Arc B580採用BMG-G21繪圖處理器,具有5組繪圖切片(Render Slice)以及1組媒體引擎,並搭載18 MB L2快取記憶體。

媒體引擎內部具有2組多格式轉碼器(Multi-Format Transcoder,MFX),支援H.264、H.265、VP9、AV1 等格式之編解碼加速,以及JPEG、MPEG-2之解碼加速。

每組切片內部具有4組Xe核心與光線追蹤單元,所有切片使有共用的L2快取記憶體。。

每組Xe核心則具有8組Xe向量引擎與Xe矩陣延伸單元。

Xe核心的算術邏輯單元原生支援SIMD16寬度,並支援SIMD32寬度,Xe矩陣延伸單元支援TF32、FP16、BF16、INT8、INT4、INT2等資料類型。

光線追蹤單元的各項單元為前代產品的1.5至2倍。

第2代Xe核心效能與前代相比最高提升達70%,並改善50%電力效率。。

細部分析Xe2架構的多項繪圖功能有20%到1150%不等的增益。

Arc B580、Arc B570的規格一覽。雖然表格未列出,但需要注意的是,它們僅使用PCIe Gen 4x8匯流排。

這2款顯示卡皆以1440p解析度遊戲應用為目標,瞄準普及性日益升高的1440p螢幕。

Arc B580的訂價為美金249元,光柵繪圖(左)與光線追蹤(右)效能表現較價位接近的NVIDIA GeForce RTX 4060、AMD Radeon RX 7600出色。

Arc B580的多款遊戲效能較前代Arc A750平均高出24%。

與GeForce RTX 4060相比則平均高出10%。

AI功能迎頭趕上

Intel這次也推出XeSS 2(Xe Super Sampling 2)超級採樣功能,除了既有的XeSS Super Resolution畫面升頻之外,也加入XeSS Frame Generation畫格生成以及XeSS Low Latency低延遲等功能。

畫面升頻、畫格生成功能的概念與NVIDIA DLSSAMD FSR等技術類似,前者會降低遊戲過程3D繪製畫面的解析度,並透過AI運算將其放大後再輸出,藉由降低繪圖負載以提升FPS並降低遊戲延遲,後者則是透過AI方式生成額外畫格,透過「補幀」的方式提升FSP與遊戲視覺流暢度,但對遊戲的延遲並無幫助。

至於XeSS Low Latency則與NVIDIA Flex、AMD Radeon Anti-Lag相近,都是透過改善遊戲API與資源調度的方式,縮短由玩家輸入指令到最終反應到螢幕上的延遲時間。

B系列顯示卡當然也具備執行AI功能的能力,支援PyTorch、ONNX、TensorFlow等框架與OpenVINO、ONNX、Web NN等執行環境,使用者可以自行安裝各種程式與模型,或是透過Intel提供的AI Playground軟體,體驗生成圖像(支援Stable Diffusion 1.5SDXL等模型)、圖片編輯、聊天機器人等AI功能。

XeSS 2包含畫面升頻、畫格生成、低延遲等功能。

XeSS Super Resolution畫面升頻功能會降低遊戲畫面繪製的解析度,並參考動態向量與歷史畫格等資訊,搭配AI推論放大畫面後再輸出至螢幕。

XeSS Frame Generation畫格生成則是參考動態向量、深度資料(Depth Map)等資訊,搭配AI推論生成全新的額外畫格。

畫面升頻與畫格生成可以同時使用,帶來與NVIDIA DLSS、AMD FSR等技術相近的遊戲效能提升功能。

根據Intel提供的數據,XeSS 2能在平衡模式下,將《F1 24》、1440p解析度、Ultra畫質的FPS效能推升至原始的3.2倍,若使用最高效能模式則可達到3.9倍。

遊戲延遲的部分,則是指玩家輸入指令後送達處理器運算、繪圖佇列,然後進入繪圖處理器繪製畫面,最後顯示於螢幕所經過的時間。

XeSS Low Latency能夠改善這段處理流程並縮短延遲。圖中上半部為一般流程,下半部為XeSS Low Latency流程,主要可以省下繪圖佇列的等待時間。

上述3項XeSS 2功能可以在Arc A系列與B系列顯示卡 / 顯示晶片以及代號為Lunar Lake的Core Ultra 200V系列處理器使用。Core Ultra 1系列處理器(Meteor Lake)與Core Ultra 200S系列處理器(Arrow Lake-S)則不支援畫格生成。Tiger Lake、Alder Lake、Raptor Lake等第11~14代Core i處理器則只支援升頻功能。

Intel也提供完整的AI方案,能夠支援PyTorch、ONNX、TensorFlow等框架與OpenVINO、ONNX、Web NN等執行環境,並透過B系列顯示卡運算。

Intel提供的AI Playground軟體能夠讓使用者輕鬆使用生成圖像、圖片編輯、聊天機器人等AI功能。

根據Intel提供的數據,Arc B580在多項大型語言模型的每秒輸出字詞(Token)數量表現優於NVIDIA GeForce RTX 4060。

筆者也將製作Arc B580的測試專題,預計於2024年12月12日晚間10點新聞解禁時刊登。

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則