Arm Tech Day 2024解析終端產品運算子系統(2):繪圖處理器強化遊戲與AI體驗

Arm Tech Day 2024解析終端產品運算子系統(2):繪圖處理器強化遊戲與AI體驗

ADVERTISEMENT

Arm最新Immortalis-G925繪圖處理器不但具有強大的繪圖與光線追蹤效能,有助於強化遊戲體驗,也能在AI運算領域發揮所長。

在行動裝置提供主機級遊戲體驗

Arm隨著2024年發表的終端產品運算子系統(Compute Subsystem for Client,以下簡稱CSS 24)推出Immortalis-G925繪圖處理器,強化3D繪圖、AI運算的效能以滿足現今行動裝置日益覆雜的運算需求。

根據Arm的調查,在行動裝置實際使用情境與體驗的相互關係中,遊戲與AI、ML(Machine Learning,機器學習)占了相當大的比重,而針對遊戲所進行的分析,發現如《原神》與《要塞英雄》等遊戲3D繪圖的多邊型複雜度大約呈現9%與11%的年均成長,而材質貼圖的複雜度年均成長則高達27%與43%,也將有更多遊戲會導入光線追蹤繪圖技術,有助於帶來更系膩的遊戲畫面,但也提高了繪圖處理器的效能需求。

Immortalis-G925除了在硬體架構有所改進之外,也提供最多24核心的「怪獸級」配置選擇,能夠滿足更寬廣同定位相異產品的設計需求。

根據Arm提供的數據,14核心的Immortalis-G925與12核心的前代Immortalis-G720相比,能帶來高達37%與36%的繪圖與AI效能提升,光線追蹤效能則有高達52%的成長,並在主流遊戲節省30%電力消耗。

Arm China市場總監王剛針對CSS 24中的繪圖處理器進行介紹。

Arm引束data.ai的資料,分析2023年63%的App Store收益來自遊戲,並預測未來將有10%的App具有AI或ML功能。

根據Arm的調查,《原神》與《要塞英雄》等遊戲3D繪圖的多邊型複雜度大約呈現9%與11%的年均成長,而材質貼圖的複雜度年均成長則高達27%與43%,也將有更多遊戲會導入光線追蹤繪圖技術。

Immortalis-G925的核心數量可由10~24組之間進行配置,能夠滿足更寬廣同定位相異產品的設計需求。。

14核心的Immortalis-G925與12核心的前代Immortalis-G720相比,能帶來高達37%與36%的繪圖與AI效能提升,光線追蹤效能則有高達52%的成長,並在主流遊戲節省30%電力消耗。

上述的比較組合也能在《決勝時刻:Mobile》、《暗黑破壞神 永生不朽》、《要塞英雄》、《The Day After Tomorrow》等手機遊戲存在29~72%的效能差距。

14核心的Immortalis-G925在多項FP16資料類型的ML推論運算效能較12核心的Immortalis-G720高出29~50%。

在與Unity的合作中,透過Unity Sentis ML運算框架支援INT8資料類型,能為14核心的Immortalis-G925帶來最高44%的ML推論效能提升,在MiDaS深度預測則有32%效能增益。

在光線追蹤繪圖部分,開發者也可以在維持精確度與降低精確度並換取效能之間進行調整,最多可以取得52%效能並降低57%記憶體存取流量。

軟硬體架構改進推升效能

Immortalis-G925導入片段預處理(Fragment Prepass)技術,以先前類似的技術為基礎並加以改進,可以在3D繪圖過程先進行1次頂點預渲染,並在此階段進行Early Z運算,確認畫面上各物件的「深度」(與攝影機的距離)與彼此遮擋狀態,然後剔除被遮擋以及不會顯示在畫面上的物件,再進行頂點最終渲染、貼圖渲染等後續步驟。此改進版本具有更理想的剔除效果,且具備無限量的剔除窗口(Unlimited Culling Window),並且可搭配Late Z運算確保透明或鏤空物件後方的其他物件不會被剔除。

雖然片段預處理技術需要進行2次頂點渲染,但仍可在剔除不需要繪製的物件之後,降低整體繪圖運算量,達到提升遊戲效能與降低整體功耗的效果。

Immortalis-G925導入Tiler Throughout技術,能夠在將2組多邊型共用邊「融合」成1組,並同時送進Tiler Pipeline(圖塊管線)繪製以減輕幾何運算的負擔,此外Immortalis-G925也增加CSF(Command Stream Frontend,指令流前端)硬體介面,讓更多原本透過模擬的CSF指令能以原生方式執行,以提升整體效能。

在其他改善部分方面,Immortalis-G 925將原本記憶體分頁(Page)大小由4KB提高到2MB,以降低存取大量資料時的分頁表操作負荷,此外其ZS單元也獲得改進,有助於強化VRS(Variable Rate Shading,可變速率渲染)以提升遊戲的FPS效能表現。

在執行單元中的FMA(Arithmetic Fused Multiply Accumulate Unit,融合乘法累積運算單元)、CVT(Arithmetic Convert Unit,算數轉換單元)、SFU(Arithmetic Special Functions Unit,算數特殊功能單元。上述單元詳情請參考官方文件)也都有所改進,尤其將CVT數量加倍,讓FMA與CVT的數量比值由原本2:1提升到1:1,以提升複雜渲染運算與INT8資料類型ML運算的效能。

最後值得注意的是,筆者在前篇文章討論DSU-120的部分提到在筆記型電腦的配置範例並沒有納入繪圖處理器,其主要原因為Immortalis-G925並不支援DirectX繪圖API,因此在Arm也保留了搭配第三方繪圖處理器的彈性,例如應用於Windows on Arm筆記型電腦的Qualcomm Snapdragon X Elite SoC之中的Adreno X1繪圖處理器即為例子。

片段預處理技術能夠畫面上各物件的「深度」與彼此遮擋狀態,然後剔除被遮擋以及不會顯示在畫面上的物件,達到提升遊戲效能與降低整體功耗的效果。

片段預處理的工作流程為先繪製幾何頂點資訊,進行深度與遮擋的判定,在剔除被遮擋以及不會顯示在畫面上的物件之後,再次繪製可見的物件。

改進版本具有更理想的剔除效果,且具備無限量的剔除窗口(Unlimited Culling Window),並且可搭配Late Z運算確保透明或鏤空物件後方的其他物件不會被剔除。

Tiler Throughout技術,能夠在將2組多邊型共用邊「融合」成1組,並同時送進Tiler Pipeline(圖塊管線)繪製以減輕幾何運算的負擔。

Immortalis-G925將CVT數量加倍,讓FMA與CVT的數量比值由原本2:1提升到1:1,以提升複雜渲染運算與INT8資料類型ML運算的效能。。

Immortalis-G925提供10~24核心的配置選擇,適合應用於旗艦級智慧型手機,Mail-G725與Mail-G625則分別適合主流智慧型手機與穿戴裝置。

我們在前文中提到的DSU-120配置範例在筆記型電腦反而沒有納入繪圖處理器是怎麼回事呢?

其主要原因為Immortalis-G925並不支援DirectX繪圖API,因此在Arm也保留了搭配第三方繪圖處理器的彈性。

如果讀者記憶力夠好的話,或許還會記得筆者在《NVIDIA於GTC宣佈將RTX技術推廣至Arm處理器平台,支援光線追蹤與DLSS》一文中介紹NVIDIA曾在2021年的遊戲開發者大會(Game Developers Conference,GDC)宣布將RTX SDK推廣至Arm處理器平台,並使用Arm架構的MediaTek(聯發科)Kompanio 1200處理器搭配GeForce RTX 3060顯示晶片執行《德軍總部:血氣方剛》與《The Bistro》等支援光線追蹤技術遊戲。

雖然那個專案之後胎死腹中,對應的產品也不聞聲響,而NVIDIA在2023年Computex台北國際電腦展宣布將與MediaTek合作,推出具有RTX顯示核心的Dimensity Auto車用SoC。未來這項合作有沒有機會推廣到筆記型電腦所用的SoC,讓Windows on Arm筆記型電腦搭載Arm架構處理器與NVIDIA繪圖處理器,相當值得期待。

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則