2024.06.19 09:00

Arm Tech Day 2024解析終端產品運算子系統(1):處理器全線進入3nm節點

ADVERTISEMENT

Arm於Tech Day 2024活動中詳細說明Cortex-X925、Cortex-A725、Cortex-A520等處理器以及Immortalis-G925繪圖處理器的硬體架構改進,我們先從處理器部分切入。

超大核、超大躍進

Arm於2024年Computex台北國際電腦展發表了終端產品運算子系統(Compute Subsystem for Client,以下簡稱CSS 24),包含新架構的Cortex-X925、Cortex-A725處理器與Immortalis-G925繪圖處理器,將既有Cortex-A520升級支援3nm節點製程,並推出可以彈性配置多種處理器、繪圖處理器的DSU-120動態分享單元,顯著改善效能與電力效率表現,並提供更大的核心搭配彈性。

Cortex-X925屬於「超大核」的產品線,根據Arm提供的數據,與2023年的旗艦智慧型手機(Premium Android)相比,在Geekbench SC單核心測試有36%的效能提升,而在Phi-3大型語言模型的首組字詞生成時間(Time to First Token)則提升46%。

ADVERTISEMENT

Arm沒有在產品命名時依照慣例,接續2023年推出的Cortex-X4將此代產品命名為Cortex-X5,而是考量到效能的巨幅成長,而將產品命名為Cortex-X925,也正好標齊繪圖處理器「Immortalis-G925」的名字。

Cortex-X925的設計目標在於保持絕佳電力效率的前提下,盡可能提升效能表現,尤其針對AI應用進行效能強化。於是它首先增加了解碼與向量單元的寬度,取得50%的TOPS運算效能增益,並提供最高容量達3MB的L2快取記憶體選擇,降低運算延遲與提高分枝預測準確度。在硬體製造部分,導入支援多間合作夥伴晶片代工服務的3nm製程節點,透過更先進的製程技術提高電力效率,並改善PPA因素(Performance、Power、Area,指晶片的效性能、功耗、面積)。

透過這些改善措施Cortex-X925能在消耗更少電力的情況下輸出與前代產品相同的效能,也可以在提高電力預算的同時提升更多效能增益,在加速App與程式啟動速度、增加AI應用程式響應速度、提升網頁瀏覽與遊戲效能、延長續航力等方面都能帶來正面幫助。

ADVERTISEMENT

根據Arm官方提供的數據,Cortex-X925在多款現實應用的App中能帶來平均30%的效能增益,在整體處理器叢集的AI效能有172%的提升,而對於量化的使用者體驗指標分數也有30%的改善

ADVERTISEMENT

ADVERTISEMENT

A系列也升級

CSS 24也包含新架構Cortex-A725處理器,其設計目標為滿足日益複雜的AI與遊戲運算需求,每個核心最多可以配置1MB L2快取記憶體,所有核心最多可以共享16MB L3快取記憶體,達到提升亂序處理的效率,進而提升整體效能輸出。在製程方面,同樣能支援3nm製程節點,進一步改善PPA因素。

根據Arm提供的數據,Cortex-A725與前代Cortex-A720相比,在效能與電力效率分別有35%、25%的提升,而在L3快取記憶體的流量部份則有20%改善,對於執行大型語言模型的效能有著關鍵幫助。

雖然Cortex-A520處理器的架構並沒有改變,但在CSS 24也將它升級支援3nm製程節點,除了同樣能夠發揮改善PPA因素的效果,帶來15%的電力效率提升。

由於目前Arm尚未推出讓CSS 24支援小晶片(Chiplet)設計,所以將Cortex-A520升級支援3nm的另一大意義,在於能夠讓它與其他CSS 24相關IP被安置於同一晶片。而Arm終端事業部高級產品經理Manish Pandey也在訪談中提到,Arm將持續關注小晶片技術的發展,並認為是高階智慧型手機的前景所在。

DSU-120帶來更多組合彈性

DSU是DynamIQ Shared Unit(動態分享單元)的縮寫,其功能概念可以參考下方影片說明,它打破了傳統處理器核心組合的限制,讓叢集中的處理器核心可以自由配置,各核心也能各自動態調節運作時脈,大幅提高設計彈性與運作時的電力效率。

DSU-120最多可以容納14組處理器核心,開發者可以在設計SoC時依照需求自由選擇配置。CSS 24的升級也為DSU-120帶來更強大的電力管理功能並降低漏電問題,同時能夠減少DSU單元的占用面積並對傳輸通道進行最佳化,降低50%典型工作負載的耗電量,並降低60%快取失誤的耗電量。

DSU-120也導入全新的L3 Quick Nap功能,它讓L3快取記憶體與Arm POP記憶體一樣具有稱為Quick Nap的輕度睡眠功能,可以讓L3快取記憶體的區塊(Slice)在閒置一段時間之後自動進入Quick Nap電力狀態,而存取其他區塊時不需要喚醒Quick Nap中的區塊。

當存取Quick Nap中的區塊時,系統會送出喚醒指令,然而喚醒指令能夠與存取指令同步進行,也就是說關閉與開啟L3快取記憶體區塊的過程不會造成效能虛耗,就可以發揮省電的效果。

▲雖然這是先前較舊DSU的介紹影片,但也能得知DSU的概念與功能。

CSS 24除了能能應用於行動裝置,也很適合用來打造個人電腦、AIPC,但你有注意到為什麼在個人電腦的組合範例中沒有看到繪圖處理器嗎?我們將在下篇文章繼續分析。

ADVERTISEMENT