Arm更新Neoverse產品路線圖,推出Neoverse CSS N3、V3等全新第3代Neoverse IP

Arm更新Neoverse產品路線圖,推出Neoverse CSS N3、V3等全新第3代Neoverse IP

ADVERTISEMENT

Arm發表Neoverse CSS N3、Neoverse CSS V3等全新處理器IP,協助合作夥伴打造Arm架構的AI基礎設施。

CSS簡化小晶片設計流程

Arm發表以全新第3代Neoverse處理器IP為基礎建構而成的Neoverse CSS(Compute Subsystem,運算子系統),提供由Arm負責配置、最佳化並驗證完整的運算子系統,讓合作夥伴能專注於系統層級和特定工作負載的差異化,提供加快產品上市時程、降低工程成本、使用尖端處理器技術等額外效益,使設計小晶片(Chiplet)更加簡單。

小至感測器、大至資料中心,全世界都在積極導入AI技術,不論應用在教育、就業、製造、健康照護或交通運輸等領域運行AI技術,都能看到Arm架構的蹤影。有鑑於市面上的通用處理器已無法因應基礎設施的需求。AWS、Microsoft及NVIDIA等廠商都已自行設計和最佳化晶片、軟體及系統等完整的軟硬體堆疊,以滿足嚴苛的全新工作負載,達到效能、效率及總持有成本(TCO)效益的要求。

Neoverse CSS的設計宗旨即是讓最重要的工作負載達到最佳的總持有成本效益,並為小晶片等關鍵新技術提供支援,是經過最佳化、整合與驗證的平台,集結了組成系統單晶片(SoC)核心的各項關鍵技術,為注重差異化、系統單晶片最佳化以及加速上市時程的合作夥伴打造完美起點。

Arm已與多位合作夥伴共同設計多款處理器,證明Arm架構IP能夠滿足AI時代的處理器、加速器等應用需求。

Arm這次發表的產品包括Neoverse CSS N3、Neoverse CSS V3等全新處理器IP。

資料庫、Java、網頁伺服器、AI推論、AI訓練等應用情境的效能需求差異極大,特化設計的運算單元有助於滿足各項需求並降低總持有成本。

Arm提供獨特的軟、硬體協同設計循環,能夠加速產品生產、上市的時程。

Neoverse CSS系列IP能大幅縮短開發時間,讓晶片最快能在9個月下線(Tape Out)開始生產,並節省80人年的工程師人力工時。

Neoverse CSS系列IP支援DDR5、LPDDR5、HBM等記憶體,以及UCIe或自有實體層(PHY)等互連技術,也能夠支援BF16、INT8的資料類型,相當適合搭配加速器設計特化AI運算單元。

採用模組化的小晶片設計能夠降低成本、提高異質運算效能,並有利於彈性使用現有IP,但是相對也有通訊實體層相容性、通訊協定相容性,以及DMA、中斷、電源管理、資安等區塊管理等挑戰。

Arm也透過全面設計(Total Design)生態系夥伴的意見回饋,打造新近發表的小晶片系統架構(CSA,Chiplet System Architecture),協助定義強健及可互換的小晶片生態系。

第3代Neoverse登場

Arm這次推出的全新Neoverse N3和V3系列皆為帶來重大創新,前者透過新平台和運算子系統擴展N系列產品路線圖,將電力效率提升到更高境界,後者則是具有最高單執行緒效能的Neoverse核心,並首次推出運算子系統。此外E系列也持續向前推進,採用較新的處理器以及Neoverse S3系統IP。

Neoverse CSS N3具有效能與電力效率的領先優勢,建立在最新的Neoverse N3 IP平台並導入Arm v9.2的功能,每個核心具有專用的2MB L2快取記憶體,透過微架構改進直接對效能帶來正面提升,其電力效率較前代Neoverse CSS N2提升20%,是首款提供TDP(熱設計功耗)最低達 40瓦的32核心產品,支援最新的 PCIe與CXL I/O標準,也支援UCIe小晶片互連標準具有高度擴充性,適用於電信、網路、資料處理器等多種應用。

Neoverse CSS V3為高效能V系列產品組合的首款Neoverse CSS產品,架構在Arm歷來單執行緒效能最高的全新Neoverse V3核心上,最高可達128核心配置,並支援最新的高速記憶體與I/O標準,能夠滿足更高效能需求。與Neoverse CSS N2 相比,每插槽的效能提升超過50%。

Arm也特別強調在Neoverse平台進行生成式AI運算的優勢,Arm架構處理器已被廣泛使用,並可針對機器學習(ML)或相關工作負載進行彈性利用,能夠支援多種軟體框架,以及Bfloat16、Matmul、SVE / SVE2等機器學習特化的Neoverse功能,並具備成本與能源效率優勢。

例如NVIDIA Grace-Hopper Superchip架構在 Neoverse V2 平台上,採用處理器搭配加速器的配置,以及可以共享的記憶體,對於大型參數的LLM(Large Langue Model,大型語言模型)和擷取增強生成(RAG)等應用都很有幫助。

Neoverse CSS N3每個核心的電力效率最高較前代Neoverse CSS N2提升20%。

Neoverse CSS N3支援8~32核心配置,在32核心實最低TDP可達40W,適合電信、資料處理器(DPU)、網路、雲端等應用。

Neoverse CSS V3與Neoverse CSS N2 相比,每插槽的效能提升超過50%。

Neoverse CSS V3最高支援128核心配置,適合雲端、高效能運算(HPC)、AI與機器學習等應用。

比較現已上市的處理器,Neoverse V2在SQL資料庫、JAVA、XGBoost AI預測等使用情境中,單一晶片的效能表現優於Intel第3代Xeon可擴充處理器與AMD第4代EPIC處理器。

而Neoverse V3 / N3與前代Neoverse V2 / N2比較,在各項效能表現都有顯著提升,AI資料分析項目的增益更是高達84%、196%。

Arm以XGBoost AI預測為例說明機器學習的實際工作負載。

透過提高分枝預測準確性、增加L2快取記憶體容量、藉由AMBA CHI連接最後階快取記憶體 / 一般記憶體等手段,最高能夠提升196% Neoverse N3的XGBoost AI預測效能。

比較現已上市的處理器,Neoverse V2在LlaMA 2大型語言模型的運作效能較Neoverse V1提高23%。

Arm也公布了下代Neoverse V / N / E系列處理器與對應的CSS之開發代號。

Neoverse生態系提供強固的支援服務、標準化與加速導入等優勢,能夠有效縮短產品上市時程。

Arm資深副總裁暨基礎設施事業部總經理 Mohamed Awad 表示:「業界的領先企業選擇 Arm Neoverse 做為他們實現世界人工智慧願景的基礎,我們感到相當自豪。這不但證明了我們的技術領導地位,也展現我們協助合作夥伴自由創新,以及生態系的強大實力。Arm 在業界相當獨特,因為我們能透過其他業者無法比擬的方式,將技術、彈性及夥伴關係結合在一起。」

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則