Arm更新Neoverse產品路線圖，推出Neoverse CSS N3、V3等全新第3代Neoverse IP

Arm發表Neoverse CSS N3、Neoverse CSS V3等全新處理器IP，協助合作夥伴打造Arm架構的AI基礎設施。

CSS簡化小晶片設計流程

Arm發表以全新第3代Neoverse處理器IP為基礎建構而成的Neoverse CSS（Compute Subsystem，運算子系統），提供由Arm負責配置、最佳化並驗證完整的運算子系統，讓合作夥伴能專注於系統層級和特定工作負載的差異化，提供加快產品上市時程、降低工程成本、使用尖端處理器技術等額外效益，使設計小晶片（Chiplet）更加簡單。

延伸閱讀：Arm發表Neoverse V2處理器，伺服器效能再強化

小至感測器、大至資料中心，全世界都在積極導入AI技術，不論應用在教育、就業、製造、健康照護或交通運輸等領域運行AI技術，都能看到Arm架構的蹤影。有鑑於市面上的通用處理器已無法因應基礎設施的需求。AWS、Microsoft及NVIDIA等廠商都已自行設計和最佳化晶片、軟體及系統等完整的軟硬體堆疊，以滿足嚴苛的全新工作負載，達到效能、效率及總持有成本（TCO）效益的要求。

Neoverse CSS的設計宗旨即是讓最重要的工作負載達到最佳的總持有成本效益，並為小晶片等關鍵新技術提供支援，是經過最佳化、整合與驗證的平台，集結了組成系統單晶片（SoC）核心的各項關鍵技術，為注重差異化、系統單晶片最佳化以及加速上市時程的合作夥伴打造完美起點。

▲ Arm已與多位合作夥伴共同設計多款處理器，證明Arm架構IP能夠滿足AI時代的處理器、加速器等應用需求。

▲ Arm這次發表的產品包括Neoverse CSS N3、Neoverse CSS V3等全新處理器IP。

▲ 資料庫、Java、網頁伺服器、AI推論、AI訓練等應用情境的效能需求差異極大，特化設計的運算單元有助於滿足各項需求並降低總持有成本。

▲ Arm提供獨特的軟、硬體協同設計循環，能夠加速產品生產、上市的時程。

▲ Neoverse CSS系列IP能大幅縮短開發時間，讓晶片最快能在9個月下線（Tape Out）開始生產，並節省80人年的工程師人力工時。

▲ Neoverse CSS系列IP支援DDR5、LPDDR5、HBM等記憶體，以及UCIe或自有實體層（PHY）等互連技術，也能夠支援BF16、INT8的資料類型，相當適合搭配加速器設計特化AI運算單元。

▲ 採用模組化的小晶片設計能夠降低成本、提高異質運算效能，並有利於彈性使用現有IP，但是相對也有通訊實體層相容性、通訊協定相容性，以及DMA、中斷、電源管理、資安等區塊管理等挑戰。

▲ Arm也透過全面設計（Total Design）生態系夥伴的意見回饋，打造新近發表的小晶片系統架構（CSA，Chiplet System Architecture），協助定義強健及可互換的小晶片生態系。

第3代Neoverse登場

Arm這次推出的全新Neoverse N3和V3系列皆為帶來重大創新，前者透過新平台和運算子系統擴展N系列產品路線圖，將電力效率提升到更高境界，後者則是具有最高單執行緒效能的Neoverse核心，並首次推出運算子系統。此外E系列也持續向前推進，採用較新的處理器以及Neoverse S3系統IP。

Neoverse CSS N3具有效能與電力效率的領先優勢，建立在最新的Neoverse N3 IP平台並導入Arm v9.2的功能，每個核心具有專用的2MB L2快取記憶體，透過微架構改進直接對效能帶來正面提升，其電力效率較前代Neoverse CSS N2提升20%，是首款提供TDP（熱設計功耗）最低達 40瓦的32核心產品，支援最新的 PCIe與CXL I/O標準，也支援UCIe小晶片互連標準具有高度擴充性，適用於電信、網路、資料處理器等多種應用。

Neoverse CSS V3為高效能V系列產品組合的首款Neoverse CSS產品，架構在Arm歷來單執行緒效能最高的全新Neoverse V3核心上，最高可達128核心配置，並支援最新的高速記憶體與I/O標準，能夠滿足更高效能需求。與Neoverse CSS N2 相比，每插槽的效能提升超過50%。

Arm也特別強調在Neoverse平台進行生成式AI運算的優勢，Arm架構處理器已被廣泛使用，並可針對機器學習（ML）或相關工作負載進行彈性利用，能夠支援多種軟體框架，以及Bfloat16、Matmul、SVE / SVE2等機器學習特化的Neoverse功能，並具備成本與能源效率優勢。

例如NVIDIA Grace-Hopper Superchip架構在 Neoverse V2 平台上，採用處理器搭配加速器的配置，以及可以共享的記憶體，對於大型參數的LLM（Large Langue Model，大型語言模型）和擷取增強生成（RAG）等應用都很有幫助。

▲ Neoverse CSS N3每個核心的電力效率最高較前代Neoverse CSS N2提升20%。

▲ Neoverse CSS N3支援8~32核心配置，在32核心實最低TDP可達40W，適合電信、資料處理器（DPU）、網路、雲端等應用。

▲ Neoverse CSS V3與Neoverse CSS N2 相比，每插槽的效能提升超過50%。

▲ Neoverse CSS V3最高支援128核心配置，適合雲端、高效能運算（HPC）、AI與機器學習等應用。

▲ 比較現已上市的處理器，Neoverse V2在SQL資料庫、JAVA、XGBoost AI預測等使用情境中，單一晶片的效能表現優於Intel第3代Xeon可擴充處理器與AMD第4代EPIC處理器。

▲ 而Neoverse V3 / N3與前代Neoverse V2 / N2比較，在各項效能表現都有顯著提升，AI資料分析項目的增益更是高達84%、196%。

▲ Arm以XGBoost AI預測為例說明機器學習的實際工作負載。

▲ 透過提高分枝預測準確性、增加L2快取記憶體容量、藉由AMBA CHI連接最後階快取記憶體 / 一般記憶體等手段，最高能夠提升196% Neoverse N3的XGBoost AI預測效能。

▲ 比較現已上市的處理器，Neoverse V2在LlaMA 2大型語言模型的運作效能較Neoverse V1提高23%。

▲ Arm也公布了下代Neoverse V / N / E系列處理器與對應的CSS之開發代號。

▲ Neoverse生態系提供強固的支援服務、標準化與加速導入等優勢，能夠有效縮短產品上市時程。

Arm資深副總裁暨基礎設施事業部總經理 Mohamed Awad 表示：「業界的領先企業選擇 Arm Neoverse 做為他們實現世界人工智慧願景的基礎，我們感到相當自豪。這不但證明了我們的技術領導地位，也展現我們協助合作夥伴自由創新，以及生態系的強大實力。Arm 在業界相當獨特，因為我們能透過其他業者無法比擬的方式，將技術、彈性及夥伴關係結合在一起。」