Arm 運算平台協助全新 Llama 3.2 LLM 實現 AI 推論的全面加速和擴展

人工智慧（AI）的高速發展代表各種大型語言模型（LLM）的新版本不斷推陳出新。要充分發揮 AI 的潛力並掌握因此而來的機會，需要實現 LLM 從雲到端的廣泛部署，其中也帶動了對運算和能源需求的大幅成長。整個生態系正攜手尋找因應此一挑戰的解決方案，不斷推出新的、且更高效率的開源 LLM，以便大規模實現各種 AI 推論工作負載，加快為使用者帶來全新、快速的 AI 體驗。

為此，Arm 與 Meta 展開緊密合作，在 Arm CPU 上啟用新的 Llama 3.2 LLM，整合開源創新與 Arm 運算平台的優勢，以應對 AI 帶來的挑戰。受惠於 Arm 的持續投資及與各新型 LLM 的合作，在 Arm CPU上運行 AI 的優勢在生態系中脫穎而出，使 Arm 成為 AI 推論開發人員的首選平台。

加速從雲到端的 AI 效能

小型 LLM（如 Llama 3.2 1B 和 3B）能夠支援基於文本的基礎生成式 AI 工作負載，對於大規模 AI 推論的實現相當重要。透過 Arm CPU 優化核心在 Arm 技術驅動的行動裝置上運行新的 Llama 3.2 3B LLM，可讓提示詞（Prompt）處理速度提高五倍，詞元（token）生成速度提高三倍，在生成階段實現每秒 19.92 個詞元。這將直接減少了在裝置上處理 AI 工作負載的延遲，大大提升了使用者的整體體驗。此外，當邊緣端能處理的 AI 工作負載越多，往返雲端傳輸資料所節省的電量就越多，進而節省了能源和成本。

除了在邊緣端運行小型模型，更大的模型（如 Llama 3.2 11B 和 90B）也能在雲端運行。11B 和 90B 的模型非常適合雲端基於 CPU 的推論工作負載，可生成文本和圖像，如同在 Arm Neoverse V2 上的測試結果顯示。在基於 Arm 架構的 AWS Graviton4 上運行 11B 的圖像和文本模型，可在生成階段實現每秒 29.3 個詞元的表現，遠遠超出人類大約每秒閱讀五個詞元的速度。

AI 將透過開源創新和生態系協作迅速擴展

能公開獲取各個新的 LLM（如 Llama 3.2）相當關鍵。開源創新正以極為快速的速度發展，在之前的版本中，開源社群在不到 24 小時的時間內便能在 Arm 上部署並運行新的 LLM。

Arm 將透過 Arm Kleidi 進一步支援軟體社群，讓整個 AI 技術堆疊能夠充分發揮此一經過優化的 CPU 效能。Kleidi 可在任何 AI 框架上釋放 Arm Cortex 和 Neoverse CPU 的 AI 功能和效能，無需應用程式開發人員進行額外的整合工作。

透過最近的 Kleidi 與 PyTorch 整合以及正在推進的與 ExecuTorch 整合，Arm 正在為基於 Arm CPU 的開發人員提供從雲到端的無縫 AI 效能。受惠於 Kleidi 與 PyTorch 的整合，在基於 Arm 架構的 AWS Graviton 處理器上運行 Llama 3 LLM 的詞元首次回應時間加快了 2.5 倍。

同時，在行動裝置上，透過 KleidiAI 函式庫的協助，使用 llama.cpp 函式庫在新的 Arm Cortex-X925 CPU 上運行 Llama 3 的詞元首次回應時間與參考實作相比加快了 190%。

Arm表示，Arm 與 Meta 的合作成為產業合作的新標竿，它彙聚了 Arm 運算平台的靈活性、普及性和 AI 功能，以及 Meta 等產業領導者的技術專長，共同釋放 AI 被廣泛應用的新機會。無論是利用裝置端 LLM 滿足使用者的個性化需求，如根據使用者所在的位置、日程和偏好來執行任務，還是透過企業級應用來優化工作效率，讓使用者更專注於創造價值的任務，Arm 技術的整合都為未來奠定了基礎。裝置將不再只是命令和控制工具，更能在提升使用者整體體驗方面發揮積極的作用。

在 Arm CPU 上運行 Meta 最新 Llama 3.2 版本，其 AI 效能展現顯著的提升。這類開放式合作是實現無處不在的 AI 創新、促進 AI 可持續發展的最佳途徑。透過各項新的 LLM、開源社群和 Arm 的運算平台，Arm 正在建構 AI 的未來，到 2025 年，將有 1,000 多億台基於 Arm 架構的裝置支援 AI。