Google Cloud 推出第六代 TPU！Trillium 正式上線，為 AI 發展注入強大動力

隨著大型多模態 AI 模型（如文本與圖像處理）需求日益增長，AI 訓練與推論的硬體需求也隨之提高。Google Cloud 今日宣布，其第六代張量處理器 (TPU) Trillium 正式全面上線。這款效能卓越的 AI 晶片專為滿足生成式 AI 時代的需求而設計，在效能和永續性方面均達到最佳化。Trillium 的效能比前一代提升 4 倍，能源效率更提高 67%。

大型語言模型 (LLM) 的興起，例如 Google 最新的 Gemini 2.0，需要強大的運算能力和專用硬體來有效處理訓練、微調和推論。 Google 早在十多年前就開始研發客製化的 AI 加速器 TPU，以滿足 AI 工作負載日益增長的需求，為多模態 AI 發展鋪平道路。

Trillium TPU 是 Google Cloud AI 超級電腦的關鍵組成部分，這款超級電腦採用效能最佳化的硬體、開放軟體、領先的機器學習框架和靈活的消費模式組成的整合系統。除了 Trillium TPU 正式上線外，Google Cloud 也同步強化 AI 超級電腦的開放軟體層，包括優化 XLA 編譯器和 JAX、PyTorch、TensorFlow 等熱門框架， 以在 AI 訓練、調整和服務方面實現規模化的領先性價比。此外，利用大量主機 DRAM 進行主機卸載等功能，可提供更進階的效率。 AI 超級電腦讓使用者能夠充分利用每個 Jupiter 網路結構中超過 100,000 個 Trillium 晶片的空前部署規模，其雙向頻寬高達 13 PB/秒，能夠將單一分散式訓練作業拓展到數十萬個加速器。

Trillium TPU 的主要提升：

訓練效能提升超過 4 倍
推論吞吐量提高 3 倍
能源效率提高 67%
每個晶片的峰值運算效能提升 4.7 倍
高頻寬記憶體 (HBM) 容量增加一倍
晶片間互連 (ICI) 頻寬增加一倍
單一 Jupiter 網路結構中可容納 100,000 個 Trillium 晶片
訓練效能的性價比提升高達 2.5 倍，推論效能的性價比提升高達 1.4 倍

Trillium TPU 的應用：

拓展 AI 訓練工作負載： Trillium 具有近乎線性的拓展能力，可有效地將工作負載分配到大量 Trillium 主機上，進而顯著加快大型模型的訓練速度。
訓練 LLM，包括密集模型和混合專家 (MoE) 模型： Trillium 可提供比前一代 Cloud TPU v5e 快 4 倍的密集 LLM 訓練速度，以及快 3.8 倍的 MoE 模型訓練速度。
推論效能和集合排程： Trillium 提供顯著的推論工作負載改進，實現更快、更高效的 AI 模型部署。
嵌入密集型模型： Trillium 增加了第三代 SparseCore，使嵌入密集型模型的效能提高 2 倍，DLRM DCNv2 效能提高 5 倍。
提供訓練和推論性價比： Trillium 的設計旨在優化性價比，提供比 Cloud TPU v5e 高 2.1 倍的性價比，以及比 Cloud TPU v5p 高 2.5 倍的性價比。

AI21 Labs 等客戶已採用 Trillium，並更快地為其客戶提供有意義的 AI 解決方案。 AI21 Labs 技術長 Barak Lenz 表示：「在 AI21，我們不斷努力提升 Mamba 和 Jamba 語言模型的效能和效率。作為 TPU v4 以來的長期使用者，我們對 Google Cloud Trillium 的能力印象深刻。規模、速度和成本效益方面的進步非常顯著。我們相信 Trillium 將在加速我們下一代複雜語言模型的開發方面發揮至關重要的作用，使我們能夠為客戶提供更強大、更易於使用的 AI 解決方案。」

Trillium 是 Google Cloud AI 基礎架構的重大飛躍，為各種 AI 工作負載提供卓越的效能、可拓展性和效率。 憑藉其使用世界一流的協同設計軟體拓展到數十萬個晶片的能力，Trillium 使您能夠更快地實現突破並提供卓越的 AI 解決方案。此外，Trillium 卓越的性價比使其成為尋求最大化 AI 投資價值的組織的經濟高效選擇。隨著 AI 領域的持續發展，Trillium 證明了 Google Cloud 致力於提供尖端基礎架構，使企業能夠釋放 AI 的全部潛力。

資料來源：cloud.google.com