ADVERTISEMENT
隨著大型多模態 AI 模型(如文本與圖像處理)需求日益增長,AI 訓練與推論的硬體需求也隨之提高。Google Cloud 今日宣布,其第六代張量處理器 (TPU) Trillium 正式全面上線。這款效能卓越的 AI 晶片專為滿足生成式 AI 時代的需求而設計,在效能和永續性方面均達到最佳化。Trillium 的效能比前一代提升 4 倍,能源效率更提高 67%。
大型語言模型 (LLM) 的興起,例如 Google 最新的 Gemini 2.0,需要強大的運算能力和專用硬體來有效處理訓練、微調和推論。 Google 早在十多年前就開始研發客製化的 AI 加速器 TPU,以滿足 AI 工作負載日益增長的需求,為多模態 AI 發展鋪平道路。
Trillium TPU 是 Google Cloud AI 超級電腦的關鍵組成部分,這款超級電腦採用效能最佳化的硬體、開放軟體、領先的機器學習框架和靈活的消費模式組成的整合系統。除了 Trillium TPU 正式上線外,Google Cloud 也同步強化 AI 超級電腦的開放軟體層,包括優化 XLA 編譯器和 JAX、PyTorch、TensorFlow 等熱門框架, 以在 AI 訓練、調整和服務方面實現規模化的領先性價比。此外,利用大量主機 DRAM 進行主機卸載等功能,可提供更進階的效率。 AI 超級電腦讓使用者能夠充分利用每個 Jupiter 網路結構中超過 100,000 個 Trillium 晶片的空前部署規模,其雙向頻寬高達 13 PB/秒,能夠將單一分散式訓練作業拓展到數十萬個加速器。
Trillium TPU 的主要提升:
- 訓練效能提升超過 4 倍
- 推論吞吐量提高 3 倍
- 能源效率提高 67%
- 每個晶片的峰值運算效能提升 4.7 倍
- 高頻寬記憶體 (HBM) 容量增加一倍
- 晶片間互連 (ICI) 頻寬增加一倍
- 單一 Jupiter 網路結構中可容納 100,000 個 Trillium 晶片
- 訓練效能的性價比提升高達 2.5 倍,推論效能的性價比提升高達 1.4 倍
Trillium TPU 的應用:
- 拓展 AI 訓練工作負載: Trillium 具有近乎線性的拓展能力,可有效地將工作負載分配到大量 Trillium 主機上,進而顯著加快大型模型的訓練速度。
- 訓練 LLM,包括密集模型和混合專家 (MoE) 模型: Trillium 可提供比前一代 Cloud TPU v5e 快 4 倍的密集 LLM 訓練速度,以及快 3.8 倍的 MoE 模型訓練速度。
- 推論效能和集合排程: Trillium 提供顯著的推論工作負載改進,實現更快、更高效的 AI 模型部署。
- 嵌入密集型模型: Trillium 增加了第三代 SparseCore,使嵌入密集型模型的效能提高 2 倍,DLRM DCNv2 效能提高 5 倍。
- 提供訓練和推論性價比: Trillium 的設計旨在優化性價比,提供比 Cloud TPU v5e 高 2.1 倍的性價比,以及比 Cloud TPU v5p 高 2.5 倍的性價比。
AI21 Labs 等客戶已採用 Trillium,並更快地為其客戶提供有意義的 AI 解決方案。 AI21 Labs 技術長 Barak Lenz 表示:「在 AI21,我們不斷努力提升 Mamba 和 Jamba 語言模型的效能和效率。作為 TPU v4 以來的長期使用者,我們對 Google Cloud Trillium 的能力印象深刻。規模、速度和成本效益方面的進步非常顯著。我們相信 Trillium 將在加速我們下一代複雜語言模型的開發方面發揮至關重要的作用,使我們能夠為客戶提供更強大、更易於使用的 AI 解決方案。」
Trillium 是 Google Cloud AI 基礎架構的重大飛躍,為各種 AI 工作負載提供卓越的效能、可拓展性和效率。 憑藉其使用世界一流的協同設計軟體拓展到數十萬個晶片的能力,Trillium 使您能夠更快地實現突破並提供卓越的 AI 解決方案。此外,Trillium 卓越的性價比使其成為尋求最大化 AI 投資價值的組織的經濟高效選擇。隨著 AI 領域的持續發展,Trillium 證明了 Google Cloud 致力於提供尖端基礎架構,使企業能夠釋放 AI 的全部潛力。
- 資料來源:cloud.google.com
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!