2024.11.01 12:00

Cerebras 跳過GPU,晶圓級引擎擊敗 Nvidia Hopper,Llama 3.2 推論效能領先 22 倍!

ADVERTISEMENT

近年來,AI技術的進展使得對於AI模型的推理效能需求不斷提升。以Cerebras Systems為代表的企業,在硬體設計上採用「晶圓規模運算」(Wafer-Scale Engine, WSE)技術,透過提升內部運算效率,顯著超越了目前主流的Nvidia GPU。Cerebras最新的CS-3系統在執行Meta公司開源的Llama 3.2模型時,展示了比「Hopper」H100 GPU更強大的推理效能,引起業界關注。

Cerebras CS-3系統的最新性能數據來自Artificial Analysis的評測報告,其顯示CS-3系統的推理速度較Llama 3.1提升了3.5倍,特別是在使用Llama 3.2 70B(即70億參數)模型時,其推理效能更是達到了2100字元/秒,遠高於先前版本的589字元/秒。這一進展不僅證明了Cerebras在硬體和軟體層面的調優能力,也表明其在AI推理市場的競爭力遠遠超越了傳統GPU解決方案。

AI推理效能的提升帶來競爭優勢

Cerebras的技術進展代表著AI推理市場的重大轉變。傳統上,AI訓練需要龐大的運算資源,而Cerebras以大規模晶圓運算系統打破了運算瓶頸,使得AI推理成為更加高效的任務。推理需求的提升,意味著企業不必耗費大量資源來自行訓練模型,而可以選擇Cerebras的高效推理解決方案來部署AI應用。

ADVERTISEMENT

值得注意的是,根據Artificial Analysis的數據,Cerebras CS-3系統在執行Llama 3.2 70B模型的推理性能相比八路HGX節點的H100 GPU(3B模型)更快了8到22倍,平均速度約為13.2倍,顯示出Cerebras在推理性能和成本效益上的絕對優勢。對於想要在推理市場立足的Cerebras而言,這種優勢將為其IPO增添更具說服力的銷售亮點。

強大的硬體架構支撐CS-3系統的推理能力

Cerebras的CS-3系統的核心技術在於其WSE-3晶圓規模處理器。這款處理器擁有90萬個張量核心、44 GB的內建SRAM記憶體和高達125 PFlops的運算能力。Cerebras通過將模型分層分布在不同的晶圓上,降低對帶寬的需求,使其在處理超大規模模型時更具效率。這樣的分層架構設計使得即使在運行405B模型(即4050億參數)時,Cerebras仍有信心保持穩定的推理效能。

以Llama 3.2 70B模型為例,單一WSE-3引擎擁有的44 GB SRAM不足以容納整個模型的參數,因此需要至少三顆WSE-3引擎和四個CS-3節點才能加載整個模型。通過Cerebras特有的SwarmX網路協議,這些引擎之間的互聯帶寬可達214 Pb/sec,確保數據在不同節點間的高效傳輸。

ADVERTISEMENT

硬體與軟體雙重進步提升AI效能

除了硬體上的突破,Cerebras的軟體優化也扮演了關鍵角色。以往GPU的性能提升大多來自硬體迭代,而Cerebras的軟體團隊僅在兩個月內,通過優化就將推理速度提升了4.7倍,從450字元/秒提升至2100字元/秒。這樣的進步速度甚至超越了Nvidia歷來在軟體調整中的增益,證明了Cerebras在推理應用領域中迅速拉開了差距。

Cerebras的軟體調整方式可以使其在不增加硬體資源的情況下快速增強推理效能,這無疑將為客戶帶來更具成本效益的解決方案。此外,Cerebras表示其團隊已著手進行Llama 3.2 405B模型的調試工作,為日後更高精度的推理需求做好了準備。

相較GPU的成本優勢

在成本效益方面,Cerebras CS-3系統在推理市場的定價模式亦具備競爭力。根據推測,576個CS-3節點的成本約為9億美元,折算下來每個節點約需156萬美元。而相同效能的Nvidia H100 HGX節點單價則約為37.5萬美元。因此,Cerebras在推理成本上約比Nvidia便宜2.75倍,而在雲端租賃市場的價格差距更是達到5.2倍,顯示Cerebras在雲端市場的價格策略以損益平衡為主,希望通過低價吸引更多用戶。

ADVERTISEMENT

未來展望:SRAM容量的增強和記憶體拓展

Cerebras未來將面臨如何增加SRAM容量的挑戰。WSE-3處理器的限制主要來自記憶體容量,尤其在處理超大模型時,現有的44 GB SRAM無法完全滿足需求。為此,業界期待Cerebras引入類似AMD 3D V-Cache的3D記憶體堆疊技術,讓WSE-4引擎在SRAM層面取得突破。若能在SRAM上實現多層堆疊,每層提供60 GB或更多的容量,將可顯著增強系統對大型模型的處理能力。

此外,Cerebras目前提供的MemoryX記憶體選項包含24 TB至1200 TB不等的配置,為超大規模推理提供了靈活的儲存解決方案。這些記憶體可獨立於運算單元進行擴展,特別適合需要海量參數儲存的推理模型,並支援企業和超大規模運算需求。

結語

Cerebras在AI推理市場的崛起,代表了運算架構創新對AI性能的突破。隨著AI模型規模的持續擴大,推理運算將日益依賴於高效的硬體架構與軟體調優。Cerebras的WSE-3系統不僅為市場提供了比傳統GPU更具成本效益的選擇,更展示了在技術上的前瞻性。面對未來,Cerebras若能繼續優化其記憶體配置並引入堆疊技術,無疑將在AI推理領域創造更大的價值。

ADVERTISEMENT

ADVERTISEMENT