ADVERTISEMENT
近年來,人工智慧(AI)產業蓬勃發展,而其中AI推理服務更是AI技術落地的核心環節。推理(Inference)指的是將訓練好的AI模型應用於實際數據上進行預測或解決任務的過程。隨著AI應用的普及,推理服務的需求激增,已成為雲端工作負載中增長最快的部分,占比約40%。然而,目前市面上的AI推理服務無法滿足所有客戶的需求,這使得Cerebras 系統公司推出的「全球最快AI推理服務」成為焦點。
Cerebras 系統挑戰 Nvidia 的霸主地位
Cerebras 系統公司是一家專注於AI運算晶片的初創公司,以其強大的運算性能和成本效益挑戰著Nvidia的市場領導地位。該公司首席執行長安德魯·費爾德曼(Andrew Feldman )在舊金山的一次記者會上表示:「我們看到了各種需求,客戶希望更快且成本更低的推理解決方案。」Cerebras 系統公司相信,其推出的新型「高速推理」服務將成為AI產業的一個里程碑,能夠達到每秒1000個tokens的速度,這相當於寬頻網路的引入,將為AI應用開創新的機遇。
專為AI設計的強大晶片:WSE-3
Cerebras 系統公司的核心競爭力來自於其自主研發的專用晶片。該公司的旗艦產品WSE-3(Wafer Scale Engine 3)處理器於今年三月正式發布,這是一款基於五奈米製程的先進晶片,擁有1.4兆個晶體管、超過90萬個運算核心及44GB的靜態隨機存取記憶體(SRAM),是其前代產品WSE-2的兩倍性能。與Nvidia的H100 GPU相比,WSE-3具有52倍以上的核心數和7000倍的記憶體頻寬,這使得其推理速度更快,且成本更低。
WSE-3處理器被集成於Cerebras CS-3系統中,該系統大小與小型冰箱相當,處理器本身則約有一個披薩大小,並內建冷卻和電力模組。根據Cerebras的數據,WSE-3的峰值速度可達到125 petaflops(一petaflop等於每秒一千兆次運算),這為推理服務提供了強大的運算支援。
驚人的速度與成本效益
Cerebras 推出的AI推理服務,號稱速度比使用Nvidia最強大GPU的雲端推理服務快20倍。以開源的Llama 3.1 8B模型為例,Cerebras的推理服務能夠達到每秒1800個標記的速度,而對於Llama 3.1 70B模型,則可達到每秒450個標記。與此同時,該服務的價格極具競爭力,起步價僅為每百萬個標記10美分,這意味著其AI推理工作負載的性價比是現有服務的100倍。
這項推理服務特別適合於「代理型AI」(agentic AI)工作負載,這類應用需要頻繁地提示其基礎模型,以完成用戶指定的任務。Cerebras 的推理服務在速度與成本上皆具顯著優勢,特別是針對那些需要實時或高頻度運行的AI應用。
記憶體頻寬突破
大多數AI推理服務速度緩慢的原因在於大型語言模型(LLM)的順序性和對記憶體頻寬的高需求。例如,Llama 3.1 70B模型擁有700億個參數,每個參數需要2個位元的儲存空間,整個模型需要140GB的記憶體。由於GPU僅有約200MB的片上記憶體,模型無法完全儲存於片上,每次生成輸出標記時都需要將整個模型從記憶體移至運算核心進行推理運算。這導致了推理速度的極大限制。
然而,Cerebras 透過其獨特的晶圓級設計,成功將44GB的SRAM整合到一顆晶片上,進而消除了對外部記憶體的依賴以及外部記憶體與運算核心之間的緩慢傳輸瓶頸。WSE-3擁有21 petabytes/s的總體記憶體頻寬,是Nvidia H100的7000倍。這使得Cerebras 系統成為目前唯一能夠同時提供PB級運算和記憶體頻寬的AI晶片,成為高效推理的理想設計。
開放API與未來展望
Cerebras 推理服務已經開放給開發者使用,並可透過API進行造訪。這些API與OpenAI的Chat Completions格式完全兼容,開發者只需幾行程式碼即可將現有應用遷移至Cerebras平台。
為了進一步推動AI技術的普及,Cerebras還推出了三個使用層級,從免費級到開發者層級,再到提供定制服務的企業層級。特別是企業層級,針對持續的工作負載提供專用的支持和客製服務水準協議,滿足不同客戶的需求。
Cerebras 系統公司並未止步於目前的成就,其首席執行長費爾德曼透露,公司正在與多家超大規模雲服務商洽談,計劃將其推理服務納入這些雲端平台。這一舉措將進一步擴大Cerebras的市場影響力,同時為更多AI開發者提供便捷、高效的推理服務。
Cerebras 系統公司的AI推理服務不僅在速度和成本上創下了新的標準,也為AI應用的未來發展開啟了更多可能性。隨著AI技術的不斷進步,像Cerebras這樣的創新公司正在不斷挑戰傳統的運算架構和技術邊界。未來,隨著更大模型的支持和更多合作夥伴的加入,Cerebras 的AI推理服務將為AI產業帶來更多令人期待的變革。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!