ADVERTISEMENT
過去一年多, 人工智慧( AI)浪潮席捲全球,主要的科技公司都在大舉投資資料中心GPU,而且資料中心用的GPU往往一張價格都一兩百萬起跳,這使得市場上最大的NVIDIA股票不斷上漲。
不過,雖然高性能的資料中心GPU定價很高,但是使用壽命卻不太長,這是由於平常承受著AI推理訓練的繁重工作負載,往往會比其他元件老化得更快。
據報導,最近有報告稱,雲端服務提供商(CSP)營運的資料中心內,這些GPU在AI工作負載中的利用率約為60%至70%。按照這個利用率,GPU通常只能使用1到2年,即便較為理想的狀態,最多也就3年。
ADVERTISEMENT
需要說明的是,現在用於AI和HPC應用的資料中心GPU功耗很高,可達到700W或以上,這對於晶片來說是一個很大的壓力,一定程度上也減少了壽命。
如果想要延長資料中心GPU的使用壽命,其中一種方法是降低利用率,然而這也意味著其以更緩慢的速度貶值,並且需要更長的時間才能回本,這對於付出高昂成本的企業來說是不利的。因此大部分雲端服務提供商衡量了收益以後,最常見的做法仍然是以高利用率運行。
此外,報告還根據資料統計結果指出,資料中心GPU的年化故障率約為9%,3年後大概在27%,一般使用一年後更可能頻繁地出現故障。
ADVERTISEMENT
- 延伸閱讀:Cerebras 跳過GPU,晶圓級引擎擊敗 Nvidia Hopper,Llama 3.2 推論效能領先 22 倍!
- 延伸閱讀:告別昂貴的 Nvidia!Hugging Face 推出更便宜、更相容的 AI 模型服務
- 延伸閱讀:Nvidia超越蘋果成為全球最有價值公司
ADVERTISEMENT