2024.11.02 14:30

AI資料中心花大錢買到手GPU,但使用壽命卻短得驚人

ADVERTISEMENT

過去一年多, 人工智慧( AI)浪潮席捲全球,主要的科技公司都在大舉投資資料中心GPU,而且資料中心用的GPU往往一張價格都一兩百萬起跳,這使得市場上最大的NVIDIA股票不斷上漲。

不過,雖然高性能的資料中心GPU定價很高,但是使用壽命卻不太長,這是由於平常承受著AI推理訓練的繁重工作負載,往往會比其他元件老化得更快。

據報導,最近有報告稱,雲端服務提供商(CSP)營運的資料中心內,這些GPU在AI工作負載中的利用率約為60%至70%。按照這個利用率,GPU通常只能使用1到2年,即便較為理想的狀態,最多也就3年。

ADVERTISEMENT

需要說明的是,現在用於AI和HPC應用的資料中心GPU功耗很高,可達到700W或以上,這對於晶片來說是一個很大的壓力,一定程度上也減少了壽命。

如果想要延長資料中心GPU的使用壽命,其中一種方法是降低利用率,然而這也意味著其以更緩慢的速度貶值,並且需要更長的時間才能回本,這對於付出高昂成本的企業來說是不利的。因此大部分雲端服務提供商衡量了收益以後,最常見的做法仍然是以高利用率運行。

此外,報告還根據資料統計結果指出,資料中心GPU的年化故障率約為9%,3年後大概在27%,一般使用一年後更可能頻繁地出現故障。

ADVERTISEMENT

 

 

ADVERTISEMENT