ADVERTISEMENT
據《The Information》報導,NVIDIA新一代 Blackwell 處理器在高容量伺服器機架中被發現有嚴重的過熱問題。這些問題導致設計調整與延期,使Google、 Meta 和微軟等主要客戶對能否按計畫部署 Blackwell 伺服器感到擔憂。
知情人士透露,Blackwell GPU 專為 AI 和高性能計算(HPC)設計,但在組態 72 個處理器的伺服器中出現過熱問題,此類伺服器每個機架功耗最高可達 120 千瓦。過熱問題迫使NVIDIA多次修改機架設計,不僅限制了 GPU 性能,還可能損壞硬體。客戶因此擔心,這些技術問題會延遲資料中心的處理器部署處理程序。
為應對這一難題,NVIDIA要求供應商調整機架設計,並與合作夥伴一起最佳化散熱系統。儘管這種工程改進是大規模技術發佈中的常規步驟,但也進一步推遲了產品交付時間。
ADVERTISEMENT
據一直致力於解決這一問題的輝達員工以及了解這一問題的客戶和供應商稱,這家晶片製造商已多次要求供應商改變機架設計,解決過熱問題。《The Information》並未透露供應商的名字。
「輝達正在與領先雲端服務提供商合作,這是我們工程團隊和流程不可或缺的一部分。工程迭代是正常的,也是意料之中的。」輝達發言人在聲明中表示。NVIDIA希望通過這種合作,確保最終產品在性能和可靠性方面達到預期,同時加緊解決技術瓶頸。
修訂後的 Blackwell GPU 於今年 10 月底才進入量產,預計最快明年 1 月底出貨。Google、Meta、微軟等科技巨頭依賴NVIDIA GPU 訓練其最強大的 AI 模型,其延期對這些客戶的研發計畫和產品發佈造成的影響自然是不可避免。
今年 3 月,NVIDIA展示了 Blackwell 晶片,當時曾表示將在第二季度發貨。
ADVERTISEMENT
- 延伸閱讀:NVIDIA GeForce RTX 50 Blackwell 筆電版GPU PCI ID 陣容曝光,全系列多達13個
- 延伸閱讀:黃仁勳坦承NVIDIA Blackwell AI 晶片設計有瑕疵,但在台積電協助下已修復
- 延伸閱讀:NVIDIA開放Blackwell平台設計予硬體生態系夥伴,宣布Blackwell進入全面量產階段
ADVERTISEMENT