ADVERTISEMENT
資料中心多年來一直朝向更密集、高耗電的系統發展。如果你沒注意到,19吋機櫃現在的供電需求已超過120千瓦的高密度配置,許多機櫃已轉向直接液冷以控制熱量。
這種趨勢很大程度上是由於需要支持規模更大的 AI 模型。根據富士通研究人員的說法,AI 系統中的參數數量大約每三年增加 32 倍。為了支持這些模型,像 Nvidia 這樣的晶片設計師使用極高速的互連技術(約每秒 1.8 TB)使八個或更多 GPU 看起來和表現得像一個單一設備。
問題在於,資料在線纜上傳輸越快,訊號可維持的距離就越短。在這些高速下,銅纜的傳輸距離被限制在大約一到兩公尺。
ADVERTISEMENT
另一種選擇是使用光纖,它可以在更長的距離內維持訊號。事實上,光纖已經應用於許多機架到機架的橫向擴展架構中,例如 AI 模型訓練中使用的架構。遺憾的是,目前的可插拔光纖效率和速度都不是特別高。
2024 年初在 GTC 大會上,Nvidia 執行長黃仁勳表示,如果該公司使用光纖而不是銅來連接其 NVL72 機架系統中的 72 個 GPU,則需要額外 20 千瓦的功率。
那麼,這是否意味著光纖不可行,而更高密度的機架是不可避免的?嗯,根據 Ayar Labs 的說法,情況並非如此。他們認為,透過直接將光學元件整合到運算單元中,晶片製造商不僅可以緩解頻寬瓶頸,還能降低支持不斷成長的模型參數所需的機櫃密度。
ADVERTISEMENT
引導去密集化
不乏光子學新創公司希望克服銅互連的限制並提高光纖 I/O 的效率,但 Ayar 是其中的先驅。
這家位於舊金山的新創公司自2015年起一直在開發光學互連晶片組。這些光學設備旨在與 CPU 或 GPU 封裝在一起,以便在比銅更長的距離內實現更高的頻寬。
對於大規模 AI 訓練和推論等應用,光纖有可能取代 Nvidia 的 NVLink 或 AMD 的 Infinity Fabric 來連接多個晶片。
ADVERTISEMENT
Ayar Labs商業運營副總裁泰瑞·托恩(Terry Thorn)在最近接受採訪時表示:「如果你想跳脫一個機架的限制,使用多個機架,並將計算基礎擴展到 64-72 個以上的 GPU,你必須做一些不同的事情,你必須採用不同於銅線和電子的方法。現有的可插拔光纖無法滿足需求。當你使用封裝內光纖 I/O 時,你就可以開始滿足需求,並開始具備那種擴展架構的能力。」
雖然該技術可以允許計算和記憶體域跨越數十個機架中的數百個 GPU,但這也意味著不再需要將那麼多的加速器塞進一個機架中,從而緩解數據中心運營商如今面臨的一些電源和散熱挑戰。
ADVERTISEMENT
「你可能會覺得使用銅時,你必須留在那個機架中,並且你可能會受到功率密度、佔地面積和平方英尺的限制,」托恩解釋說。「如果你開始整合光纖 I/O,你就可以開始分散功率的分配,因此,讓那些受功率限制的人能夠在更大的面積上建立 AI 連接基礎設施。」
換句話說,計算不再需要在同一個機箱中,更不用說同一個機架中,才能作為一個邏輯系統運行,這意味著每個機架的功率和熱密度可以大大降低。
還有很多事需要努力
儘管矽光子技術前景看好,但在整合到生產硬體之前,它仍面臨諸多挑戰。這些挑戰包括從開發可在功率和頻寬方面與現有銅互連匹敵的晶片,到開發 UCIe 等通信協議,以便兩者可以相互通訊。
Ayar 對這些障礙並不陌生,在過去幾年中,他們一直致力於將其矽光子晶片整合到許多原型系統中。我們之前曾探討過 Ayar 與幾年前英特爾為 DARPA 建造的超執行緒圖形資料庫加速器的整合。Ayar 還將其晶片整合到英特爾的 Agilex FPGA。
最近,Ayar 透露,它正在與富士通合作,將兩個下一代光子晶片(每個晶片能夠提供約 8Tbps 的雙向頻寬)整合到他們的 CPU 中。
在 SC24 上,Ayar 展示了一個模型,展示了其一對 TeraPHY 晶片與 A64FX 處理器共同封裝的樣子,但沒有跡象表明這將是實際構建的產品,也沒有跡象表明富士通打算將該技術商業化。就像英特爾一樣,這可能只是一項測試該技術可行性的實驗。
然而,建造和整合光子晶片組只是更大難題的一部分。由於它們將永久連接到昂貴的加速器上,因此必須具有可靠性。
使用可插拔光纖,如果出現問題,更換起來相對容易且便宜,至少與 GPU 相比是這樣:只需換掉壞的,然後繼續工作即可。如果光學晶片發生故障,那麼價值 40,000 美元的加速器就報廢了。
托恩表示:「我們正在採取一些行動來解決談及光學時會出現的各種顧慮。」
首先是將光源與晶片組分離。他解釋道:「雖然可以在晶片內部進行雷射,但這會使雷射置於非常高動態範圍的溫度中,這往往會影響其可靠性和長期可用性。」
這種方法的好處是,即使雷射失效,也不會連帶GPU或加速器一起報廢,且可以更換或未來升級。
Ayar還在建立一個光學測試流程,以在晶片於工廠與GPU結合前篩選不良晶片。托恩補充:「我們正在建立如何在晶片上進行光學和電子測試,以幫助辨識良好晶片。」這應該有助於避免因光學缺陷而報廢晶片。
說到光學缺陷,不僅要考慮晶片組,還要考慮光纖本身。多年來,Ayar探索了不同的光纖連接方法,包括英特爾代工廠開發的一種可橫向插入晶片側面的方法。據悉,連接測試仍處於早期階段,但Ayar已成功透過其傳輸資料。
正如我們前面提到的,Ayar 並不是唯一一家致力於克服這些挑戰的公司,而且在許多情況下,光纖連接、通信協議以及測試和驗證方法等發展可能會標準化,從而使更廣泛的生態系統受益。
ADVERTISEMENT