2024.12.22 10:30

IBM發表全新光學技術縮短 GPU 閒置時間,矽光子技術可大幅加快 AI 模型訓練速度

ADVERTISEMENT

近日,IBM宣佈了一項重大的光學技術突破,該技術可以以光速訓練AI模型,同時節省大量能源。

這篇IBM發佈的技術論文顯示,這項技術是一種新型的共封裝光學技術(co-packaged optics),可以利用光速實現資料中心內部的連接,從而替代目前使用的銅電纜。

儘管光纖技術已在全球商業和通訊中廣泛應用,但大多數資料中心內部仍依賴於銅電纜進行短距離通訊。這導致 GPU 加速器在訓練過程中常常處於閒置狀態,浪費大量的時間和能源。

ADVERTISEMENT

因此IBM的研究團隊展示了如何將光的速度和容量引入資料中心,顯著提高資料中心的通訊頻寬,減少 GPU 的閒置時間,從而加速 AI 模型的處理速度。

IBM高級副總裁兼研究總監Dario Gil在評論這一技術時表示:「由於生成式AI需要更多的能源和處理能力,資料中心必須不斷髮展——而同封裝光學器件可以使這些資料中心面向未來。有了這一突破,未來的晶片將像光纖電纜將資料傳入和傳出資料中心一樣進行通訊,開啟一個更快、更可持續的通訊新時代,可以處理未來的 AI 工作負載。」

ADVERTISEMENT

至於效果如何,根據IBM計算出的結論表示,大型語言模型 (LLM) 的訓練時間可以從三個月縮短到三週。同時,提高能源效率將減少能源使用量並降低與訓練 LLM 相關的成本。換算成發電量的話,訓練 AI 模型時節省的能源相當於5000個美國家庭的年度能源使用量。

事實上,CPO並不是最近才有的新技術。早在一年前,台積電就攜手博通、NVIDIA等大客戶共同推進這項技術的研發進度,製程技術從45nm延伸到7nm,原計畫2024年就開始迎來大單,並在2025年左右達到放量階段。

這種所謂的矽光子技術,是在矽的平台上,將傳統晶片中的電晶體替換成光電元件,進行電與光訊號的傳導。對比傳統晶片會出現電訊號的丟失與耗損的情況,光訊號不僅損耗少,還實現更高頻寬和更快速度的資料處理。

ADVERTISEMENT

原理上很簡單,但實際推廣上難度並不小。

首先,矽光子技術並沒有到大規模需求階段。雖說有自動駕駛和資料中心兩大領域的需求,但目前還沒有主流晶片廠商推出高性能晶片。

其次,矽光子技術需要考慮相對高昂的成本問題。受限於大量光學器件,一個矽光器件需要採用各種材料,在缺乏大規模需求的情況下,矽光子技術產品成為一種「價格高、低性價比」的產品。同時,器件的性能與良品率難以得到保障。

ADVERTISEMENT

最後,矽光晶片在打通各個環節還需要努力。例如設計環節,雖然已經有EDA工具支援,但算不上專用;而在製造與封裝環節,類似台積電、三星等大型晶圓代工廠都沒有提供矽光工藝晶圓代工服務。

即便是已經推出COUPE技術的台積電,短時間內會專注更加成熟的封裝方案,很難勻出產能提供給矽光晶片。另外,不同廠商對於矽光產品的理解也各不相同。目前作為矽光賽道真正的老大哥英特爾已經陷入了低谷,很難抽出精力繼續矽光子技術。

 

ADVERTISEMENT