IBM發表全新光學技術縮短 GPU 閒置時間，矽光子技術可大幅加快 AI 模型訓練速度

近日，IBM宣佈了一項重大的光學技術突破，該技術可以以光速訓練AI模型，同時節省大量能源。

這篇IBM發佈的技術論文顯示，這項技術是一種新型的共封裝光學技術（co-packaged optics），可以利用光速實現資料中心內部的連接，從而替代目前使用的銅電纜。

儘管光纖技術已在全球商業和通訊中廣泛應用，但大多數資料中心內部仍依賴於銅電纜進行短距離通訊。這導致 GPU 加速器在訓練過程中常常處於閒置狀態，浪費大量的時間和能源。

因此IBM的研究團隊展示了如何將光的速度和容量引入資料中心，顯著提高資料中心的通訊頻寬，減少 GPU 的閒置時間，從而加速 AI 模型的處理速度。

IBM高級副總裁兼研究總監Dario Gil在評論這一技術時表示：「由於生成式AI需要更多的能源和處理能力，資料中心必須不斷髮展——而同封裝光學器件可以使這些資料中心面向未來。有了這一突破，未來的晶片將像光纖電纜將資料傳入和傳出資料中心一樣進行通訊，開啟一個更快、更可持續的通訊新時代，可以處理未來的 AI 工作負載。」

至於效果如何，根據IBM計算出的結論表示，大型語言模型 (LLM) 的訓練時間可以從三個月縮短到三週。同時，提高能源效率將減少能源使用量並降低與訓練 LLM 相關的成本。換算成發電量的話，訓練 AI 模型時節省的能源相當於5000個美國家庭的年度能源使用量。

事實上，CPO並不是最近才有的新技術。早在一年前，台積電就攜手博通、NVIDIA等大客戶共同推進這項技術的研發進度，製程技術從45nm延伸到7nm，原計畫2024年就開始迎來大單，並在2025年左右達到放量階段。

這種所謂的矽光子技術，是在矽的平台上，將傳統晶片中的電晶體替換成光電元件，進行電與光訊號的傳導。對比傳統晶片會出現電訊號的丟失與耗損的情況，光訊號不僅損耗少，還實現更高頻寬和更快速度的資料處理。

原理上很簡單，但實際推廣上難度並不小。

首先，矽光子技術並沒有到大規模需求階段。雖說有自動駕駛和資料中心兩大領域的需求，但目前還沒有主流晶片廠商推出高性能晶片。

其次，矽光子技術需要考慮相對高昂的成本問題。受限於大量光學器件，一個矽光器件需要採用各種材料，在缺乏大規模需求的情況下，矽光子技術產品成為一種「價格高、低性價比」的產品。同時，器件的性能與良品率難以得到保障。

最後，矽光晶片在打通各個環節還需要努力。例如設計環節，雖然已經有EDA工具支援，但算不上專用；而在製造與封裝環節，類似台積電、三星等大型晶圓代工廠都沒有提供矽光工藝晶圓代工服務。

即便是已經推出COUPE技術的台積電，短時間內會專注更加成熟的封裝方案，很難勻出產能提供給矽光晶片。另外，不同廠商對於矽光產品的理解也各不相同。目前作為矽光賽道真正的老大哥英特爾已經陷入了低谷，很難抽出精力繼續矽光子技術。