ADVERTISEMENT
在半導體產業中,晶片尺寸與良率之間的關係長久以來一直被視為難以突破的限制。傳統觀念認為,晶片越大,良率越低。然而,Cerebras 公司卻成功挑戰了這個傳統思維。
Cerebras 設計並商業化了一款比目前最大運算晶片還要大 50 倍的晶片,卻依然能夠達到相當的良率,這項成就引發了業界的好奇與關注。Cerebras 如何克服晶片尺寸帶來的巨大挑戰,在晶圓級處理器中實現可用的良率,成為眾人急於理解的焦點:Cerebras 是如何在晶圓級處理器中實現可用的良率的?
答案在於重新思考晶片尺寸與容錯率之間的關係。本文將提供一個詳細的、逐項比較的分析,探討 Cerebras Wafer Scale Engine 與一個 H100 大小晶片(同樣使用 5nm 製程)的製造良率。透過檢視缺陷率、核心大小及容錯率的相互作用, Cerebras將展示如何在晶圓級整合中實現與限制在光罩範圍內的 GPU 相等甚至更高的良率。
什麼決定了良率
如同任何製造流程,電腦晶片不可避免地會有缺陷。較大的晶片更容易遭遇缺陷,因此隨著晶片面積增大,良率會指數級下降。儘管較大的晶片通常運行速度更快,早期的微處理器為了維持可接受的製造良率與利潤,通常選擇適中的尺寸。
然而,這一情況在 2000 年代初期開始改變。當電晶體數量超過一億後,設計師開始在晶片中加入多個獨立核心。由於這些核心是獨立且相同的,晶片設計師引入了核心級容錯機制,讓即便某個核心存在缺陷,其他核心仍能正常運行。例如,2006 年 Intel 推出了 Intel Core Duo(雙核心處理器)。如果其中一個核心出現缺陷,該產品仍可作為 Intel Core Solo(單核心處理器)銷售。Nvidia、AMD 等公司隨後也採用了這種核心級冗餘設計。
如今,高效能處理器廣泛使用容錯設計,並且售賣部分核心被禁用的晶片已成為常態。AMD 和 Intel 的處理器通常推出一個全部核心可用的旗艦版本,並搭配部分核心被禁用的低階版本。同樣,Nvidia 的資料中心 GPU 體積遠大於 CPU 晶片,因此即使是旗艦型號也會禁用部分核心。
以 Nvidia H100 為例,這是一款面積達 814mm² 的大型 GPU。傳統上這種晶片很難以經濟的方式達成高良率。然而,由於其核心(SM,流式多處理器)具備容錯能力,製造缺陷不會讓整個產品報廢。該晶片實際上有 144 個 SM,但商業化產品僅啟用 132 個 SM,這意味著即便有多達 12 個 SM 出現缺陷,該產品仍可作為旗艦型號銷售。
容錯率是良率的關鍵
傳統上,晶片尺寸直接影響晶片良率。但在現代,良率是晶片尺寸與容錯率的函數。過去被認為無法經濟商業化的 800mm² 晶片,透過容錯設計,現已成為主流產品。
容錯率的程度可由缺陷發生時損失的晶片面積來衡量。對於多核心晶片而言,核心越小,容錯率越高。如果單個核心足夠小,就有可能製造非常大的晶片。
Wafer Scale Engine 核心
在 Cerebras,決定構建晶圓級晶片之前, Cerebras 首先設計了一個非常小的核心。Wafer Scale Engine 3 中的每個 AI 核心約為 0.05mm²,僅為 H100 SM 核心大小的約 1%。這兩種核心設計均具備容錯能力,這意味著一個 WSE 核心的缺陷僅會損失 0.05mm²,而 H100 則會損失約 6mm²。從理論上來看,Cerebras Wafer Scale Engine 的容錯率比 GPU 高約 100 倍,考慮的是缺陷對矽面積的影響。
路由架構
但僅僅擁有小核心還不夠。 Cerebras還開發了一種精密的路由架構,能夠動態重新配置核心之間的連接。當偵測到缺陷時,系統可透過冗餘通信路徑自動繞過缺陷核心,並利用鄰近核心保持晶片的整體運算能力。
該路由系統與小量備用核心協同工作,能夠替換受缺陷影響的核心。與以往需要大規模冗餘的方式不同, Cerebras的架構透過智慧型路由實現了以最少備用核心達成高良率。
晶圓級的實際運作
讓 Cerebras比較在 TSMC 5nm、300mm 晶圓上的傳統 GPU 和晶圓級晶片的良率:
左側是一個類似 H100 的 GPU:面積為 814mm²,包含 144 個容錯核心,單個 300mm 晶圓可產生 72 個完整晶片。右側是 Cerebras Wafer Scale Engine 3,其為一個 46,225mm² 的大型正方形晶片,擁有 970,000 個容錯核心。一個晶圓只能產出一片晶片。
在當前的 TSMC 5nm 節點下,TSMC 製程的缺陷密度約為每 mm² 0.001。72 個 GPU 晶片的總面積為 58,608mm²,按此缺陷密度運算,這些面積中將出現 59 個缺陷。假設每個缺陷都影響不同核心,則每個核心面積為 6.2mm²,總計會損失 361mm² 的晶片面積。
對於 Cerebras 來說,有效晶片面積稍小,為 46,225mm²,按相同的缺陷密度,將會出現 46 個缺陷。每個核心僅為 0.05mm²,因此總損失面積僅為 2.2mm²。
總體來說,在相同製程和缺陷率下,GPU 的損失矽面積比 Wafer Scale Engine 多 164 倍。
儘管上述運算簡化了部分細節,但其基本規律依舊成立:核心越小,容錯率越高。
Cerebras 的卓越表現
讓 Cerebras回顧比較表,並將 Cerebras Wafer Scale Engine 加入其中。與 Nvidia 的資料中心 GPU 一樣,WSE-3 採用了容錯設計,並禁用了部分核心以管理良率。由於 Cerebras的核心非常小,總核心數量高達 970,000 個,當前商業化產品中啟用 900,000 個核心,提供了極為精細的容錯能力。
儘管 Cerebras建造了世界上最大的晶片, Cerebras的矽面積使用率達到 93%,高於當今領先的 GPU。
Cerebras 透過設計小型容錯核心和容錯片上結構,解決了晶圓級製造挑戰。儘管總晶片面積比傳統 GPU 增加了約 50 倍,但 Cerebras將單一核心大小縮小了約 100 倍。結果,缺陷對 WSE 的損害遠低於傳統多核心處理器。第三代 WSE 引擎達到 93% 的矽使用率,這證明晶圓級運算不僅是可能的,更能在商業規模下實現。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!