FB 建議貼文

選取貼文複製成功(包含文章連結)!

OpenAI 揭秘 GPT-4.5 研發全過程:10 萬張 GPU 叢集啟動,內部曾陷「災難性錯誤」

OpenAI 揭秘 GPT-4.5 研發全過程:10 萬張 GPU 叢集啟動,內部曾陷「災難性錯誤」

在 GPT-4.5 上線超過一個月後,OpenAI 近期罕見公開其開發背後的完整故事。執行長 Sam Altman 與三位 GPT-4.5 核心成員——系統架構師 Amin Tootoonchian、機器學習負責人 Alex Paino、以及資料效率專家 Daniel Selsam——進行一場長達 45 分鐘的技術對談,揭示這款模型在訓練過程中如何歷經延宕、故障與挑戰,最終完成堪稱 OpenAI 有史以來最複雜的 AI 專案。

十萬張 GPU 全力運轉,卻藏著致命 bug

GPT-4.5 的訓練啟動於兩年前,是 OpenAI 歷來規模最大、準備最充分的一次專案,幾乎動用了全公司資源。不過在規模從一萬張 GPU 擴展到十萬張的過程中,卻意外暴露出系統底層的潛在問題。

系統架構師 Amin Tootoonchian 在訪談中提到:「我們遇到的錯誤很多都不是新的,而是原本存在的小問題,在十萬張卡片的規模下變成了災難性的錯誤。」

其中一個 bug 甚至潛伏到訓練進度已達 40% 才被發現,導因於 torch.sum 的一個罕見記憶體運算錯誤,會在極特定情況下觸發非法記憶體存取,導致整個訓練程序中斷。這個 bug 原本出現頻率極低(每幾百甚至上千步才會發生一次),差點被誤判為偶發性錯誤。

Alex Paino 回憶當時情況:「我們開了好幾個錯誤追蹤頻道,大家都猜可能有多個問題,沒想到根本原因竟然是同一個看似無害的 bug。」

最後工程師修復該錯誤後,所有相關異常瞬間消失,讓整個團隊如釋重負,甚至將 Slack 頻道名稱從「多 bug 理論」改成「單 bug 理論」,成為訓練期間最戲劇化的一刻。

現在只需 10 人,就能打造 GPT-4 級模型

儘管挑戰重重,GPT-4.5 的訓練過程也讓 OpenAI 建立起更完整的技術堆疊。Alex Paino 表示,訓練 GPT-4.5 的經驗讓他們能以極小規模的團隊重建 GPT-4:「我們現在大概只需要 5 到 10 人,就能重做出 GPT-4 級別的模型,這在兩年前是不可想像的。」

這也反映出大型模型開發的門檻正在降低,不過要進一步超越 GPT-4.5,單靠堆疊 GPU 已經不再是關鍵。

算力不是問題,資料效率才是新瓶頸

OpenAI 團隊明確指出,未來突破的重點已從硬體轉向資料與演算法效率。Daniel Selsam 認為:「Transformer 架構對資料已經相當高效,但要從相同資料中學到更多,還需要新的演算法來突破目前的學習效率。」

同時,為了支撐下一代模型訓練需求,OpenAI 正在轉向「多叢集架構」,未來甚至考慮使用 1,000 萬張 GPU 同步訓練。但這樣的規模也意味著更高的容錯要求與系統協同設計挑戰。

Amin 也補充:「未來訓練的關鍵不是純粹疊硬體,而是系統與工作負載之間的深度協同。我們需要能容忍錯誤、能自我修復的訓練架構。」

Scaling Law 驗證持續有效,智慧提升無法預測但確實發生

在談到 GPT-4.5 的整體性能時,Sam Altman 提問:「我們真的達成比 GPT-4 聰明 10 倍的目標了嗎?」

Alex Paino 給出的回答是肯定的:「在我們投入的有效運算量對應下,GPT-4.5 展現出全方位的智慧增強,這種效果我們自己也沒預料到。」

Daniel 則進一步指出,雖然模型測試損失的下降可以預測,但真正令人驚訝的是這些下降如何轉化成無法量化卻明顯存在的智能提升:「你會發現模型更懂常識、理解語境更準、回答也更細膩,這些微妙的改變都不是原本測試可以明確指出的,但它們確實發生了。」

這也是為什麼 OpenAI 持續相信 Scaling Law(擴展法則)的原因——只要不斷提升模型規模與訓練效率,智慧會以難以預測但穩定發生的方式累積。

 

 

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則