ADVERTISEMENT
中國電信的人工智慧研究院聲稱,他們僅使用國產算力就訓練出了一個千億參數的模型,這表明儘管西方技術出口對中國實行制裁,中國仍未受到重大影響。
該模型名為 TeleChat2-115B,根據 9 月 20 日發布的 GitHub 更新資訊,它是「完全使用國產算力進行訓練並開源」的。
「這款開源的TeleChat2-115B模型使用了10兆的高品質中英文語料庫進行訓練,」該項目的GitHub頁面表示。
該頁面還暗示了中國電信訓練該模型的方式,其中提到了與「Ascend Atlas 800T A2 訓練伺服器」的相容性——這是一款華為產品,支援鯤鵬 920 7265 或鯤鵬 920 5250 處理器,分別以 3.0GHz 頻率運行 64 個核心和以 2.6GHz 頻率運行 48 個核心。
華為使用 Arm 8.2 架構構建這些處理器,並宣稱採用 7 奈米製程生產。
擁有100億參數的TeleChat2與最近的Llama模型相比稍顯遜色,Llama模型據說擁有超過400億參數,或OpenAI的模型,據推測其訓練參數達200億。雖然僅以參數數量無法完全評估模型的實力或實用性,但較低的參數數量表明訓練 TeleChat2 可能比其他項目所需的算力更少。
這或許就是為何沒有提到GPU的原因——儘管 Ascend 訓練伺服器配備了一個非常普通的 GPU,用於以 1920 × 1080 的解析度、60Hz 的刷新率和 1600 萬種顏色驅動顯示器。
因此,訓練該模型所使用的基礎設施看起來與中國以外的裝備並不完全對等,這表明技術出口制裁並未阻止中國追求其AI目標。
也許,它可以透過其他方式實現目標,例如中國電信的龐大規模。該電信商的收入超過 700 億美元,來自其提供的超過 5 億有線和無線訂閱。它也是 OpenStack 的最大使用者和推廣者之一。即使無法獲得最新最好的 AI 硬體,中國電信仍然可以集結充足的算力。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!