ADVERTISEMENT
馬斯克在 CES 期間接受採訪時指出,現實世界能用來訓練 AI 模型的資料,已經消耗得差不多了。馬斯克表示,基本上,AI 訓練已經將人類累積的知識全數耗盡,而這個時間點就是去年(2024 年)。
馬斯克的這一觀點呼應了 OpenAI 前科學長 Ilya Sutskever 在 NeurIPS 2024 上提出「AI 產業能夠消耗的資料已經達到了巔峰」這個觀點,不僅引起了廣泛的討論,也為 AI 未來的發展方向指明了新的道路。
Sutskever 的論點主要基於以下幾點:
ADVERTISEMENT
- 網路資料的有限性: 儘管網際網路上的資料量龐大,但相對於 AI 模型日益增長的胃口而言,仍是有限的。
- 資料品質的問題: 許多網上資料內容有雜訊、偏見或不一致性,這些問題會影響模型的訓練效果。
- 資料隱私的限制: 隨著隱私保護意識的增強,獲取和使用資料的限制越來越多,這也阻礙了 AI 模型的訓練。
合成資料:AI 發展的新曙光
面對資料的瓶頸,Sutskever 和馬斯克都將目光投向了合成資料(synthetic data)。合成資料是指由 AI 自行生成、模擬真實世界的資料。相較於現實世界資料,合成資料具有以下優勢:
- 數量不受限: 可以根據需要生成任意大量的資料。
- 品質可控: 可以精確控制資料的分布和特徵。
- 隱私保護: 可以避免使用真實用戶的個人資料。
馬斯克認為,補充現實世界資料的唯一方法就是合成資料,由 AI 自行生成用於訓練的資料,透過合成資料,AI 將能夠為自己打分,並展開自我學習的過程。
事實上,許多科技巨頭已經開始使用合成資料來訓練 AI 模型,微軟、Meta、OpenAI 及 Anthropic 等企業已經在其 AI 模型訓練中廣泛應用合成資料。
ADVERTISEMENT
科技市場研究機構 Gartner 估計,2024 年 AI 及分析項目使用的資料中,約 60% 是合成資料。
例如,微軟在 1 月 8 日開源的 AI 模型「Phi-4」就是透過合成資料結合現實世界資料進行訓練的,Google 的「Gemma」模型也採用了類似的做法。
Anthropic 使用部分合成資料開發了表現最佳的系統之一「Claude 3.5 Sonnet」,而 Meta 則運用 AI 生成資料來微調其最新推出的 Llama 系列模型。
ADVERTISEMENT
ADVERTISEMENT