AI 資料荒！馬斯克表示去年 AI 訓練已耗盡現實世界所有資料

馬斯克在 CES 期間接受採訪時指出，現實世界能用來訓練 AI 模型的資料，已經消耗得差不多了。馬斯克表示，基本上，AI 訓練已經將人類累積的知識全數耗盡，而這個時間點就是去年（2024 年）。

馬斯克的這一觀點呼應了 OpenAI 前科學長 Ilya Sutskever 在 NeurIPS 2024 上提出「AI 產業能夠消耗的資料已經達到了巔峰」這個觀點，不僅引起了廣泛的討論，也為 AI 未來的發展方向指明了新的道路。

Sutskever 的論點主要基於以下幾點：

面對資料的瓶頸，Sutskever 和馬斯克都將目光投向了合成資料（synthetic data）。合成資料是指由 AI 自行生成、模擬真實世界的資料。相較於現實世界資料，合成資料具有以下優勢：

馬斯克認為，補充現實世界資料的唯一方法就是合成資料，由 AI 自行生成用於訓練的資料，透過合成資料，AI 將能夠為自己打分，並展開自我學習的過程。

事實上，許多科技巨頭已經開始使用合成資料來訓練 AI 模型，微軟、Meta、OpenAI 及 Anthropic 等企業已經在其 AI 模型訓練中廣泛應用合成資料。

科技市場研究機構 Gartner 估計，2024 年 AI 及分析項目使用的資料中，約 60% 是合成資料。

例如，微軟在 1 月 8 日開源的 AI 模型「Phi-4」就是透過合成資料結合現實世界資料進行訓練的，Google 的「Gemma」模型也採用了類似的做法。

Anthropic 使用部分合成資料開發了表現最佳的系統之一「Claude 3.5 Sonnet」，而 Meta 則運用 AI 生成資料來微調其最新推出的 Llama 系列模型。