矛盾的大型語言模型：科技巨頭訓練模型時猛撈他人資料，但卻不允許自身資料外流

「你的就是我的，我的還是我的」在生成式 AI 盛行的全新時代，大型科技公司在使用線上內容時正在奉行這樣的策略。

隨著大型語言模型（LLM）成為 AI 發展的主流趨勢，無論是大型還是初創公司，都在不遺餘力地開發自己的大型語言模型。其中訓練資料是大型語言模型能力好壞的重要前提。

近日，根據 Insider 的報導，微軟支援的 OpenAI、Google及其支援的 Anthropic 多年來一直在使用其他網站或公司的線上內容來訓練他們的生成式 AI 模型。這些都是在沒有徵求對方許可的情況下完成的，並將可能會構成一場醞釀中的法律鬥爭的一部分，這場官司很可能決定了網路的未來以及版權法在這一新時代的應用方式。

這些大型科技公司可能會爭辯說他們是「合理使用」，是否真的如此還有待商榷。但是，他們卻不會讓自己的內容被用來訓練其他 AI 模型。

所以不禁要問，在同樣的標準下，為什麼這些大型科技公司卻能在訓練大型語言模型時使用其他公司的線上內容呢？

延伸閱讀：訓練ChatGPT語言模型不夠力，OpenAI外包商開除了31名的AI數據訓練師

這些公司很聰明，但也非常虛偽

大型科技公司使用他人線上內容卻不允許他人使用自己的，這種說法是否有確切證據，這可以從他們一些產品的服務和使用條款中看出端倪。

首先來看 Claude，它是 Anthropic 推出的類似於 ChatGPT 的 AI 助手。該系統可以完成摘要總結、搜尋、協助創作、問答、編碼等任務。前段時間再次升級，將上下文 token 擴展到了 100k，處理速度大大加快。

Claude 的服務條款是這樣的。你不得以下列方式（這裡列舉出部分）使用本服務，如果這些限制的任何一項與可接受使用政策不一致或不明確，則以後者依從為先：

開發與我們的服務競爭的任何產品或服務，包括開發或訓練任何 AI 或機器學習演算法或模型
未經條款允許，從我們的服務中抓取、爬取或以任何其他方式獲取資料或資訊

Claude 服務條款地址：https://vault.pactsafe.io/s/9f502c93-cb5c-4571-b205-1e479da61794/legal.html#terms

同樣地，Google的生成式 AI 使用條款也是如此，「你不得使用本服務來開發機器學習模型或相關技術。」

Google生成式 AI 使用條款地址：https://policies.google.com/terms/generative-ai

OpenAI 的使用條款又怎樣呢？與Google類似，「你不得使用本服務的輸出來開發與 OpenAI 競爭的模型。」

這些公司很聰明，他們知道高品質的內容對於訓練新的 AI 模型至關重要，所以不允許別人用這樣的方式使用他們的輸出也是合情合理的。

但是，他們卻無所顧忌地利用他人資料來訓練自己的模型，這又該如何解釋呢？

Reddit、Twitter和其他公司：受夠了

實際上，其他公司意識到正在發生的事情時並不高興。今年 4 月，多年來一直被用於 AI 模型訓練的 Reddit 計畫開始對其資料的使用收費。

Reddit 首席執行長 Steve Huffman 表示，「Reddit 的資料語料庫非常有價值，因此我們不能把這些價值免費提供給世界上最大的公司。」

同樣今年 4 月，馬斯克指責 OpenAI 的主要支持者微軟非法使用 Twitter 的資料來訓練 AI 模型。「訴訟時間到」他在Twitter上寫道。

不過在回覆 Insider 的置評時，微軟表示「這個前提有太多的錯誤，我甚至不知道從何說起。」

OpenAI 首席執行長 Sam Altman 試圖通過探索尊重版權的全新 AI 模型來深化這個問題。據 Axios 報導，他於近期表示，「我們正在嘗試開發新的模式，如果 AI 系統使用了你的內容，或者使用了你的風格，你就會因此獲得報酬。」

如果成真，出版商都會是既得利益獲得者。此外，包括美國新聞集團在內的一些出版商已經在推動科技公司付費使用其內容訓練 AI 模型。

目前 AI 模型的訓練方式“打破”了網路

有前微軟高層表示這一定有問題。微軟老將、著名軟體開發者 Steven Sinofsky 認為，目前 AI 模型的訓練方式“打破”了網路。

Steven Sinofsky

也許，隨著更多公司的覺醒，生成式 AI 時代這一不均衡的資料使用方式會很快被改變。