AI 訓練資料告急！網路內容限制引發同意危機

多年來，開發 AI 系統的人們一直使用從網際網路中提取的大量文字、圖像和影片來訓練他們的模型。

現在，這些資料正在枯竭。

根據麻省理工學院（MIT）領導的研究小組資料來源計畫（Data Provenance Initiative）本週發表的一項研究，過去一年，許多用於訓練 AI 模型的最重要的網路來源已經限制了其資料的使用。

這項研究調查了包含在三個常用人工智慧訓練數據集中的14,000個網路域名，發現出現了一場「同意危機」，因為出版商和線上平台已採取措施防止他們的數據被採集。

研究人員估計，在三個名為 C4、RefinedWeb 和 Dolma 的資料集中，5% 的資料以及 25% 的高品質資料受到限制。這些限制是通過機器人排除協議（Robots Exclusion Protocol）設置的，這是一種使用名為robots.txt的檔案來防止自動機器人爬取網頁的數十年歷史方法。

延伸閱讀：一份君子協議的robots.txt維持了網際網路30年來的秩序，但AI的出現破壞了這種信任和平衡

該研究還發現，多達 45% 的 C4 資料集已被網站的服務條款限制。

該研究的主要作者夏恩·朗普雷（Shayne Longpre）在接受採訪時表示：「我們看到整個網路對使用數據的同意度正在迅速下降，這不僅會對 AI 公司產生影響，還會對研究人員、學者和非商業實體產生影響。」

資料是當今生成式 AI 系統的主要組成部分，這些系統被輸入了數十億個文字、圖像和影片範例。這些資料大多是由研究人員從公共網站上抓取並編譯成大型資料集，可以下載並免費使用，也可以用其他來源的資料補充。

從這些數據中學習，使得像OpenAI的ChatGPT、Google的Gemini和Anthropic的Claude這樣的生成式人工智慧工具能夠編寫程式碼、生成圖像和影片的原因。輸入這些模型的高品質資料越多，它們的輸出通常就越好。

多年來，AI 開發人員能夠相當輕鬆地收集資料。但過去幾年的生成式 AI 熱潮導致與這些數據所有者的關係緊張 - 其中許多人對被用作 AI 訓練素材感到擔憂，或者至少希望因此獲得報酬。

隨著反彈愈演愈烈，一些出版商設置了付費牆或更改了服務條款，以限制其資料用於 AI 訓練。其他人則封鎖了 OpenAI、Anthropic 和 Google 等公司使用的自動網路爬蟲。

Reddit 和 StackOverflow 等網站已開始向 AI 公司收取存取資料的費用，一些出版商也採取了法律行動，包括《紐約時報》去年起訴 OpenAI 和微軟侵犯版權，聲稱這些公司未經許可使用新聞文章來訓練他們的模型。

OpenAI、Google 和 Meta 等公司近年來竭盡全力收集更多資料來改進他們的系統，包括轉錄 YouTube 影片和改變自己的資料政策。

最近，一些 AI 公司與包括美聯社和《華爾街日報》所有者新聞集團（News Corp）在內的出版商達成了協議，讓他們可以持續使用他們的內容。

但是，廣泛的資料限制可能會對 AI 公司構成威脅，這些公司需要穩定的高品質資料供應來保持其模型的新鮮度和最新狀態。

它們也可能給依賴公共資料集且無力直接從出版商那裡獲得資料許可的小型 AI 公司和學術研究人員帶來麻煩。朗普雷說，Common Crawl 就是這樣一個資料集，它包含數十億頁的網路內容，由一個非營利組織維護，並已被超過 10,000 項學術研究引用。

目前尚不清楚哪些流行的 AI 產品已經接受過這些來源的訓練，因為很少有開發人員透露他們使用的完整資料清單。但源自 Common Crawl 的資料集，包括 C4（代表 Colossal、Cleaned Crawled Corpus），已被 Google 和 OpenAI 等公司用於訓練其模型的先前版本。Google 和 OpenAI 的發言人拒絕回應。

Hugging Face（一家為 AI 開發人員提供工具和資料的公司）的機器學習研究員 Yacine Jernite 將同意危機描述為對 AI 行業積極的資料收集做法的自然反應。

他說：「不出所料，在他們網路上分享的文字、圖像和影片被用來開發有時直接威脅他們生計的商業系統之後，我們看到資料創作者的強烈反彈。」

但他警告說，如果所有 AI 訓練資料都需要透過許可協議獲得，那麼「研究人員和民間社會將被排除在參與該技術的治理之外」。

非營利 AI 研究組織 EleutherAI 的執行董事史黛拉·畢德曼（Stella Biderman）也回應了這些擔憂。

她說：「大型科技公司已經擁有所有資料。更改數據許可並不會追溯撤銷該許可，其主要影響是對後來者，他們通常是較小的新創公司或研究人員。」

AI 公司聲稱，他們對公共網路資料的使用受到合理使用的法律保護。但收集新資料變得更加棘手。我交談過的一些 AI 高管擔心會遇到「數據牆」 - 這是他們的術語，指的是公共網際網路上的所有訓練資料都已用盡，其餘的則隱藏在付費牆後面，被 robots.txt 或鎖定在獨家交易中。

一些公司相信，他們可以透過使用合成資料（即由 AI 系統生成的資料）來訓練他們的模型，進而擴展資料牆。但許多研究人員懷疑，今天的 AI 系統是否能夠生成足夠多的高品質合成資料來取代他們正在失去的人工創建資料。

另一個挑戰是，雖然出版商可以嘗試透過在其 robots.txt 文件中設定限制來阻止 AI 公司抓取其資料，但這些請求不具有法律約束力，並且遵守是自願的。（把它想像成一個「禁止入內」的標誌，但沒有法律效力。）

主要的搜尋引擎都遵守這些拒絕請求，包括 OpenAI 和 Anthropic 在內的幾家領先的 AI 公司也公開表示他們也會這樣做。但其他公司，包括 AI 驅動的搜尋引擎 Perplexity，被指控無視它們。Perplexity 首席執行長亞拉文·史里尼瓦斯（Aravind Srinivas）說，該公司尊重出版商的資料限制。他補充說，雖然該公司曾經與並非總是遵守機器人排除協議的第三方網路爬蟲合作，但它已「與我們的提供商進行了調整，以確保他們代表 Perplexity 進行爬取時遵守 robots.txt」。

延伸閱讀：AI搜尋引擎Perplexity深陷剽竊風暴，遭指控無視Robots協議爬取內容，CEO出面回應
延伸閱讀：Perplexity 這家新創AI搜尋引擎被指控違反網路的基本規則，無視宣告任意爬取別人網站內容

朗普雷說，該研究的一大收穫是，我們需要新的工具來為網站所有者提供更精確的方法來控制其資料的使用。一些網站可能反對 AI 巨頭利用其資料來訓練聊天機器人以獲利，但可能願意讓非營利組織或教育機構使用相同的資料，他說。目前，他們沒有很好的方法來區分這些用途，或者在允許一種用途的同時阻止另一種用途。

但這也給大型 AI 公司上了一課，這些公司多年來一直將網際網路視為吃到飽的資料自助餐，而沒有給予這些資料的所有者太多回報。最終，如果你利用網路，網路就會開始關閉它的大門。

延伸閱讀：Cloudflare 推出一鍵封鎖AI爬蟲機器人的功能，保護網站內容免遭盜用
延伸閱讀：Reddit對AI公司和其他爬蟲發出警告：遵守我們的規則，否則會被封鎖
資料來源