AI引爆網站資料爭奪戰:爬蟲機器人遭遇封鎖潮

AI引爆網站資料爭奪戰:爬蟲機器人遭遇封鎖潮

ADVERTISEMENT

在生成式AI技術不斷進步的時代背景下,許多人認為這項技術會越來越強大。然而,生成式AI模型的品質取決於其訓練資料的龐大規模,而這些資料集並非來自OpenAI或Anthropic等AI公司的專有資料,而是由全球使用者在網際網路上創造的公共資料構成的。這些資料包括部落格文章、影片、論壇評論等,這些都是訓練AI模型的重要資源。

然而,隨著越來越多的網站開始封鎖網路爬蟲(crawler bot),這些AI模型的訓練資料可能會面臨短缺的風險。一份來自Data Provenance Initiative(資料來源倡議)的報告「同意危機:AI資料公有領域的快速衰退」揭示了這一問題。該報告指出,許多感受到生成式AI威脅的組織正在採取措施,將自己的資料封鎖起來,這對於依賴網路爬蟲獲取資料的AI公司來說無疑是一個巨大挑戰。

網站如何封鎖網路爬蟲

早在1995年,機器可讀的「robots.txt」協議就已被引入,用來告知網路爬蟲哪些網站內容可以爬取,哪些不能。當時,這項技術主要用於幫助搜尋引擎(如Bing或Google)更好地索引網頁內容,提升使用者的搜尋體驗。這是一種互利共生的關係,因為搜尋引擎的運作依賴於為網站帶來流量,而網站則希望通過搜尋引擎獲得更多造訪者。因此,大多數網站都願意與爬蟲「和平共處」。

然而,生成式AI的興起改變了這一局面。許多大型AI模型依賴於從網際網路上抓取的龐大資料集進行訓練,這些資料集中包含了大量高品質的內容,例如新聞網站、學術資料庫、社群媒體等。然而,隨著越來越多的網站開始使用「robots.txt」封鎖爬蟲,這些資料的獲取變得越來越困難。尤其是那些依賴廣告收益或有付費牆的網站,如新聞媒體和藝術家網站,對生成式AI可能侵害其利益的擔憂,使得它們採取措施來保護自己的資料。

「robots.txt」協議雖然能夠有效地指導爬蟲,但它並不具備法律強制力。換句話說,爬蟲是否遵守這一協議取決於其設計者的道德自律。然而,許多爬蟲,特別是那些來自小型初創公司、學術機構、非營利組織或新聞工作者的爬蟲,往往會遵守「robots.txt」,而這些爬蟲往往並不是網站希望阻止的對象。

高品質資料的流失

在Data Provenance Initiative的研究中,研究人員分析了三個常用來訓練生成式AI系統的資料集,這些資料集都來自過去的網路爬取。他們發現,從2023年至2024年,這些資料集中有大量被爬取的網站域名已經設定了爬蟲限制。以C4資料集為例,該資料集於2019年創建,在不到一年的時間裡,約有5%的資料已被網站收回。雖然這個比例看似不高,但這5%的資料往往代表著高品質、更新頻繁的內容。特別是在該資料集的前2000個網站中,約25%的資料已經被網站撤回,這意味著生成式AI模型的訓練資料來源正快速從高品質的新聞、學術網站、社群媒體轉向更個人化的網站和電子商務平台。

這樣的變化對於未來的生成式AI模型來說可能是一個重大挑戰。如果AI模型的訓練資料主要來自個人部落格或購物網站,那麼當我們要求它回答複雜問題時,其答案的準確性和可靠性可能會大打折扣。

過去的資料集是否仍然有效?

雖然過去的資料集仍然存在,但僅依賴這些資料進行訓練並非長久之計。首先,資料的新鮮度至關重要,因為網際網路上的資訊每天都在不斷更新。其次,儘管「robots.txt」協議本身無法追溯適用,但許多出版商可能會主張其內容不應被AI模型繼續使用,這也使得AI公司面臨潛在的法律風險。

合成資料能否填補空白?

為應對資料來源減少的問題,許多大公司開始使用合成資料進行模型訓練。雖然合成資料有助於補充訓練資料的不足,但其品質和可靠性仍需進一步檢驗。尤其是低品質或重複的合成資料可能導致模型性能的下降,這一點在研究中已經得到證實。然而,高品質的合成資料仍然具有潛力,尤其是在針對特定領域進行優化時。

未來的趨勢和可能的解決方案

隨著時間的推移,更多的網站可能會採取措施限制網路爬蟲,這將使得生成式AI模型的訓練變得更加困難。未來,AI公司可能需要尋求直接與資料來源達成許可協議,或者通過技術手段從隱藏或難以提取的資料中挖掘有價值的信息。

Data Provenance Initiative的研究人員希望看到一個新的標準能夠誕生,這個標準可以讓資料創作者更精細地表達他們對資料使用的偏好。這不僅有助於保護資料創作者的權益,也可以減輕網站管理者的負擔。然而,標準的制定者無論是AI公司還是其他組織,都可能帶有自身的利益偏見,這使得標準化的實施面臨挑戰。

總的來說,隨著資料戰爭的加劇,生成式AI的發展可能會受到一定的限制。無論是從法律還是技術的角度,AI行業都需要探索新的方法來確保模型能夠持續獲得高品質的訓練資料,以維持其在信息生成和應用領域的領先地位。

netizen
作者

一個老派的科技媒體工作者,對於最新科技動態、最新科技訊息的觀察報告。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則