robots.txt 的混亂時代?數百個網站錯誤封鎖AI爬蟲,因為AI公司不斷推出新爬蟲

robots.txt 的混亂時代?數百個網站錯誤封鎖AI爬蟲,因為AI公司不斷推出新爬蟲

ADVERTISEMENT

許多網站試圖阻止AI公司Anthropic抓取他們的內容,但卻封鎖錯了對象。這是因為網站管理員複製貼上了過時的指示到他們的robots.txt檔案中(robots.txt是網站用來告知搜尋引擎爬蟲哪些頁面可以抓取的檔案)。同時,AI公司不斷推出新的爬蟲機器人,且每次都使用不同的名字,導致網站除非更新robots.txt,否則無法有效封鎖。

這些網站封鎖了 Anthropic 公司已經不再使用的兩個爬蟲機器人,但卻沒有封鎖 Anthropic 真正(而且是新的)的爬蟲機器人。

Dark Visitors 的匿名營運者告訴媒體,這是「robots.txt 現狀有多混亂的一個例子」。 Dark Visitors 網站專門追蹤各種網路爬蟲和抓取工具的動態,這些網路爬蟲和抓取工具有不少是由AI公司所開發的。Dark Visitors 可以幫助網站定期更新其 robots.txt 檔案,以防止特定類型的資料爬取。隨著越來越多人試圖阻止 AI 爬取內容,Dark Visitors 網站的人氣急劇上升。

他們補充道:「代理程式的生態系統正在快速變化,因此網站所有者幾乎不可能用手動的方式跟上。例如,蘋果(Applebot-Extended)和 Meta(Meta-ExternalAgent)分別在上個月和上週才新增了新的代理程式。」

Dark Visitors 追蹤數百個網路爬蟲和爬取工具,試圖解釋每個爬取工具的功能,並讓網站所有者不斷更新其網站的 robots.txt 檔案,這是一組指令,告訴機器人是否有權爬取網站。我們一次又一次地看到,AI 公司經常會找到方法,偷偷的爬取他們不應該爬取的網站,或者在某些情況下,他們乾脆忽視 robots.txt。這導致一些網站無論機器人的用途如何都封鎖所有爬蟲,或者只允許少數幾個特定的爬蟲(Reddit 現在只被 Google 爬取就是因為這個原因)。這可能會導致搜尋引擎、網路存檔工具和學術研究被封鎖,即使這並非網站所有者的本意。

就 Anthropic 的例子來說,一些熱門網站的 robots.txt 檔案,包括路透社(Reuters.com)和康泰納仕(Condé Nast)旗下的網站,正在封鎖兩個名為 ANTHROPIC-AI 和 CLAUDE-WEB 的人工智慧爬蟲機器人,這些機器人曾經屬於 Anthropic 並被 Claude 聊天機器人使用。但 Anthropic 目前活躍的爬蟲被稱為 CLAUDEBOT。然而,路透社和康泰納仕都沒有封鎖 CLAUDEBOT。這意味著這些網站以及數百個複製貼上舊封鎖列表的其他網站,實際上並沒有封鎖 Anthropic。

上週,維修指南網站 iFixit 表示,Anthropic 的爬蟲一天內造訪其網站近百萬次。程式碼檔案部署服務 Read the Docs 發表文章稱,各種爬蟲大規模造訪其伺服器。其中一個爬蟲程式在一天內存取了10 TB 的檔案,5月份總共存取了73 TB 的檔案:「這讓我們的頻寬費用超過 5,000 美元,我們不得不封鎖這個爬蟲,」他們寫道。「我們要求所有人工智慧公司更尊重他們正在爬取的網站。他們正冒著被許多網站因濫用而封鎖的風險,這與行業中存在的其他版權和道德問題無關。」

Anthropic 的發現發表在 Data Provenance Initiative 的一份報告 中,該報告顯示了內容創作者和網站所有者在試圖阻止 AI 工具對他們的作品進行訓練時,所面臨的混亂。阻止 AI 爬取工具的責任完全由網站所有者承擔,而且爬取工具的數量不斷增加。新的爬取機器人(通常稱為「使用者代理」)不斷出現,AI 公司有時會忽略網站所有者明確提出的願望,而且看似與知名公司有關的機器人,有時根本與它們無關。

Data Provenance Initiative 在其論文中寫道:「這些無法識別的代理(ANTHROPIC-AI 和CLAUDE-WEB)的來源和原因仍不清楚——Anthropic 報告不擁有這些代理。」最初,數據溯源倡議組織不確定這些機器人是否由Anthropic營運,除了ANTHROPIC-AI在robots.txt封鎖列表中廣泛流傳(這些列表經常在網站之間複製/貼上)之外,沒有太多公開證據表明ANTHROPIC-AI存在。

Data Provenance Initiative 在其報告中寫道:「這些無法辨識的代理(ANTHROPIC-AI 和 CLAUDE-WEB)的來源和原因仍不清楚,而 Anthropic 則宣稱不擁有這些代理機器人。」最初,Data Provenance Initiative 不確定這些機器人是否真的由 Anthropic 營運,除了它們被廣泛流傳在 robots.txt 封鎖列表上這一事實外,幾乎沒有公開證據表明 ANTHROPIC-AI 曾經存在,而這些列表通常是從一個網站複製貼上到另一個網站的。

Anthropic 告訴媒體,ANTHROPIC-AI 和 CLAUDE-WEB 都是該公司曾經使用過的舊爬蟲,但現在已經不再使用。 Anthropic 沒有回答關於真正的代理 CLAUDEBOT 是否尊重已封鎖 CLAUDE-WEB 或 ANTHROPIC-AI 的網站的 robots.txt,或者何時進行切換的問題。但 Dark Visitors 的營運商表示,CLAUDE-WEB 直到最近才停止運作,他們在 7 月 12 日還在他們的測試網站上看到過 CLAUDE-WEB。

Data Provenance Initiative 的報告指出:「AI 代理之間的這些不一致和遺漏說明,域名創建者承擔了很大的負擔,需要了解(越來越多的)開發人員不斷發展的代理規範。」

該研究的主要作者 Shayne Longpre 說:「有許多、許多網站列出了他們正在封鎖虛假的 Anthropic 代理,但他們並沒有列出 CLAUDEBOT,這才是真正的 Anthropic 的爬蟲。這意味著網站實際上並沒有封鎖他們認為正在封鎖的爬蟲。」

軟體開發人員羅布·奈特(Robb Knight)發現 Perplexity 繞過 robots.txt 爬取不應該爬取的網站,他告訴 404 Media,在很多情況下,很難判斷使用者代理的作用或誰在操作它。「包括我在內,人們正在做的事情是複製/貼上代理列表,而不驗證每個代理是否是真的,」他說。奈特補充說,《華爾街日報》和許多新聞集團旗下的網站目前正在封鎖一個名為 Perplexity-ai 的機器人,而這個機器人可能根本不存在(Perplexity 的爬蟲是 PerplexityBot)。

他說:「我們在任何地方都看不到這個爬蟲的證據。我的猜測是,新聞集團某個網站的某個人在某個時候新增了這個爬蟲,然後它被複製到了他們擁有的其他網站上。」

其他專家同意,當前的使用者代理環境非常混亂,但表示大多數網站管理員可以而且應該在封鎖可疑的AI爬蟲方面犯錯,因為「封鎖」一個不存在的代理不會造成任何傷害。

StackAware 的 CEO華特‧海道克(Walter Haydock)認為,封鎖不存在的爬蟲並不會造成影響。更廣泛地來看,這顯示出大眾對於AI如何(以及應該如何)訓練,存在著許多困惑和不確定性。

他進一步指出,要阻止AI公司的爬蟲,必須仰賴這些公司遵守 robots.txt 的規範,並且要掌握所有AI爬蟲的資訊。然而,這兩者同時發生的可能性對大多數組織來說相當低。因此,他預期將會有更多內容創作者將他們的作品置於付費牆後,以防止不受限制的內容抓取。

在GitHub上維護AI機器人封鎖列表的軟體開發人員柯瑞·德蘭斯菲爾特(Cory Dransfeldt)表示:「考慮到Perplexity等公司的行為,我傾向於在封鎖機器人方面更加激進。」

他說:「絕對有很多[robots.txt]列表被複製和貼上。我交談過的人對科技行業廣泛接受網路爬取感到沮喪,他們正在尋找解決辦法。」

netizen
作者

一個老派的科技媒體工作者,對於最新科技動態、最新科技訊息的觀察報告。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則