robots.txt 的混亂時代？數百個網站錯誤封鎖AI爬蟲，因為AI公司不斷推出新爬蟲

許多網站試圖阻止AI公司Anthropic抓取他們的內容，但卻封鎖錯了對象。這是因為網站管理員複製貼上了過時的指示到他們的robots.txt檔案中（robots.txt是網站用來告知搜尋引擎爬蟲哪些頁面可以抓取的檔案）。同時，AI公司不斷推出新的爬蟲機器人，且每次都使用不同的名字，導致網站除非更新robots.txt，否則無法有效封鎖。

這些網站封鎖了 Anthropic 公司已經不再使用的兩個爬蟲機器人，但卻沒有封鎖 Anthropic 真正（而且是新的）的爬蟲機器人。

Dark Visitors 的匿名營運者告訴媒體，這是「robots.txt 現狀有多混亂的一個例子」。 Dark Visitors 網站專門追蹤各種網路爬蟲和抓取工具的動態，這些網路爬蟲和抓取工具有不少是由AI公司所開發的。Dark Visitors 可以幫助網站定期更新其 robots.txt 檔案，以防止特定類型的資料爬取。隨著越來越多人試圖阻止 AI 爬取內容，Dark Visitors 網站的人氣急劇上升。

他們補充道：「代理程式的生態系統正在快速變化，因此網站所有者幾乎不可能用手動的方式跟上。例如，蘋果（Applebot-Extended）和 Meta（Meta-ExternalAgent）分別在上個月和上週才新增了新的代理程式。」

Dark Visitors 追蹤數百個網路爬蟲和爬取工具，試圖解釋每個爬取工具的功能，並讓網站所有者不斷更新其網站的 robots.txt 檔案，這是一組指令，告訴機器人是否有權爬取網站。我們一次又一次地看到，AI 公司經常會找到方法，偷偷的爬取他們不應該爬取的網站，或者在某些情況下，他們乾脆忽視 robots.txt。這導致一些網站無論機器人的用途如何都封鎖所有爬蟲，或者只允許少數幾個特定的爬蟲（Reddit 現在只被 Google 爬取就是因為這個原因）。這可能會導致搜尋引擎、網路存檔工具和學術研究被封鎖，即使這並非網站所有者的本意。

延伸閱讀：AI搜尋引擎Perplexity深陷剽竊風暴，遭指控無視Robots協議爬取內容，CEO出面回應
延伸閱讀：AI 訓練資料告急！網路內容限制引發同意危機

就 Anthropic 的例子來說，一些熱門網站的 robots.txt 檔案，包括路透社（Reuters.com）和康泰納仕（Condé Nast）旗下的網站，正在封鎖兩個名為 ANTHROPIC-AI 和 CLAUDE-WEB 的人工智慧爬蟲機器人，這些機器人曾經屬於 Anthropic 並被 Claude 聊天機器人使用。但 Anthropic 目前活躍的爬蟲被稱為 CLAUDEBOT。然而，路透社和康泰納仕都沒有封鎖 CLAUDEBOT。這意味著這些網站以及數百個複製貼上舊封鎖列表的其他網站，實際上並沒有封鎖 Anthropic。

上週，維修指南網站 iFixit 表示，Anthropic 的爬蟲一天內造訪其網站近百萬次。程式碼檔案部署服務 Read the Docs 發表文章稱，各種爬蟲大規模造訪其伺服器。其中一個爬蟲程式在一天內存取了10 TB 的檔案，5月份總共存取了73 TB 的檔案：「這讓我們的頻寬費用超過 5,000 美元，我們不得不封鎖這個爬蟲，」他們寫道。「我們要求所有人工智慧公司更尊重他們正在爬取的網站。他們正冒著被許多網站因濫用而封鎖的風險，這與行業中存在的其他版權和道德問題無關。」

Anthropic 的發現發表在 Data Provenance Initiative 的一份報告中，該報告顯示了內容創作者和網站所有者在試圖阻止 AI 工具對他們的作品進行訓練時，所面臨的混亂。阻止 AI 爬取工具的責任完全由網站所有者承擔，而且爬取工具的數量不斷增加。新的爬取機器人（通常稱為「使用者代理」）不斷出現，AI 公司有時會忽略網站所有者明確提出的願望，而且看似與知名公司有關的機器人，有時根本與它們無關。

Data Provenance Initiative 在其論文中寫道：「這些無法識別的代理（ANTHROPIC-AI 和CLAUDE-WEB）的來源和原因仍不清楚——Anthropic 報告不擁有這些代理。」最初，數據溯源倡議組織不確定這些機器人是否由Anthropic營運，除了ANTHROPIC-AI在robots.txt封鎖列表中廣泛流傳（這些列表經常在網站之間複製/貼上）之外，沒有太多公開證據表明ANTHROPIC-AI存在。

Data Provenance Initiative 在其報告中寫道：「這些無法辨識的代理（ANTHROPIC-AI 和 CLAUDE-WEB）的來源和原因仍不清楚，而 Anthropic 則宣稱不擁有這些代理機器人。」最初，Data Provenance Initiative 不確定這些機器人是否真的由 Anthropic 營運，除了它們被廣泛流傳在 robots.txt 封鎖列表上這一事實外，幾乎沒有公開證據表明 ANTHROPIC-AI 曾經存在，而這些列表通常是從一個網站複製貼上到另一個網站的。

Anthropic 告訴媒體，ANTHROPIC-AI 和 CLAUDE-WEB 都是該公司曾經使用過的舊爬蟲，但現在已經不再使用。 Anthropic 沒有回答關於真正的代理 CLAUDEBOT 是否尊重已封鎖 CLAUDE-WEB 或 ANTHROPIC-AI 的網站的 robots.txt，或者何時進行切換的問題。但 Dark Visitors 的營運商表示，CLAUDE-WEB 直到最近才停止運作，他們在 7 月 12 日還在他們的測試網站上看到過 CLAUDE-WEB。

Data Provenance Initiative 的報告指出：「AI 代理之間的這些不一致和遺漏說明，域名創建者承擔了很大的負擔，需要了解（越來越多的）開發人員不斷發展的代理規範。」

該研究的主要作者 Shayne Longpre 說：「有許多、許多網站列出了他們正在封鎖虛假的 Anthropic 代理，但他們並沒有列出 CLAUDEBOT，這才是真正的 Anthropic 的爬蟲。這意味著網站實際上並沒有封鎖他們認為正在封鎖的爬蟲。」

延伸閱讀：一份君子協議的robots.txt維持了網際網路30年來的秩序，但AI的出現破壞了這種信任和平衡

軟體開發人員羅布·奈特（Robb Knight）發現 Perplexity 繞過 robots.txt 爬取不應該爬取的網站，他告訴 404 Media，在很多情況下，很難判斷使用者代理的作用或誰在操作它。「包括我在內，人們正在做的事情是複製/貼上代理列表，而不驗證每個代理是否是真的，」他說。奈特補充說，《華爾街日報》和許多新聞集團旗下的網站目前正在封鎖一個名為 Perplexity-ai 的機器人，而這個機器人可能根本不存在（Perplexity 的爬蟲是 PerplexityBot）。

他說：「我們在任何地方都看不到這個爬蟲的證據。我的猜測是，新聞集團某個網站的某個人在某個時候新增了這個爬蟲，然後它被複製到了他們擁有的其他網站上。」

其他專家同意，當前的使用者代理環境非常混亂，但表示大多數網站管理員可以而且應該在封鎖可疑的AI爬蟲方面犯錯，因為「封鎖」一個不存在的代理不會造成任何傷害。

StackAware 的 CEO華特‧海道克（Walter Haydock）認為，封鎖不存在的爬蟲並不會造成影響。更廣泛地來看，這顯示出大眾對於AI如何（以及應該如何）訓練，存在著許多困惑和不確定性。

他進一步指出，要阻止AI公司的爬蟲，必須仰賴這些公司遵守 robots.txt 的規範，並且要掌握所有AI爬蟲的資訊。然而，這兩者同時發生的可能性對大多數組織來說相當低。因此，他預期將會有更多內容創作者將他們的作品置於付費牆後，以防止不受限制的內容抓取。

在GitHub上維護AI機器人封鎖列表的軟體開發人員柯瑞·德蘭斯菲爾特（Cory Dransfeldt）表示：「考慮到Perplexity等公司的行為，我傾向於在封鎖機器人方面更加激進。」

他說：「絕對有很多[robots.txt]列表被複製和貼上。我交談過的人對科技行業廣泛接受網路爬取感到沮喪，他們正在尋找解決辦法。」

延伸閱讀：從 robots.txt 到壟斷！Reddit 封鎖爬蟲，Google 則花6000萬美元獨佔 Reddit 搜尋結果
延伸閱讀：Reddit 大動作封鎖 Bing 搜尋，Google 獨享爬蟲權限
資料來源：404media