Cloudflare 推出一鍵封鎖AI爬蟲機器人的功能，保護網站內容免遭盜用

Cloudflare於週三向其網站託管客戶提供了一種方法，可以阻止AI機器人未經許可抓取網站內容並將數據用於訓練機器學習模型。

它這樣做是因為客戶對AI機器人的厭惡，並且「為了幫助內容創作者維護一個安全的網際網路」，它在一份聲明中表示。「我們清楚地聽到客戶不希望AI機器人造訪他們的網站，特別是那些不誠實的機器人。為了提供幫助，我們新增了一個一鍵封鎖所有AI機器人的功能。」

目前已經有一種廣泛可用的、對網站所有者來說相對有效的方法來阻止機器人，那就是robots.txt文件。當將其放置在網站的根目錄時，自動化網頁爬蟲程式應該會注意到並遵守文件中的指令，告訴它們不要進入。

由於普遍認為生成式AI是建立在盜竊的基礎上，而且有許多訴訟試圖追究AI公司的責任，那些販賣非法獲取內容的公司已經「大方地」允許網站發佈者選擇不讓他們的內容被盜用。

去年8月，OpenAI發布了關於如何使用robots.txt指令阻止其GPTbot爬蟲的指南，大概意識到人們擔心內容在未經同意的情況下被抓取並用於AI訓練。Google在接下來的一個月也採取了類似的措施。同樣在去年9月，Cloudflare開始提供一種阻止遵守規則的AI機器人的方法，據稱有85%的客戶啟用了這種封鎖。

延伸閱讀：一份君子協議的robots.txt維持了網際網路30年來的秩序，但AI的出現破壞了這種信任和平衡

現在，這家網路服務公司提供一個更強大的屏障來阻止機器人進入。網際網路「現在充斥著這些AI機器人」，它表示，這些機器人造訪了Cloudflare服務的前一百萬個網站中約39%。

問題在於，就像十五年前在瀏覽器中實施的「Do Not Track（請勿跟蹤）」標頭一樣，robots.txt 也可以被忽視，通常不會有任何後果。

最近的報告表明，AI機器人確實這樣做了。Amazon上週表示，它正在調查證據，表明代表AI搜尋公司Perplexity（AWS客戶）工作的機器人爬取了包括新聞網站在內的網站，並在未適當署名或獲得許可的情況下複製了它們的內容。

Amazon的雲端運算客戶應該遵守robots.txt，而Perplexity被指控沒有這樣做。這家AI新創公司的CEO Aravind Srinivas否認他的公司暗中無視該文件，不過承認被觀察到違背網站管理員意願抓取頁面的是 Perplexity 使用的第三方機器人。

延伸閱讀：AI搜尋引擎Perplexity深陷剽竊風暴，遭指控無視Robots協議爬取內容，CEO出面回應
延伸閱讀：Perplexity 這家新創AI搜尋引擎被指控違反網路的基本規則，無視宣告任意爬取別人網站內容

「遺憾的是，我們觀察到機器人運營商試圖透過偽裝用戶代理，使自己看起來像是真實的瀏覽器」，Cloudflare 表示。「我們一直在監控這種活動，我們很自豪地說，我們的全球機器學習模型總是能夠辨識這種活動，即使運營商在用戶代理上撒謊。」

Cloudflare表示，其機器學習評分系統在6月14日至6月27日期間，持續將偽裝的Perplexity機器人評分為30以下，表明它「很可能是自動化的」。

這種機器人檢測方法依賴於數位指紋，這是一種常用於網路追蹤人們並拒絕隱私的技術。爬蟲，就像個人網路使用者一樣，通常會基於透過網路相互讀取的技術細節而顯得與眾不同。

這些機器人傾向於使用相同的工具和框架來自動化造訪網站。憑藉一個平均每秒看到5700萬個請求的網路，Cloudflare有足夠的數據來確定哪些指紋是可以信任的。

所以事情發展到這個地步：機器學習模型抵禦那些為了餵養AI模型而搜尋的機器人，甚至免費的客戶也可以使用。所客戶只需在特定網站的安全性 -> 機器人選單中點擊「阻止 AI 抓取器和爬蟲」開關按鈕即可。

Cloudflare 表示：「我們擔心一些 AI 公司為了規避規則獲取內容，會持續調整以躲避機器人檢測。我們將繼續保持警惕，並在我們的 AI 抓取器和爬蟲規則中加入更多機器人阻止措施，同時改進我們的機器學習模型，以幫助保持網路成為一個內容創作者可以蓬勃發展並完全控制其內容用於哪些模型訓練或推理的地方。」

延伸閱讀：Reddit對AI公司和其他爬蟲發出警告：遵守我們的規則，否則會被封鎖
延伸閱讀：OpenAI公開「官方爬蟲」GPTBot，靠它爬取網路資料訓練GPT-5
資料來源