iFixit網站管理員抱怨Claude來抓資料根本是DDoS攻擊,1天超過數百萬次抓取資料訓練AI

iFixit網站管理員抱怨Claude來抓資料根本是DDoS攻擊,1天超過數百萬次抓取資料訓練AI

Claude 是人工智慧開發商 Anthropic 開發的人工智慧應用程式,和大多數人工智慧開發商一樣,Anthropic 派出的爬蟲每天會在網路上檢索並抓取海量內容用來訓練人工智慧模型。而iFixit 是業界知名的拆解維修網站,該網站有諸多文字和圖片類的拆解文章,於是 Anthropic 派出的爬蟲也對 iFixit 發起了瘋狂的抓取。

該網站管理員在 X/Twitter 上抱怨稱:「我知道你渴望資料,Claude 真的很聰明,但你真的需要在 24 小時內對我們的伺服器進行一百萬次攻擊嗎?你不僅不付費就竊取了我們的內容,還佔用了我們的開發營運資源,這太不OK了。」

網站日誌顯示 ClaudeBot 每分鐘對 iFixit 發起數以千計的訪問,這會對 iFixit 伺服器產生負面影響,因為這種抓取不僅會消耗伺服器 CPU 資源還會消耗網路頻寬,任何一個網站都不願意看到這種情況。

iFixit 在接受 404media 採訪時表示,「我們是世界上最大的維修資訊資料庫,如果他們未經允許就把所有資訊都拿走、導致我們伺服器癱瘓。iFixit 目前擁有數百萬個連結,包括各種維修指南、維修修訂歷史、部落格、新聞文章、研究、論壇、社區貢獻的維修指南以及問答等。」

對於抱怨,Anthropic 的支援團隊並未道歉,並且給出了如下回應:「按照行業標準 Anthropic 使用各種資料來源進行模型開發,例如通過網路爬蟲收集的Internet上的公開資料。我們的抓取不應該具有侵擾性和破壞性,我們的目標是適當的情況下尊重抓取延遲將干擾降到最低。」

對網站來說,最簡單的解決方式就是直接遮蔽 Claude 爬蟲,要遮蔽的話可以在 robots.txt 里新增以下內容:

User-agent: ClaudeBotDisallow: /

當然為了保險起見,還需在 Nginx 上使用了正規表示式匹配 ClaudeBot 爬蟲,如果 ClaudeBot 爬蟲未遵守 robots.txt 協議繼續抓取,那可以直接攔截。

 

 

 

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則