從 robots.txt 到壟斷!Reddit 封鎖爬蟲,Google 則花6000萬美元獨佔 Reddit 搜尋結果

從 robots.txt 到壟斷!Reddit 封鎖爬蟲,Google 則花6000萬美元獨佔 Reddit 搜尋結果

ADVERTISEMENT

Google 現在是唯一可以從 Reddit 搜尋出結果的搜尋引擎,使網路最有價值的使用者生成內容倉庫之一成為網路搜尋巨頭的獨占品。

如果你使用 Bing、DuckDuckGo、Mojeek、Qwant 或任何其他不依賴 Google 索引的替代搜尋引擎,並使用「site:reddit.com」去搜尋Reddit ,你將看不到過去一周的任何結果。DuckDuckGo 目前在搜尋 Reddit 時只會會出現7個連結,但不提供這些連結的去向或原因的任何資料,只是說「我們想要在此處為你顯示摘要,但網站不允許」。較舊的結果仍會顯示,但這些搜尋引擎不再能夠「爬取」Reddit,這意味著 Google 將是唯一能夠顯示 Reddit 結果的搜尋引擎。在獨立的付費搜尋引擎 Kagi 上搜尋 Reddit 仍然有效,Kagi 從 Google 購買了部分搜尋索引。

這個消息顯示了 Google 在搜尋方面的近乎壟斷地位,以及如何積極阻礙其他公司競爭的能力,這個時間點,剛好是 Google 因為其搜尋結果品質下降而面臨越來越多的批評。其他搜尋引擎被排除在外,也發生在 Reddit 限制對其網站的存取以阻止公司爬取其內容用於人工智慧訓練之後,目前只有 Google 可以繼續爬取 Reddit 的資料,這是基於一項數百萬美元的協議,該協議賦予 Google 爬取 Reddit 數據以訓練其 AI 產品的權利。

「他們 [Reddit] 正在扼殺除 Google 以外的所有搜尋引擎。」搜尋引擎 Mojeek 的首席執行長柯林·海赫斯特(Colin Hayhurst)在通話中告訴我。

海赫斯特在六月初 Mojeek 發現被禁止爬取該網站時嘗試透過電子郵件聯絡 Reddit,但表示尚未收到回覆。

「這以前從來沒有發生過。」他說。「因為這會發生在我們身上,我們被封鎖,通常是因為愚蠢或其他原因,當你聯絡網站時,你一定可以解決這個問題,但我們從未遇到過沒有任何人回覆的情況。」

「這與我們最近與 Google 的合作夥伴關係完全無關。由於我們最近與 Google 達成協議,說最近的 Reddit 結果沒有出現在非 Google 搜尋引擎中並不準確。」Reddit 發言人提姆‧拉史密特(Tim Rathschmidt)在電子郵件中說。他表示,Reddit 會封鎖所有不願意承諾不將爬取資料用於人工智慧訓練的爬蟲,而且 Reddit 一直「與多個搜尋引擎進行討論。我們無法與所有搜尋引擎達成協議,因為一些搜尋引擎無法或不願意就其對 Reddit 內容的使用(包括用於人工智慧)做出可執行的承諾。」

然而,Reddit 並沒有解釋為什麼沒有回覆來自 Mojeek 的電子郵件,而 Mojeek 並不會爬取網路資料用來訓練AI。

「我們願意與各種規模大小的公司合作,而且現在也在這樣做。」拉史密特說。

越來越多的網站試圖透過更新 robots.txt 檔案來阻止人工智慧公司用來爬取其網站以進行訓練的機器人。Robots.txt 是一個文字檔,它會指示機器人它們是否被允許存取網站。例如,Googlebot 是 Google 用於爬取網路以獲取搜尋結果的爬蟲或「蜘蛛」。具有 robots.txt 檔案的網站可以例外地授予 Googlebot 存取權限,而不授予其他機器人存取權限,因此它們可以出現在可以產生大量流量的搜尋結果中。最近,Google 還推出了 Google-Extended,這是一個專門爬取網路以改善其 Gemini 應用程式的機器人,因此網站可以允許 Googlebot 爬取但封鎖 Google 用來驅動其生成式 AI 產品的爬蟲。

Robots.txt 只是指令,爬蟲可以並且已經忽視了這些指示,但據海赫斯特說,Reddit 也在積極主動封鎖其爬蟲。

Reddit 一直對人工智慧公司爬取網站以訓練大型語言模型感到不滿,並採取了公開和積極的措施阻止它們繼續這樣做。去年,當 Reddit 開始收取存取其 API 的費用時,它破壞了許多 Reddit 社群喜愛的第三方應用程式,使許多這些第三方應用程式的營運成本過高。今年早些時候,Reddit 宣布與 Google 簽署了一項價值 6000 萬美元的協定,允許 Google 可以得到授權用Reddit 內容來訓練其 AI 產品。

Reddit 的 robots.txt 過去包含許多笑話,例如禁止來自未來世界的機器人 Bender 爬取它 (User-Agent: bender, Disallow: /my_shiny_metal_ass) 和搜尋引擎可以和不可以存取的特定頁面。「/r*.rss/」被允許,而「/login」不被允許。

如今,Reddit 的 robots.txt 更簡單、更嚴格。除了幾個指向 Reddit 新的「公共內容政策」的連結之外,該檔案還簡單地包含以下指令:

User-agent: *
Disallow: /

這基本上意味著:任何使用者代理(機器人)都不得爬取網站的任何部分。

「Reddit 信奉開放的網際網路,但不贊成濫用公共內容,」更新後的 robots.txt 檔案說。

Reddit 在 6 月表示:「不幸地,我們看到顯然商業化的實體越來越多地爬取 Reddit 內容,並辯稱不受我們的條款或政策約束。更糟糕的是,他們躲在 robots.txt 背後,聲稱可以將 Reddit 內容用於任何他們想要的用途。雖然我們將繼續盡我們所能找到並主動阻止這些不良行為者,但我們需要做更多的事情來保護 Reddit 使用者的貢獻。在接下來的幾周內,我們將盡可能清楚地更新我們的 robots.txt 指令:如果你使用自動代理程式存取 Reddit,你需要遵守我們的條款和政策,並且需要與我們聯絡。」

Reddit 大約在 6 月 25 日左右更新了其 robots.txt 檔案,當時 Mojeek 的海赫斯特注意到他們的網路爬蟲被封鎖了。當時的公告稱:「像研究人員和網際網路檔案館等組織,將繼續可以造訪 Reddit 內容用於非商業用途,」並且「我們對與誰合作以及信任誰能大規模存取 Reddit 內容持謹慎態度。」。公告還連結到一個關於存取 Reddit 資料的指南,該指南明確指出 Reddit 認為「搜尋或網站廣告」屬於「商業用途」,並且任何人都不能未經許可或支付費用而使用 Reddit 資料。

Google 沒有回應媒體的評論,但其宣布與 Reddit 達成協議的聲明不僅指出 Reddit 對於訓練人工智慧的價值,還還指出我們許多人已經知道的事實:隨著 Google 搜尋在找到相關搜尋結果方面變得越來越糟糕,獲得相關結果的最佳方式之一就是在你的搜尋查詢中添加「Reddit」,將 Google 引導到一個真實的人類已經寫了近二十年建議和推薦的網站。。有很多方法可以說明 Reddit 的有用性,但不會做得比這段影片更好:

Google 現在是唯一能將使用者導向那些資訊的搜尋引擎,而且這顯然是與 Google 花了 6000 萬美元購買 AI 訓練數據有關。這再次顯示了,為了驅動生成式 AI 工具而無差別地抓取整個網路,可能產生意想不到的後果。

海赫斯特說:「我們一直以來都以尊重的方式爬取資訊,並且已經這樣做了 20 年。我們在 Cloudflare 上經過驗證,我們不訓練AI,就像真正的傳統搜尋一樣,我們不做『答案引擎』之類的事情。」「答案引擎」是 Perplexity 對其人工智慧搜尋引擎的稱呼。 「Mojeek 的全部意義在於我們不進行任何追蹤。但人們也使用我們是因為我們提供了一套完全不同的結果。」

海赫斯特說,Reddit 與 Google 的協議使提供這些替代搜尋網路的方式變得更加困難。

「這只是更大趨勢的一部分,不是嗎?」他說:「這讓我們非常擔心。網路正在逐漸被消滅,被侵蝕。我不想以偏蓋全,但這對小公司來說沒有幫助。」

netizen
作者

一個老派的科技媒體工作者,對於最新科技動態、最新科技訊息的觀察報告。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則