OpenAI 推出網路爬蟲 GPTBot，資訊被爬走可能著永遠無法刪除，引發網站抵禦潮

OpenAI 在沒有正式宣布的情況下，發表了一項網站爬蟲規範。

網路爬蟲通常用於掃描網站內容以訓練其大型語言模型 (LLM)，OpenAI 在一篇新的部落格文章中表示：「使用 GPTBot 使用者代理抓取的網頁可能會用於改進未來的模型」，特別是 GPT-4 和潛在的 GPT-5。

Breaking 🚨

OpenAI just launched GPTBot, a web crawler designed to automatically scrape data from the entire internet.

This data will be used to train future AI models like GPT-4 and GPT-5!

GPTBot ensures that sources violating privacy and those behind paywalls are excluded. pic.twitter.com/oR3kY4buaU
— Shubham Saboo (@Saboo_Shubham_) August 7, 2023

在此之前，OpenAI 剛申請了「GPT-5」商標。三周之後，該公司推出了新的爬蟲以及使用規範。OpenAI 在部落格文章中表示，內容發表者和網站所有者可以據此拒絕為其提供素材。

延伸閱讀：OpenAI公開「官方爬蟲」GPTBot，靠它爬取網路資料訓練GPT-5

網站需要加強防禦

目前還不清楚 OpenAI 的爬蟲在網上潛伏了多久，儘管有些人懷疑 OpenAI 可能已經有一個機器人在數月或數年時間裡一直在秘密收集每個人的線上資料。現在該公司宣布了一種阻止 GPTBot 的方法，最新發表的技術文件描述了如何透過使用者代理權杖和字串來辨識 OpenAI 的網路爬蟲 GPTBot。在發送至伺服器進行網頁請求的 HTTP 標頭中，OpenAI 公司的軟體會明確使用這些權杖與字串。

因此，內容發表者可以在自己 Web 伺服器的 robots.txt 檔案中加入新條目，告知爬蟲可以做什麼、不能做什麼。當然，這是假設 GPTBot 會老老實實遵守機器人排除協議，畢竟也有不少機器人會對規則熟視無睹。例如，以下 robts.txt 鍵 / 值對就會指示 GPTBot 遠離 root 目錄和網站上的其他全部內容。

User-agent: GPTBotDisallow: /

對此，搜尋引擎最佳化顧問 Prasad Dhumal 本周在 Twitter 上寫道：「最後，在吸收了所有受版權保護的內容來構建他們的專有產品之後，OpenAI 為你提供了一種方法來防止你的內容被用來進一步改進他們的產品。」

另外，值得注意的是，一旦被大模型爬蟲爬取，也意味著你的資料無法從公共資料集中刪除。例如比較有名的公共資料集 Common Crawl，常被用於訓練 OpenAI 的 ChatGPT、Google的 Bard 或 Meta 的 LLaMA，專家表示，如果你的資料或內容被爬取進去，那意味著它永久成為了該訓練集的一部分。但 CommonCrawl 等服務確實允許類似的 robots.txt，但網站所有者需要在資料被收集之前實施這些更改。

Awesome!
Most of the big LLMs and Image Generators source a lot of their scraped material from CommonCrawl. ChatGPT, the Meta LLMs and Stable Diffusion used Common Crawl.

They scrape every month, and save it "forever", but you can block them:https://t.co/NIByP2Jiju
— Benjamin BLM (@stealcase) August 7, 2023

然而，OpenAI 堅稱開放網站資料收集入口，能夠説明該公司提高 AI 模型的實際品質，而且爬取的內容也不會涉及敏感資訊。這話似乎可信，畢竟 OpenAI 和微軟最近已經因此而官司纏身。

這家機器學習超級實驗室在文件中指出，「使用 GPTBot 使用者代理爬取的網頁，可能會被用於改進未來模型，且付費專區、已知涉及個人身份資訊（PII）或包含違反我們政策的文本來源均會被過濾刪除。」

文件還提到，「允許 GPTBot 存取您的網站，可以説明 AI 模型更加準確並提高其總體功能性與安全性。」

這人人為我、我為人人的口號一講，似乎幫 OpenAI 節約時間和成本，使其模型能力更強、風險更低是件利他又利己的大好事。

可即便 OpenAI 承諾了自己在利用公共網際網路資料訓練大語言模型，仍有不少組織在努力限制自家資訊透過網路被自動存取。畢竟 AI 軟體廠商最喜歡借助網路上的各種資訊為己所為，並借此建立起價值百萬甚至數十億美元的商業體系。所以部分企業已經採取行動，如果盈利一方不願意拿出點分紅，那他們就乾脆關閉存取權限。

例如，Reddit 最近就修改了 API 條款，想更好地透過使用者免費發表的內容獲利。Twitter 日前也起訴了四家身份不明的公司，拒絕抓取其網站資料用於 AI 訓練的行為。

一些網站已經在加強對 GPTBot 的防禦，比如 The Verge 就已經添加了 robots.txt 標誌，以阻止 OpenAI 模型抓取內容以加入到其大模型中。substack 博主 Casey Newton 也向他的讀者詢問是否應該阻止 OpenAI 收集他的內容。科幻雜誌 Clarkesworld 的編輯 Neil Clarke 在 Twitter 上宣布將屏蔽 GPTBot。

建立合法路徑才是正途！

OpenAI 沒有立即回應，此次為什麼要發表關於 GPTBot 的詳細資訊。但最近已經有多次針對該公司的訴訟，指控其未經客戶許可而擅自使用可公開存取的資料 / 違反網站規定的許可條款。看來這兩件事之間應該存在聯繫。

除了隱私訴訟之外，OpenAI、微軟和微軟子公司 GitHub 去年 11 月還因涉嫌利用受許可證保護的原始碼訓練 OpenAI 的 Codex 模型，並因在 GitHub Copilot 程式碼輔助服務中照搬這些程式碼而面臨起訴。另有多位作家在上個月提起類似訴訟，指控 OpenAI 在未經許可的情況下利用他們的作品訓練 ChatGPT。

Google、DeepMind 及其母公司 Alphabet 也未能倖免，同樣因類似理由淪為被告。

考慮到爬取公共資料並借此訓練 AI 模型所帶來的法律不確定性，OpenAI 的競爭對手谷歌上個月提議重新設計爬蟲協定的運作方式，儘量消弭愈演愈烈的資料歸屬權糾紛。

專為醫療保健行業提供 AI 助手的 Hyro 公司聯合創始人兼 CEO Israel Krush 在採訪中表示，目前網路爬蟲的運作方式主要存在兩個核心問題。

「首先就是預設發表者同意，對方如果不希望自己的網站成為爬取物件、資訊被用於模型微調，只能主動選擇拒絕。這個過程跟搜尋引擎的運作方式存在很大差別，搜尋引擎在爬取時只會引導使用者存取內容發表網站的內容摘要。」

「而在 OpenAI 和 AI 助手這邊，內容本體成為產品的直接組成部分，這樣問題的性質就完全不同了。發表者必須主動拒絕才能免受爬取也著實引起了巨大的不滿。」

Krush 表示，將爬取到的內容整合至他人產品中、甚至受到篡改，則可能引發另一個潛在問題。「第二個問題是，OpenAI 在聲明中稱將排除「以使用個人身份資訊（PII）聞名的相關網站」，這樣的表述有點令人費解。」

「以新聞出版商為例：他們的內容中一定會存在某些身份辨識資訊。另外，即使那些似乎跟個人身份資訊關係不大的網站，也或多或少涉及相關內容。而任何包含個人身份資訊的內容都需要經過適當編輯。」

Krush 認為，模型的合規性問題和負責任立場需要匹配更強有力的保障措施，並強調他自己的公司就只會在獲得明確許可時才爬取資料，且保證一切個人資訊都得到妥善處理。

他總結道，「OpenAI 不該只關注那些被標記為包含個人身份資訊的網站，而應當假設所有網站都可能涉及個人隱私，特別是各內容發表平臺。他們應當採取積極主動的措施，確保爬取的資訊不違反合規性要求。」