2023.08.09 11:15

OpenAI公開「官方爬蟲」GPTBot,靠它爬取網路資料訓練GPT-5

ADVERTISEMENT

大家都知道,OpenAI 從 GPT-4 開始就已經對技術細節完全保密了,最初只用一份 Tech Report 來展示基準測試結果,而閉口不談訓練資料和模型參數。儘管後來有網友各種爆料,OpenAI 也從來沒有回應。 

不難想像,訓練 GPT-4 需要巨量的資料,這可不是付費購買能解決的問題。有很大的機率,OpenAI 使用了網路爬蟲來獲取這些訓練資料。很多使用者指控 OpenAI,理由就是這種手段會侵犯使用者的版權和隱私權。 

剛剛,OpenAI 攤牌了:直接公開從整個網際網路爬取資料的網路爬蟲 ——GPTBot。 

ADVERTISEMENT

這些資料將被用來訓練 GPT-4、GPT-5 等 AI 模型。不過 GPTBot 保證了,爬取內容絕對不包括違反隱私來源和需要付費的內容。 

OpenAI 表示:「使用 GPTBot 爬取網路資料是為了改進 AI 模型的準確性、功能性和安全性。」 

網站所有者可以根據需要允許或限制 GPTBot 爬取網站資料。接下來,我們來看一下 GPTBot是如何工作的,順便瞭解一下遮蔽的方法。 

ADVERTISEMENT

首先,GPTBot 的使用者代理字串(User-Agent String)如下:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

使用如下方法可以將 GPTBot 加入到網站的 robots.txt,禁止 GPTBot 造訪網站: 

ADVERTISEMENT

User-agent: GPTBot 
Disallow: /

還可以允許 GPTBot 造訪網站特定部分的內容: 

User-agent: GPTBot 
Allow: /directory-1/ 
Disallow: /directory-2/

近期,OpenAI 因為未經明確批准而在網站資料上訓練 GPT-4 等大型語言模型而遭到強烈反對。批評者們表示,即使內容可以公開造訪,像 OpenAI 這樣的公司也應該遵循訓練協議。人們還擔心,內容在輸入 AI 系統時會被斷章取義。 

但即使遵循了 robots 協定,鑒於其並不是規範,而只是約定俗成的,所以並不能保證網站的隱私。 

ADVERTISEMENT

GPTBot 發表之後,這條動態已經在 Hacker News 上引發了一場爭論,焦點是使用抓取的網路資料來訓練人工智慧系統的道德和合法性。 

一部分人認為,GPTBot 的推出展示了使用公開資料研發 AI 模型的「灰色地帶」: 

「在訓練完模型後還爬取資料,這真是太好了。根據推測,這些 header 不會影響他們已經抓取來訓練 GPT 的任何頁面。」 

「現在,他們可以遊說反抓取的管理並阻礙其他任何的追趕了。」 

鑒於 GPTBot 會辨識自己的身份,因此網站管理員可以透過 robots.txt 阻止它,但有些人認為允許它這樣做沒有任何好處,不像搜尋引擎爬蟲會帶來流量。 

一個值得關注的問題是,受版權保護的內容會在未注明出處的情況下被使用。ChatGPT 目前沒有注明出處。 

還有人質疑 GPTBot 如何處理網站上的授權圖片、影片、音樂和其他媒體。如果這些媒體在模型訓練中用到,則可能構成版權侵權。 

另外一些專家認為,如果 AI 編寫的內容被回饋到訓練中,爬蟲產生的資料可能會降低模型的性能。 

相反,一些人認為 OpenAI 有權自由使用公共網路資料,並將其比作一個人從線上內容中學習。但也有人認為,如果 OpenAI 將網路資料貨幣化以獲取商業利益,那麼就應該分享利潤。 

總之,GPTBot 引發了關於所有權、合理使用和網路內容創建者激勵機制的複雜爭論。雖然遵循 robots.txt 是一個很好的步驟,但仍然缺乏透明度。 

這或許是科技界下一個輿論焦點:隨著 AI 產品的快速發展,「資料」到底該怎麼用? 

資料來源: 

ADVERTISEMENT