2024.11.05 16:00

ChatGPT Search用的是微軟Bing搜尋技術,還用了三個不同的爬蟲機器人

ADVERTISEMENT

上週 OpenAI 推出 ChatGPT Search 網路搜尋功能,該功能本質上也屬於搜尋引擎,因此與Google搜尋有著直接競爭關係。關於資料收集方面,OpenAI 採用了兩種技術來源:一方面搜尋技術使用微軟Bing,另一方面 OpenAI 也在自己抓取內容,所有資料被抓取後將按照特定演算法進行排序以便在 ChatGPT 中向使用者返回結果。

OpenAI 雖然未在部落格中透露搜尋技術使用的是微軟必應,不過其工程師在 Reddit 論壇中確認確實使用了Bing搜尋,因此對網站的站長來說,如果想透過 ChatGPT 獲得搜尋流量,也要針對Bing搜尋進行 SEO 最佳化。

至於在爬蟲方面,目前 OpenAI 共有 3 種不同的爬蟲機器人,使用以下 robots.txt 標籤可讓網站管理員管理其網站和內容如何與 AI 搭配使用:

ADVERTISEMENT

  • GPTBot:用於從Internet上抓取資料訓練 OpenAI 的人工智慧模型,該爬蟲可以遮蔽不會影響到網站的搜尋流量;
  • ChatGPT-User:用於在使用者提問時從網路上檢索資料以標註來源連結,該爬蟲本身不會抓取網頁資訊;
  • OAI-Search:這是 OpenAI 用於 ChatGPT Search 搜尋功能的爬蟲,專門用於抓取網路資料但不會將資料用於 AI 模型訓練。

透過上述標籤,網站管理員可以允許 OAI-SearchBot 出現在搜尋結果中,同時禁止 GPTbot 來指示爬取的內容不應用於訓練 OpenAI 的生成式 AI 基礎模型。網站的 robots.txt 更新後,系統可能需要約 24 小時才能進行調整。

想要知道更多關於OpenAI爬蟲的資料,可以看他們官方的說明:https://platform.openai.com/docs/bots

 

ADVERTISEMENT

 

ADVERTISEMENT