Perplexity 這家新創AI搜尋引擎被指控違反網路的基本規則，無視宣告任意爬取別人網站內容

Perplexity 想要改變我們使用網際網路的方式，但這家由傑夫·貝佐斯（Jeff Bezos）支持的 AI 搜尋引擎新創公司可能會為了實現目標而違反規則。根據開發者 Robb Knight 本週的報告，該公司似乎忽視了廣泛接受的網路標準——機器人排除協議（Robots Exclusion Protocol：REP），以抓取網站營運者不希望被機器人爬取的網頁部分，Wired 也證實了這一個發現。

▲ https://www.perplexity.ai/

Perplexity 提供的服務是總結網路上的文章，並在一篇自己的部落格文章中聲稱可以提供「可靠的答案」，「無需點擊不同的連結」。為了做到這一點，Wired 和 Knight 發現 Perplexity 忽略了故意用來阻止網路爬蟲的程式碼 (robots.txt 檔案)。兩份報告都發現 Perplexity 使用未列出的 IP 地址來規避這些 robots.txt 檔案，並仍然抓取網站內容。Wired 聲稱其網站早在 2024 年初就封鎖了 Perplexity 的網路爬蟲，但該 AI 搜尋引擎仍能夠詳細總結其文章。

延伸閱讀：一份君子協議的robots.txt維持了網際網路30年來的秩序，但AI的出現破壞了這種信任和平衡
延伸閱讀：OpenAI公開「官方爬蟲」GPTBot，靠它爬取網路資料訓練GPT-5

儘管如此，Perplexity 在其網站的文件中聲稱尊重 REP。Perplexity 的 CEO 亞拉文·斯里尼瓦斯（Aravind Srinivas）告訴 Wired，記者對「Perplexity 和網際網路如何運作有著深刻和根本的誤解」，但並沒有直接反駁這些發現。科技媒體Gizmodo 已聯繫 Perplexity 尋求更詳細的回應。

另外，Perplexity 目前因違反其他網際網路規則——侵犯版權而面臨法律威脅。據報導，《富比士》本週威脅要對 Perplexity 提起法律訴訟，指責該 AI 新創公司在沒有適當署名的情況下抄襲《富比士》的報導。《富比士》曾對前 Google CEO 艾立克·施密特（Eric Schmidt）的 AI 無人機企業發表原創報導，而 Perplexity 則使用《富比士》的文字和圖片製作了 AI 生成的文章、PODCAST和影片。《富比士》的執行編輯在本月早些時候在 X 上指出 Perplexity。

Our reporting on Eric Schmidt’s stealth drone project was posted this AM by @perplexity_ai . It rips off most of our reporting. It cites us, and a few that reblogged us, as sources in the most easily ignored way possible. Note the views. #zeroclick https://t.co/qZamti9E83 pic.twitter.com/8z2AsyHjgM
— John Paczkowski (@JohnPaczkowski) June 7, 2024

Perplexity 的產品雖然有用，但它改變網際網路上的流量走向。Google 也會索引網頁並提供簡短的 AI 摘要，但它會將流量直接導向資訊來源的網頁。Perplexity 實際上是在撰寫詳細的 AI 文章，但使用者不會點擊進入網站，這打破了數位媒體的商業模式。

OpenAI 已與媒體公司建立合作夥伴關係來解決這個問題，預先付費給他們以授權內容，據報導 Perplexity 也在建立類似的內容合作夥伴關係，但與 OpenAI 支付固定費用不同，Perplexity 的目標是分享收入。但這些合作夥伴關係尚未建立，因此目前 Perplexity 似乎正在跳過付費牆並抓取網站內容，以獲取為其 AI 答案提供支援所需的所有資訊。

延伸閱讀：OpenAI 的爬蟲被設計癱瘓，卡在「世界上最無聊的內容農場」上無法脫身
延伸閱讀：OpenAI 正面臨大量的官司，村上春樹、史蒂芬·金的盜版書都拿來訓練機器人
延伸閱讀：ChatGPT等 AI 訓練資料部分來自侵犯版權的「影子圖書館」，數千名作家不滿發聲：得付版權費
資料來源