Google搜尋引入AI Overviews讓傳統網站陷入絕境：被迫共享資料，還是等死？

Google已在其搜尋頁面頂端展示基於人工智慧生成的便捷答案：AI Overviews，直接幫用戶搜尋的內容摘要總結，這可能導致使用者無需點選原始內容來源網站，對於傳統網站來說，等於直接截斷了他們的流量。

Google AI Overviews：誰來為網站的內容買單？

然而，許多網站所有者表示，他們無法阻止Google的人工智慧對其內容進行摘要，因為Google用於生成這些人工智慧答案的網頁抓取工具與常規搜尋引擎的抓取工具相同。如果選擇遮蔽Google，也會妨礙網站被使用者發現。

Google在搜尋領域佔據主導地位，這為其在人工智慧領域的競爭帶來了顯著優勢。搜尋初創公司和出版商均認為，當前的競爭環境對它們不公平。出版商面臨嚴峻的抉擇：要麼提供內容支援人工智慧模型（這可能削弱其網站的重要性），要麼放棄Google搜尋這個主要流量來源。

新聞網站Talking Points Memo的出版人喬·拉加佐（Joe Ragazzo）指出：「這對相關企業而言，無異於生死攸關的抉擇。兩種選擇都不利：要麼退出競爭，立即面臨生存危機；要麼與Google合作，雖然暫時存活，但最終也難逃被淘汰的命運。」

Google表示，其搜尋結果頂部展示的AI Overviews摘要，是其持續提升資訊品質和為出版商及其他企業拓展機遇的長期戰略的一部分。

Google發言人在聲明中表示：「Google每天向全球網站輸送數十億次點選，我們致力於維護並深化這一長期的價值交換關係。通過AI Overviews，使用者體驗得到了提升，他們回到搜尋引擎的頻率更高，這為內容的發現創造了新的機遇。」

自創立以來，Google便通過Googlebot爬蟲抓取數以百萬計的網站內容，建構起龐大的全球網路索引。這一成就對試圖建立競爭性搜尋引擎的公司來說，形成了難以踰越的障礙，即便是像微軟這樣資金雄厚的企業也不例外。

隨著生成式人工智慧的興起，一波新的初創公司湧現，旨在通過人工智慧模型為使用者提供精煉答案的搜尋產品。聊天機器人的流行讓Google內部對其搜尋引擎的主導地位產生了前所未有的危機感。然而，這些初創公司在真正撼動Google業務之前，必須首先解決如何進行網頁抓取的難題，而這並不容易。

抓取網站成本高昂，包括金錢、計算資源和儲存空間。因此，許多出版商會通過設定檔案規定爬蟲訪問其網站的規則。Google和微軟必應通常能獲得較大的存取權，因為它們的搜尋引擎能夠為網站帶來顯著的流量。

然而，人工智慧初創企業Tako Inc.的首席執行長亞歷克斯·羅森伯格（Alex Rosenberg）表示，搜尋引擎初創公司在未能獲得市場關注前，無法承諾為網站帶來相應的流量，這促使它們開始與出版商達成協議，通過支付內容授權費用獲取內容。

羅森伯格說：「如今，許多科技公司為內容付費，以確保獲取競爭所需的資源，而Google則由於其特殊地位，無需這麼做。」

在媒體公司與人工智慧初創公司之間頻繁合作的背景下，Google始終態度鮮明地加以抵制。據知情人士透露，除了與Reddit達成的6000萬美元交易外，Google私下向出版商傳達了無意參與內容授權談判的立場。

出版商與搜尋引擎之間的博弈：內容授權、合作與衝突

在這些談判中，媒體公司處於劣勢地位，尤其是在今年Google推出AI Overviews後，該服務利用人工智慧在搜尋結果頂端提供簡潔答案，立即引發了出版商對流量影響的擔憂，但卻沒有明確的應對方案。

值得注意的是，Google在某些人工智慧產品上使用了獨立的爬蟲（如Gemini聊天機器人），但其主要爬蟲Googlebot仍同時服務於AI Overviews和常規搜尋，原因在於這兩者之間技術上密切相關。Google發言人解釋說，這一安排是為了統一管理，確保搜尋體驗的一致性和高效性。

該發言人還指出，Google搜尋結果頁面以多種形式顯示資訊，包括圖像和圖表。此外，出版商可以選擇阻止特定頁面或部分內容出現在AI Overviews中。然而，這一選擇可能伴隨風險，即這些內容也將從Google所有搜尋功能中消失，包括傳統的網頁連結列表。

由於大多數出版商的流量至少有一半來自搜尋引擎，他們往往不願輕易冒險削弱自身的網路影響力。

文創平台Raptive創新主管馬克·麥科勒姆（Marc McCollum）代表出版商和網紅指出，Google的立場未能充分考慮內容創作者面臨的重大風險，特別是那些依賴搜尋可見性為生的創作者。他警告說，選擇退出可能會無意中降低創作者的整體搜尋可見性，從而損害他們與受眾的聯絡和收入能力。

iFixit網站（提供消費電子產品線上維修指南）的首席執行長凱爾·維恩斯（Kyle Wiens）表示，與其他人工智慧公司相比，該網站與Google的關係更為“脆弱”。他強調：“我可以阻止Anthropic的ClaudeBot索引我們的網站而不影響業務，但若遮蔽Googlebot，我們將失去流量和客戶。”

Google與Reddit的交易不僅為Google的人工智慧模型提供了海量寶貴資料（來自Reddit使用者就小眾話題的深入討論），還通過增加Reddit等論壇在搜尋結果中的展示，顯著推動了Reddit的流量增長。Reddit發言人還表示，產品品質和載入速度的提升也對流量增長起到了積極作用。

據知情人士透露，搜尋初創公司Perplexity正與Reddit洽談內容授權事宜，但Google與Reddit的協議價格高得令初創公司難以匹敵。Google表示，與Reddit的合作不僅限於資料訓練，涵蓋了更廣泛的領域。Reddit方面對商業合作細節保持沉默。

面對此情此景，其他搜尋初創公司則發現獲取此類資料幾乎不可能。搜尋初創公司Kagi的創始人弗拉基米爾·普雷洛瓦茨（Vladimir Prelovac）坦言：「Reddit的報價足以耗盡我們20年的收入，因此我從未考慮過。」

不僅僅是小型初創公司面臨這種困境。Open AI最近推出的SearchGPT測試版雖然受到了廣泛關注，但許多知名網站（如亞馬遜、Goodreads、優衣庫）已遮蔽其GPT爬蟲，這可能會對OpenAI的搜尋業務構成挑戰。OpenAI表示，即使網站拒絕內容用於人工智慧訓練，這些內容仍可能出現在其搜尋結果中。

普雷洛瓦茨指出，Kagi一半以上的成本投入都用於網路爬蟲及其他資料來源。建構詳盡的網路索引是搜尋引擎的基礎，它為使用者提供詳細的Internet內容檢視。而對於那些旨在通過人工智慧直接回答使用者問題的公司來說，資料具有更重要的戰略意義。

普雷洛瓦茨說：「生成式人工智慧模型本身並不聰明，要提供高品質的輸出，必須依賴廣泛的搜尋索引。」

搜尋初創公司You.com的創始人理查德·索徹（Richard Socher）表示，robots.txt檔案無處不在，為爬蟲設定了使用指南，迫使初創公司做出複雜的決策。儘管這些檔案沒有法律約束力，但只要不涉及登錄或使用者驗證，理論上可以抓取公開資料。他強調：「我們在進行爬取時，儘量不對網站造成過度負擔。那些只允許Google抓取的robots.txt設定，本質上是在幫助Google的搜尋壟斷。」

由前Google員工創立的Neeva搜尋初創公司去年被Snowflake收購後，提出“爬蟲中立”的倡議，以降低初創公司建構搜尋索引的難度。鑑於法院已裁定Google壟斷了線上搜尋市場，美國司法部正在考慮採取補救措施，包括強制Google與競爭對手共享資料，甚至可能分拆該公司。