Google 打算抓取你發表在網路上的任何訊息內容來訓練AI，包括部落格、照片、程式碼、論文......

從今以後後，你在網上公開說的每一句話，都可能被Google拿去訓練AI！沒錯，繼繪畫之後，文字作品也要被用來餵大模型了——

無論是技術部落客、程式碼、論文，還是所有你在網上公開的發文，都可能被扔進「Google大模型攪拌機」，即使有版權也是如此。

就在這周，谷歌更新了一版隱私政策，明確表示他們保留有抓取網上所有公開內容，以構建其AI工具的權利。

網友們立刻炸開來了。有人警告「Google正抓取一切」：

一旦Google能夠讀取你寫的東西，就意味著這些都是他們的「所有物」了。

還有網友抱持更悲觀的想法：

很快啊，所有內容產出者就都會是AI了。

所以這次的隱私政策改了哪些東西？

用於訓練Bard等AI產品

事情還得從Google這幾天更新的隱私政策說起。

在最新的隱私權政策中，谷歌增加了一個關於「研究和開發」的AI模型條款：

Google會利用資訊來改進我們的服務並開發新的產品、功能和技術，以惠及我們的使用者和公眾。

例如，我們會利用公開訊息來説明訓練Google的AI模型並打造實用產品和功能（比如Google翻譯、Bard和Cloud AI功能）。

換言之，就是將所有可能收集到的公開訊息，用在谷歌翻譯、Bard和Cloud AI等AI相關產品或功能的訓練中。

這些公開訊包括哪些內容？有網際網路、網路和其他活動資訊，包括搜尋字詞、應用程式和瀏覽器與Google服務進行互動的相關資訊，以及在第三方網站和應用程式中使用Google服務等。

換而言之，不止是此前已經公開的部落客等內容，包括公開到網上的谷歌文件、或是一些包含個人資訊的發文，也可能會被Google搜集來訓練大模型。

當然，目前這些內容都還限定在「公開訊息」。像Google提供的Gmail等電子郵件服務，目前應該是還不會被爬進資料裡的。而且Google也明確在隱私權政策中表示，在其他如防範安全威脅、資訊審核、服務維護、個性化廣告或法律等原因情況下，同樣可以使用這些個人或公開訊息。

不過，Google為什麼在這個時間點更新這個政策？

或許也與Reddit和Twitter等公司最近的出的「限制瀏覽」有關。

先是今年4月，Reddit宣布對接入API的公司開始收費。公司CEO認為，Reddit的資料庫很有價值，但是他們不想將這些有價值的內容免費提供給科技大公司。

隨後，Twitter也開始以「不想讓AI公司免費使用資料」的理由，為Twitter限制瀏覽，未經驗證使用者每日只能瀏覽600篇發文，經過驗證後可以增加到6000篇。

這一系列政策對使用者和第三方工具影響很嚴重，例如Reddit引發了大規模的討論版的抗議，不少版主直接關閉了自己管理的論壇，以對Reddit這一活動進行抗議，Twitter上也有不少人在聲討，甚至有網友表示「Twitter被殺死了」。

但無論如何，讓AI免費抓取資料這件事，現在都已經是一個無法忽視的矛盾了。

對於GoogleAI爬資料這件事，有網友表示疑惑：

為什麼之前網路的搜尋引擎也有爬取資料一類的動作，但人們卻偏偏對「AI抓取」感到抗拒。

有網友回應稱：

本質上還是版權的問題。如果只是引用受版權保護的資料，那麼不一定侵犯版權，但如果用AI對有版權的內容進行「攪拌清洗」，而且這事兒合法化了，那麼本質上版權已死。

也正是因此，他對於這件事感到悲觀：

如果有人在不標注來源的情況下複製了你的部落格，或是將你的開源的原始碼拿去做付費服務，又或是將你在StackOverflow上的答案用作答題方法，你能接受這些情況發生嗎？

我之前做的一切都是免費的。但現在如果AI想讓我消失，那我就會消失。

當然，也有網友已經接受了這個政策的推出，警惕大家自身防範意識不可或缺：

細讀新政策，注意我們洩露了多少資訊到網上。

你自己的看法是什麼？

資料來源：