ChatGPT等 AI 訓練資料部分來自侵犯版權的「影子圖書館」，數千名作家不滿發聲：得付版權費

基於大型語言模型的生成式 AI 終究還是「惹眾怒」。近日，8500 多名小說、非小說和詩歌作者聯合簽署了一份致生成式 AI 領導者的公開信，呼籲 OpenAI、Alphabet、Meta、Stability AI、IBM 和 Microsoft 的首席執行長在訓練 AI 時使用受版權保護的材料要徵得作者同意、認可，並給予公平補償。

信中寫道：「基於大型語言模型的生成式 AI 技術的存在歸功於我們的著作。這些技術模仿並反省我們的語言、故事、風格和想法。」

這樣的說法可能有失偏頗，但是當我們細究生成式 AI 技術的工作原理之後，倒也是不無道理。

具體來說，生成式 AI 的工作原理就是利用機器學習模型，學習人工建立的內容資料集中的模式和關係，然後再利用學習的模式生成新內容。其中預訓練的資料便有著「石油」燃料的作用。

以當前的 ChatGPT 為例，公開資料顯示，ChatGPT 的訓練資料量為 8000 億個單詞的語言料庫，包含了 1750 億個參數，預訓練資料量達到 45TB。

延伸閱讀：用GPT-4來訓練GPT-5模型？研究警告：用AI 訓練 AI 有毒，會讓模型崩潰

有意思的是，ChatGPT 如此龐大的資料集來源到底來自那裡？官方卻從沒說清楚。

OpenAI 官方曾表示，鑑於 GPT-4 等大規模模型的競爭狀況和安全影響，它不再披露有關其資料集來源的資訊，並且含糊其詞地表示其主要來自Internet、社群媒體、新聞、書籍等。

在 2020 年介紹 ChatGPT-3 的論文中，尚未爆紅的 OpenAI 就坦言，其訓練資料集的 15% 來自「2 個基於網路上的書籍語料庫」。儘管 OpenAI 並沒有明確透露這些資料集是什麼作品，但有不少爆料者聲稱這些資料集正是來自以侵犯版權的方式向人們免費提供書籍資料的「影子圖書館」。

「影子圖書館」（Shadow libraries）是指將學術文獻和小說開放提供予大眾的一類線上資料庫。但此類資料庫大多都以侵犯著作權的方式向人們提供文獻內容。影子圖書館以去中心化及匿名見稱。它們的收藏大多源自使用者和同類計劃。較為大型的影子圖書館有創世紀圖書館、Z-Library、Sci-Hub、Gigapedia（在2010年關站，改名 Library.nu 後，仍於2012年關站）。像創世紀圖書館般的影子圖書館以沒法負擔文獻費用的開發中國家人民為其目標受眾。

在今年 2 月份的時候，OpenAI 遭到許多媒體指責，批評其未經授權便擅自使用他們的文章進行訓練。《華爾街日報》記者向 ChatGPT 索取一份訓練它的新聞來源清單時，收到的回覆中列出了 20 家媒體，其中就包括並未獲得授權的《華爾街日報》。同樣「常在河邊走」的其他生成式 AI 是否又真的能「不濕腳」呢？

因此，種種一切，很難不讓那些作家對版權權益是否受到損害而充滿疑慮。

更重要的是，公開信中還談到，在過去十年左右的時間里，作家的收入下降了 40%，目前全職作家到 2022 年的收入中位數僅為 23000 美元，AI 的入侵可能會導致作家們的境況變得更加困難。

因此，呼籲者們也在信中發出請求，要求生成式 AI 的領導者做到以下三點。

獲得在您的生成式 AI 程式中使用我們受版權保護的材料等許可
公平地補償過去和現在在您的生成式 AI 程式中使用我們作品的作者
公平地補償在 AI 輸出中使用我們作品的作者，無論輸出是否違反現行法律

現在壓力就來到了生成式 AI 的領導者了。

要知道，許多生成式 AI 的領導者在公開場合上都對版權保護作出過較為嚴謹的「口頭」承諾。在今年 5 月份的美國國會聽證會上，OpenAI 的「掌門人」阿爾特曼就曾強調過內容創作者將受益於 AI 工具，並且掌握對作品的所有權和控制權。此後，阿爾特曼更是化身「傳教士」巡訪世界各國，為生成式 AI 擂鼓助威。

「打臉」來的太快，如今層出不窮的隱私洩漏訴訟、版權侵犯事件，將這封呼籲信徹底地擺在了檯面上，成了繞不開的「催命符」。

只是這一次，生成式 AI 的領導者們還是不是視而不見呢？