告別版權爭議！哈佛免費釋出百萬級公共領域AI訓練數據集，小型企業與研究者也能輕鬆訓練AI模型！

哈佛正在發布一個由 OpenAI 和微軟資助的大規模免費 AI 訓練資料集。該專案負責人表示，讓所有人都能使用問這個公共領域書籍集將有助於「平衡」AI 產業的競爭環境。

哈佛大學週四宣布，將發布一個包含近 100 萬本公共領域書籍的高品質資料集，任何人都可以使用它來訓練大型語言模型和其他 AI 工具。該資料集由哈佛新成立的機構資料倡議（Institutional Data Initiative）創建，並獲得微軟和 OpenAI 的資助。它包含了作為 Google Books 專案一部分掃描的、已不受版權保護的書籍。

哈佛大學的機構數據倡議（Institutional Data Initiative）建立了一個規模龐大的資料庫，這個資料庫約為惡名昭彰的 Books3 資料集的五倍大。Books3 曾被用來訓練像 Meta 的 Llama 這樣的人工智慧模型。這個新的資料庫涵蓋了各種不同的類型、年代和語言，內容非常豐富多元，既有莎士比亞、查爾斯·狄更斯和但丁等作家的經典名著，也有比較冷門的捷克數學教科書和威爾斯語袖珍詞典。

機構數據倡議的執行董事格雷格·萊珀特（ Greg Leppert ）表示，這個計畫的目的是要「平衡競爭環境」，讓一般大眾，包括人工智慧產業的小型參與者和個別研究人員，也能夠存取通常只有大型科技巨頭才有資源建立的那種經過高度精煉和策劃的內容庫。「它經過了嚴格的審查」，他的意思是說，這個資料庫的內容品質是有保障的，經過仔細的檢查和篩選希望透過提供免費且優質的資料，降低人工智慧研究和開發的門檻，讓更多人有機會參與其中。

萊珀特認為，這個新的公共領域資料庫可以與其他授權材料結合使用來建立人工智慧模型。他說：「我認為這有點像 Linux 已成為世界上許多領域的基礎作業系統」，並指出公司仍需要使用額外的訓練資料來使其模型與競爭對手的模型區分開來。

微軟智慧財產權副總裁兼副總法律顧問伯頓·戴維斯（ Burton Davis）強調，公司對該專案的支持符合其關於為 AI 新創公司創建「可造訪的資料池」並「以公眾利益為導向管理」的更廣泛信念。換句話說，微軟不一定計劃用像新哈佛資料庫中的公共領域替代品來替換其在自己模型中使用的所有 AI 訓練資料。戴維斯說：「我們使用公開可用的資料來訓練我們的模型。」

OpenAI 的智慧財產權和內容主管湯姆·魯賓 (Tom Rubin) 在一份聲明中表示，該公司「很高興」支持這個專案。

隨著數十起關於使用受版權保護資料進行 AI 訓練的訴訟在法院中進行，人工智慧工具的建構方式未來懸而未定。如果 AI 公司贏得訴訟，它們將能夠繼續在不需要與版權持有者達成授權協議的情況下抓取網路資料。但如果他們輸了，AI 公司可能被迫徹底改革其模型的製作方式。像哈佛資料庫這樣的一系列專案正在推進，假設無論發生什麼，對公共領域資料集的需求都會存在。

除了這批書籍外，機構資料倡議還正在與波士頓公共圖書館合作，掃描數百萬篇現在屬於公共領域的不同報紙文章，並表示願意在未來建立類似的合作關係。書籍資料集的具體發布方式尚未確定。機構資料倡議已要求 Google 在公開發布方面進行合作，但細節仍在商議中。Google 全球事務總裁肯特·沃克（Kent Walker）在一份聲明中表示，該公司「很榮幸能支持」這個專案。

無論 IDI 的資料集如何發布，它都將加入一系列類似的專案、新創公司和倡議，這些專案承諾讓公司能夠在不冒著遇到版權問題的風險的情況下，獲得大量高品質的 AI 訓練材料。像 Calliope Networks 和 ProRata 這樣的公司已經出現，發布授權和管理補償方案，旨在讓創作者和權利持有者因提供 AI 訓練資料而獲得報酬。

還有其他新的公共領域專案。去年春天，法國 AI 新創公司 Pleias 推出了自己的公共領域資料集 Common Corpus，根據專案協調員皮埃爾-卡爾·朗格萊 (Pierre-Carl Langlais) 的說法，該資料集包含大約 300 到 400 萬本書籍和期刊收藏。在開源 AI 平台 Hugging Face 上，Common Corpus 僅在本月就被下載超過 60,000 次。上週，Pleias 宣布發布其首套在這個資料集上訓練的大型語言模型，Langlais 告訴 WIRED，這些模型構成了「有史以來第一個完全在開放資料上訓練並符合歐盟 AI 法案的模型」。

同樣也有努力在創建類似的圖像資料集。AI 新創公司 Spawning 今年夏天發布了其資料集 Source.Plus，其中包含維基共享資源以及各種博物館和檔案館的公共領域圖像。一些重要的文化機構長期以來一直將自己的檔案作為獨立專案向公眾開放，比如紐約的大都會藝術博物館。

前 Stability AI 執行長、現在經營一家認證符合道德訓練 AI 工具的非營利組織的艾德·紐頓（Ed Newton-Rex）表示，這些資料集的興起表明，不需要竊取受版權保護的材料就能建立高性能和高品質的 AI 模型。OpenAI 此前曾向英國立法者表示，如果不使用受版權保護的作品，將「不可能」創建像 ChatGPT 這樣的產品。紐頓說：「這些大型公共領域資料集進一步粉碎了一些 AI 公司用來為抓取受版權保護作品進行模型訓練辯護的『必要性辯護』。」

但他仍然對 IDI 和類似專案是否真能改變 AI 訓練現狀持保留態度。他說：「這些資料集只有在被使用時才會產生積極影響，可能需要與其他資料的授權結合使用，以取代抓取的受版權保護作品。如果它們只是被添加到混合中，成為資料集的一部分，而該資料集還包括世界創作者未經授權的畢生作品，那麼它們將壓倒性地有利於 AI 公司。」

延伸閱讀：ChatGPT等 AI 訓練資料部分來自侵犯版權的「影子圖書館」，數千名作家不滿發聲：得付版權費
延伸閱讀：AI 訓練集爭議再起！Anthropic 遭作家集體訴訟，成為最新的被告
延伸閱讀：紐約時報要求法院銷毀ChatGPT的AI資料集，AI在公開網路上的訓練是否屬於「合理使用」？
資料來源：wired