Meta承認使用盜版書籍訓練AI，但拒絕賠償作家

Meta最近因使用數千本盜版書籍訓練人工智慧模型存在法律風險而引發版權侵權訴訟。據悉，Meta使用大量盜版書籍的「Books3」資料集訓練其LLaMA 1和LLaMA 2模型，Meta雖承認使用了 Books3 資料集，卻拒絕向作者支付適當的補償。

Books3是一個包含19.5萬本圖書、總容量近37GB的文字資料集，由AI研究者Shawn Presser於2020年建立，旨在為改進機器學習演算法提供更好的資料來源。

Meta也將其用於訓練自己的LLaMA模型，然而Books3中包含大量從盜版網站Bibliotik爬取的受版權保護作品，使得Meta的行為面臨法律風險。

多位科技公司今年面臨類似的投訴，指責他們在建構生成式AI模型時侵犯了藝術家、作者和其他內容創作者的版權。

此外，歐盟關於人工智慧的新臨時規則可能會迫使公司披露用於訓練模型的資料集，這可能會使他們面臨更大的法律風險。

關於訓練資料的問題，也不只有Meta遇到。

紐約時報也對OpenAI和微軟提起著作權侵犯訴訟，要求銷毀ChatGPT以及任何其他未經支付使用時報作品的大型語言模型和訓練集。

這是第一個對ChatGPT創建者提起訴訟的主流媒體機構，此裁決可能為AI未來的合理使用法律設定先例。該訴訟指控OpenAI和微軟在未經授權的情況下使用紐約時報受版權保護的資料來訓練AI模型。更重要的是，它聲稱ChatGPT和Bing Chat經常完整地複製紐約時報的文章。這使得ChatGPT使用者可以繞過紐約時報的付費牆。

該訴訟聲稱生成式AI現在已成為報紙的競爭對手，這些模型支援ChatGPT和Copilot，「能夠生成重述紐報的內容、密切總結並模仿其表達風格來輸出內容。這破壞了紐報與讀者的關係，同時也剝奪了其訂閱、授權、廣告和聯盟收入。」作為可靠訊息的來源。紐約時報的訴訟旨在讓這些公司為「數十億美元的法定和實際損害」負責，並尋求摧毀「所有包含時報作品的GPT或其他大型語言模型及訓練集」。