ADVERTISEMENT
本週一,Anthropic 被三位作家起訴,指控這家機器學習實驗室非法使用他們的版權作品來訓練其 Claude AI 模型。
「Anthropic 通過竊取數十萬本受版權保護的書籍建立了一個價值數十億美元的企業,」這份在加州提交的訴狀(PDF)中寫道。「Anthropic 沒有取得許可,也沒有為其所利用的創作支付合理的費用,而是對這些作品進行了盜版。」
這場代表作家 Andrea Bartz、Charles Graeber 和 Kirk Wallace Johnson 提起的訴訟,並希望能夠成為集體訴訟。這三名作者聲稱 Anthropic 在短短時間內就能為 Claude 的使用者產生大量的 AI 生成作品,遠遠快於人類作者完成一本書所需的時間,進而剝奪了作家的收入。
ADVERTISEMENT
訴狀指出,這種自動生成的文章之所以可能,是因為 Claude 是以他人的著作為訓練基礎,而這些作家卻沒有獲得任何補償。
「Claude 特別被用來生成廉價的書籍內容,」訴狀中寫道。
「例如,在 2023 年 5 月,據報導,一個名叫 Tim Boucher 的人在不到一年的時間裡,使用 Anthropic 的 Claude(以及 OpenAI 的 ChatGPT)『寫』了 97 本書,並以 1.99 美元到 5.99 美元的價格出售。每本書從頭到尾只需『六到八個小時』就能『寫』完。」
ADVERTISEMENT
「如果 Claude 沒有接受大量書籍的訓練,它就不可能生成這樣的長篇內容,而 Anthropic 卻沒有為這些書籍支付作者任何費用。」
訴狀聲稱,總部位於舊金山的 Anthropic 故意使用了名為 The Pile 和 Books3 的數據集,這些數據集包括了 Bibliotik,被指為「臭名昭著的盜版合集」,以此來避開內容授權的成本。作家們指控 Anthropic 違反了美國版權法,並尋求損害賠償。
自 2022 年 GitHub Copilot、Midjourney 和 ChatGPT 等生成式 AI 服務首次亮相以來,已經提起了許多此類訴訟。
ADVERTISEMENT
這些案件一直在美國法院中審理,但目前尚不清楚美國的版權法最終將如何適用於 AI 訓練或 AI 輸出。相關訴訟也對程式碼生成模型和圖像生成模型的合法性提出了挑戰。
去年,《紐約時報》起訴 Open AI,提出了類似的指控:該模型製造商複製了記者的作品,並透過複製這些作品不公平地從中獲利。今年 1 月,這個問題成為參議院司法委員會聽證會的焦點。
- 延伸閱讀:紐約時報要求法院銷毀ChatGPT的AI資料集,AI在公開網路上的訓練是否屬於「合理使用」?
- 延伸閱讀:OpenAI表示《紐約時報》提告他們侵犯版權毫無根據,只有篡改了提示語欺騙ChatGPT才會逐字採集其文章
OpenAI 當時辯稱,「使用公開可用的網路資料訓練 AI 模型屬於合理使用,這得到了長期和廣泛接受的先例的支持。我們認為這一原則對創作者是公平的,對創新者是必要的,對美國的競爭力至關重要。」
ADVERTISEMENT
這家 AI 巨頭聲稱,如果不使用受版權保護的內容,就不可能訓練 AI 模型。
這一立場得到了研究圖書館協會 (ARL) 的支持,但僅限於輸入(訓練)方面。該組織承認,LLM 的輸出「如果與原創表達作品有實質性相似,則可能存在侵權」。
在法律不確定的情況下,面臨破產索賠的風險,AI 公司紛紛與大型出版商和其他內容提供商簽訂授權協議。然而,這樣做使得模型訓練的成本更加昂貴。
《The Register》去年採訪了加州聖克拉拉大學法學院教授 Tyler Ochoa,他說,他表示,雖然使用有版權的內容進行訓練可能屬於合理使用,但 AI 模型的輸出可能不會構成侵權,除非它與特定的訓練數據非常接近。
- 延伸閱讀:OpenAI 正面臨大量的官司,村上春樹、史蒂芬·金的盜版書都拿來訓練機器人
- 延伸閱讀:微軟AI主管語出驚人:發表到網路上的內容就是「免費軟體」,任何人都可以隨意取用
- 延伸閱讀:AI搜尋引擎Perplexity深陷剽竊風暴,遭指控無視Robots協議爬取內容,CEO出面回應
- 資料來源:theregister
ADVERTISEMENT