ADVERTISEMENT
AI 公司通常對其訓練數據的來源保密,但 Proof News 的調查發現,世界上一些最有錢的 AI 公司使用了數千個 YouTube 影片的素材來訓練 AI。儘管違反了 YouTube 禁止未經許可收集平台素材的規定,但這些公司仍然這麼做了。
調查發現,矽谷巨頭包括 Anthropic、Nvidia、Apple和 Salesforce 使用了從超過 48,000 個頻道擷取的 173,536 個 YouTube 影片的字幕。
這個名為 YouTube Subtitles 的數據集包含來自教育和線上學習頻道的影片文字記錄,如可汗學院、麻省理工學院和哈佛大學。《華爾街日報》、NPR 和 BBC 的影片也被用來訓練 AI,《荷伯報到(he Late Show With Stephen Colbert)》、《約翰·奧利佛上週今夜秀(Last Week Tonight With John Oliver)》和《吉米夜現場(Jimmy Kimmel Live)》的內容也被使用。
Proof News 還發現了來自 YouTube 超級明星的資料,包括 MrBeast(2.89 億訂閱者,2 個影片被用於訓練)、Marques Brownlee(1,900 萬訂閱者,7 個影片被使用)、Jacksepticeye(近 3,100 萬訂閱者,377 個影片被使用)和 PewDiePie(1.11 億訂閱者,337 個影片被使用)。一些用來訓練 AI 的素材還宣傳了「地球平面論」等陰謀論。
Proof News 建立了一個工具,可以在 YouTube AI 訓練數據集中搜尋創作者。
「沒有人來找我說『我們想用這個』,」《大衛·帕克曼秀(The David Pakman Show)》的主持人大衛·帕克曼說。這是一個左傾的政治頻道,擁有超過 200 萬訂閱者和超過 20 億次觀看。他的近 160 個影片被納入 YouTube Subtitles 訓練數據集。
帕克曼的企業有四名全職員工,除了製作PODCAST、TikTok 影片和其他平台的資料外,每天還發表多個影片。帕克曼表示,如果 AI 公司獲得報酬,他也應該因為他的數據被使用而得到補償。他指出,最近一些媒體公司已經簽署協議,因其作品被用於訓練 AI 而獲得報酬。
「這是我謀生的工作,我投入了時間、資源、金錢和員工時間來創作這些內容,」帕克曼說。
「這是盜竊,」Nebula 的 CEO戴夫·威斯克斯(Dave Wiskus)說。Nebula 是一個部分由其創作者擁有的串流媒體服務,其中一些創作者的作品已經從 YouTube 被取走用於訓練 AI。
威斯克斯說,未經創作者同意使用他們的作品是「不尊重的」,特別是因為工作室可能會「使用生成式 AI 來取代盡可能多的藝術家」。
「這會被用來剝削和傷害藝術家嗎?是的,絕對會,」威斯克斯說。
EleutherAI 是該數據集的創建者,其代表沒有回應 Proof 的調查結果,包括未經許可使用影片的指控。該公司的網站聲稱其總體目標是降低 AI 開發的門檻,讓 Big Tech 之外的人也能參與,並且歷來提供「透過訓練和發表模型來獲取尖端 AI 技術」。
Big Tech 指的是全球市值最高的科技公司,通常包括美國的五大科技公司:Alphabet(Google 的母公司)、亞馬遜、蘋果、Meta(Facebook 的母公司)和微軟。
YouTube Subtitles 不包括影片圖像,而是由影片字幕的純文字組成,通常還包括日語、德語和阿拉伯語等語言的翻譯。
根據 EleutherAI 發表的一篇研究論文,該數據集是該非營利組織發表的名為 Pile 的彙編的一部分。Pile 的開發者不僅包括來自 YouTube 的資料,還包括歐洲議會、英文維基百科,以及作為聯邦調查的一部分公開的安然公司員工電子郵件寶庫。
Pile 的大部分數據集都是公開可存取的,任何有足夠空間和運算能力的網路使用者都可以使用。Big Tech 之外的學者和其他開發者都利用了這個數據集,但他們不是唯一的。
Apple、Nvidia和 Salesforce——這些價值數千億和數兆美元的公司——在其研究論文和發文中描述了如何使用 Pile 來訓練 AI。文件還顯示,Apple使用 Pile 訓練了 OpenELM,這是一個在 4 月發表的高知名度模型,幾週後該公司就宣布將為 iPhone 和 MacBook 加入新的 AI 功能。彭博社和 Databricks 也在 Pile 上訓練了模型,這些公司的出版物表明。
領先的 AI 製造商 Anthropic 也是如此,該公司獲得了亞馬遜 40 億美元的投資,並宣傳其對「AI 安全」的關注。
「Pile 包含一個非常小的 YouTube 字幕子集,」Anthropic 的發言人珍妮佛・馬丁尼茲(Jennifer Martinez)在一份聲明中確認了在 Anthropic 的生成式 AI 助手 Claude 中使用 Pile。「YouTube 的條款涵蓋了對其平台的直接使用,這與使用 Pile 數據集是不同的。關於可能違反 YouTube 服務條款的問題,我們必須請您詢問 Pile 的作者。」
Salesforce 也確認使用 Pile 構建了一個用於「學術和研究目的」的 AI 模型。該公司 AI 研究副總裁 Caiming Xiong 在一份聲明中強調,該數據集是「公開可用的」。
Salesforce 後來在 2022 年公開發表了同一個 AI 模型,根據其 Hugging Face 頁面,該模型已被下載至少 86,000 次。在他們的研究論文中,Salesforce 的開發人員指出 Pile 還包含了褻瀆以及「對性別和某些宗教群體的偏見」,並警告這可能導致「漏洞和安全問題」。Proof News 在 YouTube Subtitles 中發現了數千個褻瀆的例子以及種族和性別歧視用語的實例。Salesforce 的代表沒有回應有關安全問題的問題。
Nvidia的代表拒絕發表評論。Apple、Databricks 和彭博社的代表沒有回應評論請求。
YouTube 資料「金礦」
AI 公司之間的競爭部分在於獲取更高品質的數據,巴西里約熱內盧 Fundação Getulio Vargas 法學院的 AI 政策研究員和 CyberBRICS 研究員賈伊・維普拉(Jai Vipra)說。這是公司對數據來源保密的原因之一。
今年早些時候,《紐約時報》報導稱,擁有 YouTube 的谷歌利用該平台上的影片文本來訓練其模型。作為回應,一位發言人告訴該報,根據與 YouTube 創作者的協議,這種使用是被允許的。
《紐約時報》的調查還發現 OpenAI 未經授權使用了 YouTube 影片。公司代表既沒有證實也沒有否認該報紙的調查結果。
OpenAI 的高管一再拒絕公開回答有關是否使用 YouTube 影片來訓練其 AI 產品 Sora 的問題,該產品可以根據文本提示創建影片。今年早些時候,《華爾街日報》的一名記者向 OpenAI 的首席技術長米拉‧穆拉蒂(Mira Murati)提出了這個問題。
「我其實不確定,」穆拉蒂回答道。
Vipra 說,YouTube Subtitles 和其他類型的語音轉文本數據可能是一個「金礦」,因為它們可以幫助訓練模型複製人們的說話和交談方式。
「這仍然是原則問題,」戴夫‧法里納(Dave Farina)說,他是「Professor Dave Explains」的主持人,該頻道展示化學和其他科學教程,擁有 300 萬訂閱者,其中 140 個影片被用於 YouTube Subtitles。
「如果你利用我所做的工作建立一個產品來獲利,而這個產品會使我或像我這樣的人失業,那麼就需要就補償或某種管理進行討論,」他說。
在 2020 年發布的 YouTube Subtitles 數據集中,包含了超過 12,000 個已經從 YouTube 上刪除的影片的字幕。這代表這些影片的內容,雖然已經從 YouTube 上消失,但卻被納入了這個數據集,並可能被用於訓練 AI 模型。其中一個案例更特別,某位創作者刪除了自己在網路上的所有痕跡,但他的作品仍被納入 AI 模型中,且無法得知有多少 AI 模型使用了這些資料。
Proof News 試圖聯繫本文提到的頻道所有者。許多人沒有回應評論。在媒體所交談過的創作者中,沒有人知道他們的資料被盜用,更不用說它是如何被使用的。
其中感到驚訝的包括:Crash Course(近 1,600 萬訂閱者,871 個影片被使用)和 SciShow(800 萬訂閱者,228 個影片被使用)的製作人,這些是 Hank 和 John Green 兄弟的教育影片帝國的支柱。
「我們對得知我們精心製作的教育內容以這種方式未經我們同意就被使用感到沮喪,」這些節目製作公司 Complexly 的 CEO Julie Walsh Smith 在一份聲明中說。
YouTube Subtitles 並不是第一個困擾創意產業的 AI 訓練數據集。
Proof News 撰稿人 Alex Reisner 獲得了另一個 Pile 數據集 Books3 的拷貝,去年在《大西洋月刊》上發表了一篇文章,報告了他的發現:超過 180,000 本書被盜用,包括瑪格麗特·愛特伍(Margaret Atwood)、麥可·波倫(Michael Pollan)和查蒂·史密斯(Zadie Smith)所寫的書。之後,許多作者因未經授權使用他們的作品和涉嫌侵犯版權而起訴 AI 公司。類似的案件此後如雪球般增加,而託管 Books3 的平台已將其下架。
作為對這些訴訟的回應,Meta、OpenAI 和彭博社等被告辯稱他們的行為構成合理使用。原告自願撤回了針對最初抓取並公開這些書籍的 EleutherAI 的訴訟。
其餘案件的訴訟仍處於早期階段,圍繞許可和支付的問題尚未解決。Pile 此後已從其官方下載網站上刪除,但仍可在檔案共享服務上找到。
「科技公司已經肆無忌憚,」消費者保護律師、DiCello Levitt 律師事務所合夥人艾米‧凱勒(Amy Keller)說。她代表那些作品被 AI 公司在未經同意的情況下收集的創作者提起訴訟。
「人們擔心他們在這件事上沒有選擇權,」凱勒說。「我認為這才是真正的問題所在。」
- 延伸閱讀:ChatGPT等 AI 訓練資料部分來自侵犯版權的「影子圖書館」,數千名作家不滿發聲:得付版權費
- 延伸閱讀:紐約時報要求法院銷毀ChatGPT的AI資料集,AI在公開網路上的訓練是否屬於「合理使用」?
模仿鸚鵡的模仿
許多創作者對未來感到不確定。
全職 YouTuber 巡視未經授權使用他們作品的情況,定期提交刪除通知,有些人擔心 AI 生成與他們製作的內容類似的內容只是時間問題,甚至可能直接產生模仿品。
《大衛·帕克曼秀》的創作者帕克曼最近在滾動瀏覽 TikTok 時看到了 AI 的力量。他看到一個標記為塔克·卡森(Tucker Carlson)片段的影片,但當帕克曼觀看時,他大吃一驚。它聽起來像卡森,但逐字逐句都是帕克曼在他的 YouTube 節目中說過的話,甚至連語調都一樣。他同樣感到驚恐的是,只有一個影片評論者似乎認出這是假的——一個複製的卡森的聲音在朗讀帕克曼的腳本。
「這將成為一個問題,」帕克曼在他製作的關於這個假影片的 YouTube 影片中說。「你基本上可以用任何人來做這個。」
EleutherAI 創始人席德‧布萊克(Sid Black)在 GitHub 上寫道,他透過使用腳本創建了 YouTube Subtitles。該腳本以與 YouTube 觀眾的瀏覽器在觀看影片時下載字幕相同的方式從 YouTube 的 API 下載字幕。根據 GitHub 上的文檔,Black 使用了 495 個搜索詞來篩選影片,包括「搞笑 vlogger」、「愛因斯坦」、「黑人新教徒」、「保護性社會服務」、「資訊戰」、「量子色動力學」、「班·夏皮羅」、「維吾爾人」、「生食主義者」、「蛋糕食譜」、「納斯卡線」和「地平說」。
儘管 YouTube 的服務條款禁止透過「自動化方式」存取其影片,但超過 2,000 名 GitHub 使用者已經收藏或認可了這段程式碼。
「如果 YouTube 真的想阻止這個模組工作,有很多方法可以做到,」機器學習工程師喬納斯‧德普瓦(Jonas Depoix)在 GitHub 上的一個討論中寫道,他在那裡發表了布萊克用來存取 YouTube 字幕的程式碼。「到目前為止,這種情況還沒有發生。」
在給 Proof News 的一封電子郵件中,德普瓦表示,自從幾年前作為大學生為一個項目編寫這段程式碼以來,他就沒有再使用過它,並對人們發現它有用感到驚訝。他拒絕回答有關 YouTube 規則的問題。
谷歌發言人傑克·馬隆(Jack Malon)在回應評論的的電子郵件中表示,該公司多年來一直採取「行動防止濫用、未經授權的抓取」。他沒有回應關於其他公司將這些資料用作訓練數據的問題。
AI 公司使用的影片中,有 146 個來自「愛因斯坦鸚鵡(Einstein Parrot)」,這是一個擁有近 15 萬訂閱者的頻道。這隻非洲灰鸚鵡的照顧者瑪西亞(Marcia)(為了不危及這隻著名鸚鵡的安全,她不願使用自己的姓)說,起初她覺得 AI 模型吸收了一隻模仿鸚鵡的話語很有趣。
「誰會想要使用鸚鵡的聲音呢?」瑪西亞說。「但後來,我知道他說得很好。他用我的聲音說話。所以他在模仿我,然後 AI 又在模仿這隻鸚鵡。」
一旦被 AI 吸收,數據就無法被「遺忘」。瑪西亞對她的鳥兒的訊息可能被以未知方式使用感到困擾,包括創建一個數位複製鸚鵡,而且她擔心,可能會讓它說髒話。
「我們正在踏入未知的領域,」瑪西亞說。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!