ADVERTISEMENT
《404 Media》獲得的內部 Slack 聊天、電子郵件和文件顯示,Nvidia 從 YouTube 和其他幾個來源抓取影片,以編纂其人工智慧產品的訓練數據。
當被問及使用受版權保護的內容來訓練 AI 模型的法律和道德問題時,Nvidia 為自己的行為辯護,聲稱他們「完全遵守版權法的條文與精神」。然而,404 Media 檢視 Nvidia 的內部對話後發現,當參與專案的員工對使用學術研究資料集和 YouTube 影片的合法性提出質疑時,管理層卻告訴他們,這些內容的使用已獲得公司最高層的許可。
一位不願透露姓名的 Nvidia 前員工向 404 Media 透露,Nvidia 曾要求員工從 Netflix、YouTube 和其他來源抓取影片,用以訓練其 AI 模型。這個 AI 模型將應用於 Nvidia 的 Omniverse 3D 世界生成器、自駕車系統和「數位人」等產品。該專案在內部被稱為 Cosmos(但與該公司現有的 Cosmos 深度學習產品不同),尚未公開發表。
ADVERTISEMENT
從專案領導發給員工的電子郵件顯示,Cosmos 的目標是建立一個最先進的影片基礎模型,該模型「將光傳輸、物理和智慧的模擬整合在一起,以解鎖對 Nvidia 至關重要的各種下游應用程式」。
Nvidia 研究部副總裁暨 Cosmos 專案負責人 Ming-Yu Liu 在 5 月份的一封電子郵件中表示:「我們正在完成 v1 數據流程,並確保必要的運算資源,以建立一個每天能產出相當於人類一生視覺體驗的訓練數據的影像數據工廠。」
ADVERTISEMENT
來自 Nvidia 內部的對話和指示顯示,該公司設計了推動生成 AI 繁榮的晶片和 API,其員工在考慮法律和倫理問題時,面臨挑戰。這也凸顯了包括 Runway 和 OpenAI 在內的行業巨頭,對於訓練其 AI 模型的內容的無限需求。
Nvidia 發言人在一封電子郵件中告訴《404 Media》:「我們尊重所有內容創作者的權利,並相信我們的模型和研究工作完全符合版權法的文字和精神。版權法保護特定的表達方式,但不保護事實、想法、數據或訊息。任何人都可以從其他來源自由學習事實、想法、數據或訊息,並用它們來做出自己的表達。合理使用也保護了將作品用於轉化目的的能力,例如模型訓練。」
當被問及 Nvidia 使用 YouTube 影片作為其模型訓練數據時,Google 發言人告訴《404 Media》,該公司「先前的評論仍然有效」,並連結到 2024 年 4 月彭博社的一篇文章,其中 YouTube 執行長 Neal Mohan 表示,如果 OpenAI 使用 YouTube 影片來改進其 AI 影片生成器 Sora,那將「明顯違反」YouTube 的使用條款。
ADVERTISEMENT
Netflix 發言人告訴《404 Media》,Netflix 沒有與 Nvidia 簽訂內容使用協議,該平台的服務條款不允許抓取內容。
從事該專案的員工所提出的法律問題質疑,常常被專案經理駁回,他們說,未經許可抓取影片的決定是「高層決定」,他們無需擔心;對於什麼構成合理、合乎道德的受版權保護內容和學術、非商業用途資料集的使用,被視為一個「開放的法律問題」,他們將來會解決。
《404 Media》的調查揭示了科技公司在收集大量受版權保護的內容進行資料集編製,用於訓練世界上最有價值的人工智慧模型時,所採取的「不徵求許可」的態度。
ADVERTISEMENT
※※※
2024 年 2 月,Nvidia 公司的首席科學家 Francesco Ferroni 在 Nvidia 公司的 Slack 頻道 #cosmos-dataset-creation 中寫道:「大家好,@Sanja Fidler 向我提到一個收集大量策劃影片資料集以進行生成建模的計劃。我們認為,首先嘗試編輯所有可用的內部和已下載的影片資料集是有用的。」Sanja Fidler 是 Nvidia 的 AI 研究副總裁。
Ferroni 接著丟了一個包含資料集連結的電子表格,其中包括 MovieNet,一個包含 6 萬個電影預告片的數據庫;WebVid,一個從圖片庫編譯的 Github 影像資料集,在 Shutterstock 發出停止和終止通知後,已被其創建者刪除;InternVid-10M,一個 Github 上可用的 1000 萬個 YouTube 影片 ID 的資料集;以及幾個內部擷取的電子遊戲片段的資料集。
《404 Media》已從 Slack 對話的螢幕截圖中刪去了基層員工的姓名。我們保留了幾位參與該專案的資深工程師和高階主管的姓名,因為他們是人工智慧行業的領導者,具有公眾形象。
在 2 月份後來的討論中,工程師們談到了他們已經提取的資料集,包括 HD-VG-130M,一個包含 1.3 億個 YouTube 影片的資料集。
該資料集由中國北京大學的研究人員所建立,使用授權聲明該資料集僅供學術使用。
該資料集的 Github 頁面說:「透過下載或使用數據,您理解、承認並同意以下協議中的所有條款。僅限學術使用。HD-VG-130M 資料集中的任何內容僅可用於學術研究。您同意不以任何商業目的重製、複製、拷貝、交易或利用數據集中的內容。禁止散播。尊重原始來源個人訊息的隱私。未經版權持有人許可,不得對數據集內容進行任何形式的傳播、修改或其他類似行為。」
在項目過程中,由研究人員和學者編輯公開的資料集,被認為可以自由使用於 Nvidia 的模型中。AI 研究人員越來越關注其公開資料集的合理使用,包括倫理和法律方面的考量。
麻省理工學院數據來源計劃的 Robert Mahari 告訴 404 Media,在過去一年中,他們看到越來越多的研究資料集被授予非商業用途授權,顯示出學術界試圖限制其工作的商業用途。為研究用途編輯的資料集有不同於商業用途的目的。
Mahari 說:「當學者們發布公共資料集,特別是針對特定任務時,我們並不檢查這些數據是否存在某些類型的偏見或西方中心主義等等。如果這不是工作的重點,那麼就不會檢查這些數據。因此,如果一位學者在授權條款上寫著:『這僅用於學術用途』,或者『請不要以非預期的方式使用這些數據』,我覺得有很強的理由應該聽從這一點。因為這些數據可能並不適合商業用途,在其他類型的背景下可能無法很好地工作。」
像許多其他科技巨頭一樣,Nvidia 也僱用從事和發表學術研究的人。然而,《404 Media》看到的 Nvidia 內部對話清楚地表明,Cosmos 旨在加強該公司在競爭激烈的 AI 行業中加強其商業產品的努力。
公開可用的研究資料集通常以一組 URL 或 YouTube ID 的形式分發,這是出於實際原因——數百萬個完整的影片或圖像文件分享起來太麻煩——但也是出於法律和道德原因。例如,如果有人刪除他們的 YouTube 影片或推文,副本就不會在所有者不知情或未經許可的情況下,繼續存在於資料集中。
為了獲得實際文件,專案經理讓員工使用下載器和 AWS 伺服器抓取影片,並將其合併成 Nvidia 自己的專有資料集。
Nvidia 員工在專案中的一封電子郵件中說:「這些文件的實際檔案只能由你自己下載。無法從資料集 URL 列表中下載檔案。」
Mahari 說,抓取 YouTube 和其他來源的內容作為 AI 模型的訓練資料,不僅對資料集製作者提出了問題,還對抓取資料的公司提出了倫理和法律問題。「顯然,這是不可接受的做法」,Mahari 說。「我們需要一個過程,以便有意圖地解決這些問題。」
在一個行業內部的 Slack 頻道中,項目經理稱,抓取視頻以建立 Cosmos 是由 Nvidia 高層做出的決策。員工被告知不必擔心關於合理使用的問題。
華盛頓大學計算語言學實驗室教授兼主任艾米莉·班德(Emily Bender)告訴《404 Media》:「這感覺有點像是一種法律上的變通辦法,不直接分發資料集,其他人可以構建資料集,然後將其用於自己的目的。」
※※※
3 月,一位研究科學家在 Slack 上開始了一個關於 OpenAI 的 Sora 影片生成器可能在其訓練數據中使用《阿凡達》和《魔戒》等好萊塢電影的話題。
他們說:「電影實際上是一個很好的資料來源,可以獲得類似遊戲的 3D 一致性和虛構內容,但品質更好。這兩者的角色都是完全的 CGI,現在許多真人場景也是 CGI。」有人回答說,團隊應該用探索頻道的電影來訓練。
Liu 說:「我們需要一個志願者來下載所有的電影。」
最初提出電影的研究科學家補充說:「雖然他們正在做的事情非常清楚,但我們必須非常小心好萊塢對 AI 的過度敏感。在 SD(Stable Diffusion)發表後,藝術家社群發生的事情,在好萊塢 / VFX 也正在發生。」
然後,他們在聊天中貼了兩個連結:一個是《好萊塢報導者》的一篇文章,內容關於泰勒‧派瑞在看到 OpenAI 的 Sora 後,暫停 8 億美元工作室擴張計畫;另一篇則是《名利場》關於 2023 年 SAG-AFTRA 罷工的文章。
Liu 回應說(強調是他們):「我們在這裡做的事情不會導致任何出版物。我們會先用所有能下載到的資料進行實驗。鑑於我們不會發表任何東西,不會導致負面情緒。」這位與《404 Media》交談的前員工解釋說,「出版」是指研究出版物方面。
提出「過度敏感」的人回答說:「如果我們在全公司範圍內這樣做,應該廣泛溝通,因為像他們那樣展示一個例子可能會適得其反。」Liu回答說:「會的。」
3月,Ferroni 在另一個與專案相關的 Slack 頻道中寫道:「發現了一個需要優先下載的文件列表。原來我們擁有的 HDVILA(高解析度影片語言)資料集中缺少了 230 萬個原始影片!」他們指的是微軟的 HD-VILA-100M,一個大規模、高解析度和多樣化的影片語言資料集。他們發送了一個 Google Drive 檔案的連結,並說:「這裡是缺少的 youtube 連結」,然後,「讓我們把這個放到下載流程中!」
HD-VILA-100M 的使用許可聲明:
您同意僅將資料用於非商業研究的運算用途。這項限制意味著您可以從事非商業研究活動(包括由商業實體承擔或資助的非商業研究),但您不得在任何商業產品中使用資料或任何結果,包括作為您使用或提供給他人的產品或服務的一部分(或用於改進任何產品或服務)。
另一位工程師回覆說:「讓我們建立一個我們已經下載的 URL 資料庫。Youtube 影片有唯一的 ID,我們可以用那些作為參考('?v='之後的ID)嗎?我們將來會多次進行 URL 差異比較和合併。」Ferroni 回答說:「是的,我們現在正在用 Hive 做這個,設置基礎設施」,這意味著他們正在把它加入到專案管理工具 Hive 中。
Nvidia 員工還討論了 YouTube 封鎖 IP 位址的問題;如果平台檢測到有類似爬蟲的東西被用來下載大量的內容,他們可以封鎖單個 IP 位址的造訪。有人問:「關於 Youtube 封鎖 IP,你考慮過像 https://brightdata.com/for IP rotation這 樣的東西嗎?我們現在正在考慮用它來抓取 LLM 資料,如果你想試試,我有一個帳戶可以把你加進去。」
他們標記的人,在 Omniverse 團隊工作,回答說:「我們在 AWS 上,重啟一個[虛擬機]就會得到一個新的公共 IP。所以,所以到目前為止這不是問題。」
在 #cosmos-dataset-creation 的 Slack 討論中,關於如何最好地為專案尋找影片,員工偶爾會提出關於他們正在做的事情的法律和道德問題。2月,在有人提到使用 YouTube-8M(一個由 Google 編譯的 YouTube ID 研究資料集)後,Ferroni 問道:「我們可能不能將 [YT8M] 用於非研究目的吧?」
YouTube-8M 的論文和專案頁面沒有提到權利問題,但論文確實表明它是為了促進機器學習研究而創建的:「我們希望這個資料集能為學術界研究人員提供公平的競爭環境,縮小與大規模標記影音資料集的差距,並顯著加速影像理解的研究。我們希望這個資料集能被證明是一個開發新的影像表徵學習算法的試驗台,特別是有效處理嘈雜或不完整標籤的方法,」論文指出。
對於 Ferroni 關於在 Cosmos 專案中使用它的問題,一位 Nvidia 員工回答說:
「是的,從 Google 那裡傳出的成本很高。然而,從 Nvidia 內部調度 10,000 個核心根本上是很困難的。此外,Nvidia 到雲端的頻寬限制增加了很大的變數,並可能造成問題。從 Google Cloud 上下載意味著每個工作都能獲得可預測的、高頻寬的 YouTube 連接。
更重要的是,下載 YouTube 視頻是違反 YouTube 服務條款的。因此,為了下載YouTube 8m,我們提前與 Google/YouTube 清楚地溝通了下載事宜,並以我們將使用 Google Cloud 為誘因。畢竟,一般情況下,對於 800 萬個影片,他們會得到大量的廣告曝光,這是他們在下載用於訓練時失去的收入,所以他們應該從中得到一些錢。支付每下載一個影片 0.00625 美元似乎仍然很划算。」
Ferroni 回答說:「好吧,大概這些資料只能用於研究目的吧?據我所知,Google YouTube API 可以用來查詢每個影片的授權條款。你能否也說明一下 ACAV100M、YouTube8M 的使用條款?」
「據我所知,YouTube 的服務條款禁止下載,不管授權內容是什麼;這些限制是關於他們損失的廣告收入,而不是授權條款,」另一位員工回答說。他們繼續說:
「我不知道 Google 在創建資料集時使用了什麼授權條款過濾;我們只是下載了他們列出的資料集中包含的任何內容(他們發表了功能,加上原始影片的連結)。我下載的 YouTube 8m 資料包含完整的詮釋資料,所以你可以檢查每個影片。我還得看看 ACAV100M 資料集。一般來說,CC 或公共領域當然總是最好的。然而,是否可以使用受版權保護的材料進行訓練是一個開放的法律問題;大多數公司似乎認為是可以的。我相信我們的法律團隊已經批准了這種用於 LLM 訓練的事情,也可能批准用於影片訓練。」
麻省理工學院媒體實驗室的博士生 Shayne Longpre 告訴《404 Media》:「我認為,在未經他人同意的情況下將某樣東西商業化,與基於已公開在網上的東西研究生成式 AI 的能力之間,存在著巨大的差距。」
在 Cosmos Slack 頻道中關於 YouTube 服務條款的問題並不是最後一次在頻道內出現法律問題。後來,另一位員工說:「嗨,團隊。我們是否正在使用https://research.google.com/youtube8m/download.html?如果是的話,我們是否有法律批准?在一個專案中,法律部門否認使用它,因為個別影片的許可優先於 yt8m 上共享的許可。」
Liu 回答說:「這是高層的決定。我們有一個涵蓋所有資料的統一批准。」
「好的,謝謝你!」問這個問題的人回答說。
班德告訴《404 Media》,Nvidia 正在利用受版權保護的內容,用於訓練資料的法律灰色地帶。
她說:「在我看來,確實存在一種文化,即『如果我們能抓到,我們就可以使用』,這很大程度上基於人們希望是真實的,而不是基於仔細的工作、查看其合法性,或深入思考它如何影響人們。」
Mahari 說,使用受版權保護的內容來訓練 AI「絕對不是一個確定的法律」。他說,法律制度還沒有確定使用訓練資料來開發 AI 模型是否具有足夠的變革性,特別是模型已被證明可以記憶或回憶訓練資料作為輸出。「我的觀點(部分總結在這篇科學文章中)是,訓練 AI 模型很可能構成合理使用,但這並不意味著生成與訓練資料的特定專案相似的輸出不是侵權。在這種情況下,目前還不清楚是基礎模型的提供者還是創建輸出的特定使用者會侵權(這可能取決於具體情況)。」
5 月,一位研究科學家在 Cosmos Slack 頻道中分享了一些Y outube 頻道的連結,並說:「如果你們仍在考慮可以下載的 YouTube 頻道,這裡有幾個可能值得考慮的頻道。」這些頻道包括 Expedia 和 Architectural Digest 的官方頻道,以及 The Critical Drinker 和 Marques Brownlee (MKBHD) 等個人的內容創作者。一位專案經理感謝他們的建議,並說他們會將這些建議傳遞給團隊,而 Fidler 回答說:「你們還包括教學影片嗎?天文學?醫學?」
※※※
在商業基礎模型中使用受版權保護作品的「開放法律問題」可能不會長期開放。版權所有者對生成式人工智慧公司提出的侵犯版權的投訴越來越多,包括 Getty Images 對 Stable Diffusion 創建者 Stability AI 的訴訟、紐約時報對 OpenAI 的訴訟,以及藝術家和創作者對 Stability、Midjourney、DeviantArt 和 Runway 提起的集體訴訟。
Cosmos 訓練資料團隊還討論了使用 Netflix 來訓練生成器。Liu 在 Slack 頻道中說:「在今天的會議上,我們得到了下載所有類型資料的授權。我們也應該下載整個 Netflix 嗎?我們要如何操作呢?」
有人回答說:「我們應該下載完整的 discovery 頻道!」
Liu 說:「我們需要一個 PIC(專案訊息協調人)來做這件事。誰願意一邊看電影一邊螢幕截圖?」
Liu 繼續說:「我們應該從這裡得到很多高品質的人臉影片。」Omniverse 基礎設施團隊的某人被標記到發文中,並指出他們願意幫助「操作這個」,因為他們有在「其他大公司建立大型資料集」的經驗。
該團隊還考慮了如何最好的在訓練資料中加入遊戲畫面。Nvidia 的高級研究科學家 Jim Fan 提到了在捕捉生活遊戲影片時涉及的「工程和監管」障礙。
Fan 寫道:「更新:我一直在與 GeForce Now(GFN)的人會面,並將與他們制定一個資料計劃。我們將與 GFN 和相關工程團隊密切合作,以設置實況遊戲資料捕捉,擴大管道,並處理它們以用於訓練。高品質的遊戲影片將是我們 Sora 工作的一個非常有用的補充。我們還沒有統計數據或影片檔案,因為還沒有建立基礎設施來擷取大量的即時遊戲影片和動作。這裡有工程和監管方面的障礙需要克服。但一旦 GFN 資料來了,我們就會將清理和處理後的 GFN 資料加到 team-vfm 中。」
3 月,該專案達到了一個里程碑:下載了 10 萬個影片,Nvidia 在兩周內完成了這項工作。一位員工在討論這個里程碑的發文中提到 Ferroni 擁有一個他們正在使用的下載器,Ferroni 確認他們一直在下載聲音和影片。
Liu 回答說:「驚人的進展。現在的問題是,我們如何能得到大量的、高品質的 URL。」
5 月下旬,一封關於影片數據戰略的電子郵件發送給了專案團隊成員,宣布他們已經編譯了 3,850 萬個影片 URL。「在我們衡量所需分佈時,下週的重點仍然是電影、無人機拍攝、自我中心視角、一些旅遊和自然內容,」郵件說。它還包含了一個圖表,顯示了他們下載的內容類型的百分比。
在這封電子郵件中,一位產品經理建議將另外四個資料集加到模型的訓練數據中。他們寫道:
「1. Ego-Exo4D:一個多樣化、大規模、多模式、多視角的影片資料集和基準測試,由全球 13 個城市的 740 名佩戴攝影者收集,捕捉了 1286.3 小時的熟練人類活動影片。
2. Ego4D:一個大規模的、以自我為中心的資料集和基準測試套件,在全球 74 個地點和 9 個國家收集,有超過 3,670 小時的日常生活活動影片。
3. HOI4D:一個大規模的 4D 以自我為中心的資料集,具有豐富的註釋,以促進人和不同類別的物體互動方式的研究。
4. GeForce Now:遊戲數據。」
HOI4D 是由清華大學、北京大學和上海期智研究院的研究人員創建的,在 CC BY-NC 4.0 許可下,禁止商業使用。
Bender說:「在我看來,如果一家公司將一個僅用於研究目的的資料集用於研究,他們仍然遵守該資料集的許可。但為了做到這一點,他們必須非常小心地在他們作為研究的工作和他們在構建產品的工作之間設置一個防火牆。」
在另一封 5 月份的更新電子郵件中,Liu 說:「研究團隊現在正在用許多不同的配置來訓練一個 1B 模型,每個配置有 16 個節點。這是進一步擴大規模之前的一個重要的調試步驟。我們計劃在幾周內得出結論,然後再擴大到 10B 模型。」
Nvidia 執行長黃仁勳回覆該郵件說:「很好的更新。許多公司必須建立影片 FM(基礎模型)。我們可以提供一個完全加速的流程。」
6 月,員工們討論了在保持 AI 行業競爭力的背景下,模型中的哪些類型的內容對 Nvidia 的產品最有用。
Liu 說:「Nvidia 擁有機器人、AV(自動駕駛汽車)、OV(Omniverse)和 Avatar,這些都是大多數內容公司所沒有的。為了最大限度提升公司的影響力,我們策劃的資料必須能很好地用於這些殺手級應用。」
一位產品經理回答說:「我了解對機器人和 AV 有影響的資料。誰能分享對 OV 和 Avatar 用例有影響的資料的細節?」
Liu 回答說:「這將是關於人類如何與物體互動的影片。比如家具安裝。切水果,疊衣服。」
※※※
雖然 Nvidia 確實為學術研究做出了貢獻,但《404 Media》獲得的對話和電子郵件顯示,Cosmos 團隊正在開發的模型是用於其多個產品的商業用途。
在法律對如何編制訓練資料建立先例,或者要求公司讓這些資料保持透明之前,企業將會繼續利用抓取版權保護的訓練資料這一法律灰色地帶。像這樣被洩露出來的內部對話,是任何人能夠知道自己的作品是否被用來訓練模型的唯一方式,而這些模型為 Nvidia、Runway 或 OpenAI 等公司帶來了數十億美元的收益。
多年來,人工智慧行業一直在推動提高透明度,無論是透過政府監管還是行業標準。「了解用於訓練模型的資料集中的內容以及它們是如何被編譯的至關重要,」麻省理工學院的 Jack Hardinges、Elena Simperl 和 Nigel Shadbolt 在今年早些時候寫道。「沒有這些訊息,開發者、研究人員和倫理學家解決資料中的偏見或刪除有害內容的工作就會受到阻礙。有關訓練資料的訊息對立法者評估基礎模型是否攝入了個人資料或受版權保護的材料也至關重要。在更下游,如果AI系統的預期操作者和受其使用影響的人了解它們是如何開發的,他們就更有可能信任它們。」
立法者在過去一年中提出了幾項法案來解決這個問題,包括去年12月提出的《AI 基礎模型透明度法案》,該法案將要求創建基礎 AI 模型的公司與 FTC 和版權局等聯邦機構合作,制定透明度標準,包括要求他們向消費者公開某些訊息。4月提出的《生成式 AI 版權披露法案》將要求資料集製造商向登記處提交「對使用的任何受版權保護作品的足夠詳細的摘要」,否則將面臨罰款。
Mahari 說:「從技術上講,很難確定你的東西是否被用於訓練。公司的最佳政策,從激勵的角度來看,是不告訴人們你訓練了什麼,因為任何第三方都很難真正進行審計並找出答案。所以,只要你不告訴任何人,就很難證明。」
ADVERTISEMENT