Google的人工智慧研究實驗室 DeepMind 表示，它正在開發為影片生成配樂以及對白的人工智慧技術。

DeepMind 在其官方部落格上發表文章稱，它認為 V2A（"視訊到音訊"的縮寫）技術是人工智慧生成媒體拼圖中必不可少的一部分。雖然包括 DeepMind在內的許多機構已經開發出了視訊生成人工智慧模型，但這些模型無法在生成視訊時同步生成音效。

DeepMind 寫道：「視訊生成模型正以驚人的速度發展，但目前的許多系統只能生成無聲輸出。V2A技術(可能)成為讓生成的電影栩栩如生的一種有前景的方法。」

DeepMind的V2A技術可以將配樂描述（例如"水母在水下跳動、海洋生物、海洋"）與視訊配對，創造出與視訊中的人物和語氣相匹配的音樂、音效甚至對話，並通過DeepMind的SynthID深度防偽技術打上水印。DeepMind 表示，為 V2A 提供動力的人工智慧模型（一種擴散模型）是在聲音和對話文字以及視訊剪輯的組合上訓練出來的。

DeepMind 寫道：「通過對視訊、音訊和附加註釋進行訓練，我們的技術學會了將特定音訊事件與各種視覺場景聯絡起來，同時對註釋或文字中提供的資訊做出反應。」關於訓練資料是否受版權保護，以及資料建立者是否被告知 DeepMind 的工作，目前還不得而知。

人工智慧驅動的聲音生成工具並不新鮮。創業公司 Stability AI 上週剛剛發佈了一款，ElevenLabs 在 5 月份也推出了一款。建立視訊音效的模型也不新鮮。微軟的一個項目可以從靜止圖像中生成說話和唱歌視訊，Pika和GenreX等平台已經訓練出模型，可以獲取視訊並猜測特定場景中適合的音樂或效果。

但 DeepMind 聲稱，其 V2A 技術的獨特之處在於，它可以理解視訊中的原始像素，並自動將生成的聲音與視訊同步，還可以選擇不加說明。

V2A 並不完美，DeepMind 也承認這一點。由於底層模型並沒有在大量存在偽像或扭曲的視訊上進行過訓練，因此它並不能為這些視訊生成特別高品質的音訊。出於這些原因，同時也為了防止濫用，DeepMind 表示不會在短期內（如果有的話）向公眾發佈這項技術。

DeepMind 寫道："為了確保我們的 V2A 技術能夠對創意社區產生積極影響，我們正在收集來自頂尖創作者和電影製作人的各種觀點和見解，並利用這些寶貴的反饋意見來指導我們正在進行的研究和開發工作。在考慮向更廣泛的公眾開放之前，我們的 V2A 技術將接受嚴格的安全評估和測試。"

DeepMind 的 V2A 技術對於檔案管理員和處理歷史片段的人來說是一種特別有用的工具。但是，按照這種思路進行的生成式人工智慧也有可能顛覆電影和電視行業。要想確保生成式媒體工具不會消除工作崗位，或者說，消除整個職業，就需要一些強有力的勞動保護措施。

延伸閱讀：DeepMind推出AI足球助教，在設計進攻和防守戰略已超越人類教練
延伸閱讀：停止讓AI再胡說八道，DeepMind 開發了「事實核查器」以糾正Claude、Gemini、GPT、PaLM-2的幻覺
延伸閱讀：Google DeepMind 最新研究：用來擾亂演算法的對抗性攻擊對人類也有效，人類和 AI 都會把花瓶認成貓