Google的MusicLM人工智慧系統，可以輸入文字產生音樂，但這個模型暫時不對外發表

繼業界出現 ChatGPT、Stable Diffusion 2.0、VALL-E 等聊天、圖像、文本產生聲音等模型之後，Google 最新帶來了一種新的人工智慧系統，讓 AI 發力音樂圈，該系統可以在給定文本描述的情況下自動產生任何類型的音樂，為此，Google 還取了一個言簡意賅的名字——MusicLM。

不過，值得注意的是，因為擔心該系統存在一些潛在風險，Google 當前雖然已經研發了該系統，但暫時還沒有對外公開發佈它的計畫。

MusicLM 的神奇之處

只聞其聲不見其人，也為 MusicLM 帶來了一些神秘感。不過，近日，Google 發表了一篇《MusicLM: Generating Music From Text》學術論文，揭開了 MusicLM 的面紗。

據論文介紹，MusicLM 是一個從文本描述中生成高傳真音樂的模型，它將有條件的音樂生成過程描述為一個層次化的序列到序列的建模任務，其生成的音樂頻率為 24kHz，在幾分鐘內保持一致。

▲ 層次化的序列到序列的建模任務

在業界，MusicLM 並不是第一個 AI 音樂產生器，也正如外媒 TechCrunch 指出的那樣，此前 Google 推出的 AudioML 和 OpenAI 的 Jukebox 等專案都已經做到了音樂產生功能，那麼，MusicLM 到底特別在哪裡？

其實，MusicLM 的與眾不同主要體現在以下幾點：

一、MusicLM 的訓練數據無可比擬

上述提到的幾種模型往往由於技術限制和有限的訓練資料，無法製作出作曲特別複雜或高傳真度的歌曲。

相比之下，MusicLM 是在 280，000 小時的音樂資料集上進行了訓練而成，由此可以説明模型本身創造出令人稱奇的多樣性、深度的音樂。

二、MusicLM 可以直接根據文本提示生成長達幾分鐘的音樂片段

只要提供一段描述，MusicLM 模型可以文本自動生成符合場景的音樂，譬如提供的描述如下：

雷鬼舞曲和電子舞曲的融合，具有太空般的、另一個世界的聲音。誘發在太空中迷失的體驗，音樂將被設計為喚起一種奇跡和敬畏感，同時又是可舞蹈的。

三、MusicLM 模型還可以基於已有的旋律轉換為其他樂器，甚至模擬人聲

除了以上，Google 研究人員表明，MusicLM 還可以建立在現有的旋律之上，即無論是哼唱、演唱、吹口哨還是在樂器上，MusicLM 都可以繼續創建音樂。

與此同時，根據官方提供的示例顯示，MusicLM 模型能夠按順序編寫多個描述（例如「冥想時間」，「醒來時間」，「跑步時間」，「100% 給予時間」），並創建一種以「故事」或長達幾分鐘的敘事為背景的旋律，這種非常適合電影配樂。

譬如，想要一個以下敘事內容的背景音樂：

街機遊戲的主要配樂。它節奏快且樂觀，帶有朗朗上口的電吉他即興重複段。音樂是重複的，容易記住，但有意想不到的聲音，如鐃鈸撞擊聲或鼓聲。

Techbang · Audio01

使用管弦樂器的史詩配樂。這件作品建立了緊張感，創造了一種緊迫感。無伴奏合唱齊聲演唱，營造出一種力量感和力量感。

Techbang · Audio 02

帶有強勁、適合跳舞的節拍和突出的低音線的時髦作品。鍵盤上朗朗上口的旋律為歌曲增添了豐富和復雜的層次。

Techbang · Audio 03

MusicLM 在理解了文本內容之後，自動產生的旋律。

Yesterday, Google published a paper on a new AI model called MusicLM.

The model generates 24 kHz music from rich captions like "A fusion of reggaeton and electronic dance music, with a spacey, otherworldly sound. Induces the experience of being lost in space." pic.twitter.com/XPv0PEQbUh
— Product Hunt 😸 (@ProductHunt) January 27, 2023

MusicLM 也能透過圖片和文本描述的組合進行指導，或產生由特定類型的樂器「播放」的音訊。甚至可以設置 AI 「音樂家」的經驗水準，系統可以創作受地點、時代或要求啟發的音樂（例如運動時的勵志音樂）等等。

基於以上，很多網友在瞭解論文以及通過示例觀摩之後，給予了高度評價：

哇，這對我來說比 ChatGPT 還有吸引力。

我會說，Google幾乎解決了自動產生音樂的問題。

Google 研究員表示，「實驗表明，MusicLM 在音訊品質和對文本描述的遵守方面都優於以前的系統。」

MusicLM 的不足

不容忽視的是，MusicLM 還有一個強大之處就是可以模擬人聲。

不過，MusicLM 當前還並不是一個成熟的模型，就以模擬人聲為例，雖然它可以正確處理聲音的音調，但是質感還存在一個問題。此外，很多自動產生的「歌詞」有些含糊不清，也許有點像某人在哼歌，也許好像在聽英文歌，但實際上或許並非如此，聽眾甚至會一度懷疑自己的耳朵聽到的究竟是什麼。

Google 的擔憂

整體而言，這些由 AI 產生的歌曲聽起來像是人類藝術家可能創作出來的，普通聽眾往往難以分辨到底是 AI 創作還是人類創作。或也正是基於這一方面的考慮，Google 在開發這款模型之際也猶豫了，在論文中，其表示，「我們目前沒有發表該模型的計畫」。

具體原因和此前面對 ChatGPT 強大的競爭壓力時，Google 謹慎的態度一樣，其擔心像 MusicLM 這樣的模型將會帶來許多道德挑戰，包括將訓練資料中的受版權保護的材料合併到產生的歌曲中。

在一項實驗中，Google 研究人員發現系統產生的音樂中約有 1% 是直接從其訓練的歌曲中複製的，這個閾值顯然足以阻止他們以當前狀態發佈 MusicLM 這款模型。

「我們承認與用例相關的創意內容可能有會被盜用的風險，」該論文的共同作者寫道，「我們強烈強調，未來需要開展更多工作，以應對與音樂創作相關的這些風險。

不過，Google 也表示，它正在公開發表一個包含 5500 個音樂文本組成的資料集 MusicCaps，其中有人類專家顧問提供豐富的文本描述，有助於訓練和評估其他音樂 AI。也許在不久的將來，待 Google 摸出合適的道路，我們可以真正地一見 MusicLM 的風采。

關於 MusicLM 的更多詳情可見：

▲ MusicLM: Generating Music From Text

資料來源：