NVIDIA展示了一種用於生成音樂和音訊的新型AI模型，該模型可以修改聲音並生成新奇的聲音--該技術面向音樂、電影和視訊遊戲的製作者。該技術被稱為 Fugatto，是 Foundational Generative Audio Transformer Opus 1 的縮寫。

該技術與 Runway 等初創公司和 Meta 等大型公司展示的其他技術一樣，可以根據文字提示生成音訊或視訊。NVIDIA 版本可以根據文字描述生成音效和音樂，包括新奇的聲音，例如讓貓狗可以唱歌，或是讓小提琴演奏轉為狗叫聲。

它與其他人工智慧技術的不同之處在於，它能夠接收並修改現有音訊，例如將鋼琴演奏的樂句轉換成人聲演唱的樂句，或者將一段口語錄音改變口音和表達的情緒。

在推理過程中，該模型使用了一種名為「可組合藝術」（ComposableART）的技術，將那些在訓練過程中單獨出現的指令進行組合。例如，可以透過一組提示要求用帶有悲傷情感的法國口音說出文本內容。該模型在指令之間進行插值的能力讓使用者能夠對文本指令進行精細控制。

「我想讓用戶以一種主觀或藝術的方式組合各種屬性，自行選擇對每項屬性的強調程度，」Rohan Badlani表示，他是設計該模型這些方面的AI研究人員。「在我的測試中，結果常常令人驚喜，讓我感覺自己有點像個藝術家，儘管我是一名電腦科學家。」

NVIDIA應用深度學習研究副總裁Bryan Catanzaro說：「如果我們想想過去 50 年的合成音訊，現在的音樂聽起來已經不同了，因為有了電腦，因為有了合成器。我認為，生成式人工智慧將為音樂、視訊遊戲和想要創造事物的普通人帶來新的能力。」

Fugatto的用途相當廣泛，用在創意產業上，電影與音訊工作者可利用 Fugatto 打造獨特音景，提取關鍵音頻元素，提升敘事效果和製作質量。而如果是音樂家與作曲家，則可以提供藝術家實驗風格、樂器與編曲的新工具，激發更多創作靈感。

雖然OpenAI等公司正在與好萊塢電影公司就是否以及如何將人工智慧用於娛樂業進行談判，但科技公司與好萊塢之間的關係已經變得緊張，尤其是在好萊塢明星史嘉蕾·喬韓森指責OpenAI模仿她的聲音之後。

NVIDIA 的新模型是在開源資料的基礎上訓練出來的，該公司表示仍在討論是否以及如何將其公開發佈。

Catanzaro說：「任何生成技術都有一定的風險，因為人們可能會利用它生成我們不希望他們生成的東西。我們需要對此小心謹慎，這也是我們沒有立即發佈這一技術的計畫的原因。」

生成式人工智慧模型的建立者尚未確定如何防止技術被濫用，例如使用者生成錯誤資訊或通過生成受版權保護的角色侵犯版權。

OpenAI 和 Meta 同樣沒有透露它們計畫何時向公眾發佈可生成音訊或視訊的模型。

NVIDIA展示新的聲音AI模型 Fugatto：讓貓狗開口唱歌、鋼琴演奏轉為人聲演唱，或是改變表達情緒