微軟展示 VASA-1 人工智慧模型：給它一張照片、一個聲音檔案，就能變成「會說話唱歌的人臉」 | T客邦

半導體/電子產業 5G/網路 AI/大數據電動車/交通

加密貨幣/區塊鏈遊戲/電競雲端/資訊安全商業/金融

尖端科技 3C新品趨勢

抽獎/得獎公告體驗試玩活動課程講座

2024科技趨勢金獎

微軟展示 VASA-1 人工智慧模型：給它一張照片、一個聲音檔案，就能變成「會說話唱歌的人臉」

微軟公司的一篇新的人工智慧研究論文展望了未來：只要上傳一張照片和你的聲音樣本，就能建立一個活靈活現的會說話的人頭像。

這個名叫 VASA-1 的人工智慧模型可接收單張人像照片和音訊檔案，並將其轉換成超逼真的人臉視訊，包括唇語同步、逼真的面部特徵和頭部動作。

該模型目前只是研究預覽版，微軟研究團隊以外的任何人都無法試用，但展示影片看起來令人印象深刻。

Runway 和 NVIDIA 已經推出了類似的唇部同步和頭部運動技術，但這種技術的品質和逼真度似乎要高得多，可以減少嘴部偽影。這種音訊驅動動畫的方法也與 Google 研究院最近推出的VLOGGER 人工智慧模型類似。

VASA-1 如何工作？

微軟表示，這是一個新的框架，用於建立栩栩如生的會說話的人臉，專門用於虛擬人物的動畫製作。示範中的所有人物都是合成的，是用 DALL-E 製作的，但如果它能為逼真的人工智慧圖像製作動畫，那麼它也能為真實的照片製作動畫。

在展示中，我們看到人們說話時就像在被拍攝一樣，動作略顯生澀，但看起來非常自然。唇語同步令人印象深刻，動作自然，嘴部上下沒有其他工具中出現的假象。

VASA-1 最令人印象深刻的一點似乎是，它不需要正面朝上的人像圖像就能工作。

其中有面向不同方向拍攝的例子。該模型似乎還具有很強的控制能力，能夠將眼睛注視的方向、頭部距離甚至情緒作為輸入來引導生成。

VASA-1 可以用在哪些地方？

其中一個最明顯的應用案例就是遊戲中的高級唇語同步。如果能創造出具有自然唇部動作的人工智慧驅動的 NPC，就能改變遊戲的沉浸感。

它還可用於為社群媒體影片建立虛擬化身，HeyGen 和 Synthesia 等公司已經採用了這種技術。另一個領域是基於人工智慧的電影製作。如果能讓人工智慧歌手看起來像在唱歌，就能製作出更逼真的音樂視訊。

儘管如此，該團隊表示，這只是一次研究展示，並沒有公開發佈的計畫，甚至也不會提供給開發人員在產品中使用。

VASA-1 的效果如何？

讓研究人員感到驚訝的是，VASA-1 能夠完美地對歌曲進行歌詞嘴型同步，儘管訓練資料集中沒有使用音樂，但它仍能毫無問題地反映歌手的歌詞。它還能處理不同風格的圖像，包括蒙娜麗莎。

他們讓它以每秒 45 幀的速度建立 512x512 像素的圖像，使用桌面級 NVIDIA RTX 4090 GPU 可在大約 2 分鐘內完成。

雖然他們說這只是用於研究，但如果它不能進入公共領域，那就太可惜了，即使只是面向開發者，鑑於微軟在 OpenAI 中擁有巨大的股份，這甚至可能成為未來 Copilot Sora 內建的一部分。

延伸閱讀：Windows 11 Build 22635 新功能搶先看：QR Code 生成器、Copilot 選單等
延伸閱讀：Windows 11更新後悄悄被安裝Copilot應用程式，微軟表示這是一個錯誤
延伸閱讀：Windows 11 Moment 5 更新詳解：Copilot顯示介面、小工具面板精簡、手機連線再進化！

#人工智慧 #ai

送【10個ChatGPT的好工具】電子書 Line brand icon

使用 Facebook 留言

謹慎發言，尊重彼此。按此展開留言規則