讓瑪麗蓮夢露學你說話,只需一張靜態圖和一個影片的開源專案

讓瑪麗蓮夢露學你說話,只需一張靜態圖和一個影片的開源專案

想讓名人學著你說話,怎麼辦?很簡單,只要一張名人的照片,配上你說話的影片,一分鐘就能搞定。這是來自義大利特倫托大學的一項研究:利用一個一階運動模型 (First Order Motion Model),靜態圖也能動起來,換臉也不成問題。

想讓名人學著你說話,怎麼辦?

很簡單,只要一張名人的照片,配上你說話的影片,一分鐘就能搞定。

來看下效果:

讓瑪麗蓮夢露學你說話,只需一張靜態圖和一個影片的開源專案

無論你是擠眉弄眼,還是搖頭晃腦,照片裡的名人們都能跟你神同步!

這就是來自義大利特倫托大學的一項研究:

利用一個一階運動模型 (First Order Motion Model),靜態圖也能動起來,換臉也不成問題。

當然,這麼有意思的項目,已經開源了!

一個川普在說話,一群史塔克也有話說

其實,這項研究早在數月前便已發表。

當時用的輸入影片是川普,靜態照片用的是一組《冰與火之歌》史塔克家族及劇中其他人物圖片。

效果是這樣的:

讓瑪麗蓮夢露學你說話,只需一張靜態圖和一個影片的開源專案

可以看到,無論川普是眨眼、晃頭,劇中的人物做到了神同步。

就連那張標誌性的O型嘴,也「模仿」的惟妙惟肖。

而時隔幾個月,這項技術又在Reddit火爆了起來。

讓瑪麗蓮夢露學你說話,只需一張靜態圖和一個影片的開源專案

一個可能的原因是,這次輸入的影片來自流行的短片平台,也就是說我們自己錄一段影片也能用。

加上效果的逼真、有趣,或許用不了多長時間,影片內容平台可能就會推出這個功能了吧。

當然,這個模型的魔力不止於此。

輸入一個模特換pose的影片,再配上多張靜態服飾照片,就能批量輸出動態展示服裝的影片了。

讓瑪麗蓮夢露學你說話,只需一張靜態圖和一個影片的開源專案換臉,也是小菜一碟。

讓瑪麗蓮夢露學你說話,只需一張靜態圖和一個影片的開源專案

不過,也要溫馨提醒一句:慎用靜態照片,不然出來的效果可能就不太像「陽間的東西」了……

一階運動模型

在訓練階段,研究人員採用了大量的影片序列集合,包含相同類別的對象。模型透過結合影片中的單影格,和學習到的潛在運動表示,來訓練重構影片。

在測試階段,研究人員將模型應用於由源圖像和驅動影片的每一個影格組成的對,並執行源對象的圖像動畫。

模型的框架就如下圖所示:

讓瑪麗蓮夢露學你說話,只需一張靜態圖和一個影片的開源專案

框架主要由2部分構成:運動估計模組和圖像生成模組。

運動估計模組的目的,是預測一個密集的運動場。研究人員假設存在一個抽象的參考框架,並且獨立估計兩個變換,分別是「從參考到源」和「從參考到驅動」。這樣就能夠獨立處理源影格和驅動影格。

研究人員認為這個步驟是必要的,因為在測試時,模型會接收從不同影片中採樣的源圖像和驅動影格對,它們在視覺上可能非常不同。

在第一步中,研究人員從稀疏軌跡集近似這兩種變換,通過使用以自監督方式學習的關鍵點來獲得。利用局部仿射變換對每個關鍵點附近的運動進行建模。

在第二步中,密集運動網路結合局部近似得到密集運動場。除此之外,這個網路還輸出遮擋的mask,指示哪些圖像的驅動部分可以透過源圖像的扭曲(warping)來重建,哪些部分應該被繪製(根據上下文推斷)。

在第三步中,生成模組按照驅動影片中,提供的源對象移動的圖像進行算繪。此處,研究人員使用一個產生器網路,根據密集的運動對源圖像進行扭曲,並對源圖像中被遮擋的圖像部分進行著色。

最後,這個模型已經在GitHub上開源,快去試試吧~

Qbitai
作者

量子位(Qbitai)專注於人工智慧及前沿科技領域,提供技術研發趨勢、科技企業動態、新創公司報道等最新資訊,以及機器學習入門資源、電腦科學最新研究論文、開源程式碼和工具的相關報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則