只需要2張圖，AI便可產生整個完整運動的過程

先給一張側臉（關鍵影格1）：

再給一張正臉（關鍵影格2）：

然後僅僅根據這兩張圖片，AI便能產生整個運動過程：

而且不只是簡單的那種，連在運動過程中的眨眼動作也處理的很到位。

效果一出，便在Reddit上引發了不少熱議：

僅需2個關鍵影格，如何完成完整運動？

這是論文作者對本次工作提出的兩大亮點。

具體而言，這項工作就是基於關鍵影格將影片風格化。

先輸入一個影片序列I ，它由N個影格組成，每一影格都有一個掩膜Mi來劃分感興趣的區域。

與此前方法不同的是，這種風格遷移是以隨機順序進行的，不需要等待順序靠前的影格先完成風格化，也不需要對來自不同關鍵影格的風格化內容進行顯式合併。

也就是說，該方法實際上是一種翻譯過濾器，可以快速從幾個異構的手繪示例Sk 中學習風格，並將其「翻譯」給影片序列I 中的任何一影格。

這個圖像轉換框架基於U-net實現。並且，研究人員採用基於圖像塊（patch-based）的訓練方式和抑制影片閃爍的解決方案，解決了少樣本訓練和時間一致性的問題。

而為了避免過擬合，研究人員採用了基於圖像塊的訓練策略。

從原始關鍵影格（Ik）中隨機抽取一組圖像塊（a），在網路中產生它們的風格化對應塊（b）。

然後，計算這些風格化對應塊（b）相對於從風格化關鍵影格（Sk）中取樣對應圖像塊的損失，並對誤差進行反向傳播。

這樣的訓練方案不限於任何特定的損失函數。本項研究中，採用的是L1損失、對抗性損失和VGG損失的組合。

另一個問題便是超參數的最佳化。

這是因為不當的超參數可能會導致推理品質低下。

研究人員使用網格搜索法，對超參數的4D空間進行採樣：Wp——訓練圖像塊的大小；Nb——一個batch中塊的數量；α——學習率；Nr——ResNet塊的數量。

對於每一個超參數設置：

而目標就是將這個損失最小化。

這項研究一作為Ondřej Texler，布拉格捷克理工大學電腦圖形與互動系的博士生。

而除了此次的工作之外，先前他和團隊也曾做過許多有意思的工作。

例如一邊畫著手繪畫，一邊讓它動起來。

再例如給一張卡通圖片，便可讓影片中的你頂著這張圖「聲情並茂」。

想了解更多有趣的研究，可點下方連結。

參考鏈接：