誰能曾想,宋朝的老虎們,有一天能在被玩出新的花樣。
最近有幾個利用AI來繪畫的神器,只要你給一句話,AI就能生成符合語意的圖片。其中之一是Google的AI創作神器 Imagen。然後不知道是哪位國外網友先想到的,給 Imagen 出了道題:「給宋代的東方老虎佩戴 VR」,Imagen 「啪的一下」就做出了一幅力作 ──《虎戴 VR》。
不僅是畫風上,VR 頭戴跟老虎以及整幅畫作能夠保持一致。就連手柄、雙虎嬉戲的感覺也都一步到位的畫了出來。然後還有兩隻老虎戴 VR,手牽著手一起「恰恰恰」的:
甚至 Imagen 還別出心裁地設計了個「連線版」VR:
不過,正如前面所說的,在 AI 作畫這事上,除了Google Imagen 之外還有很多神器。於是,一場《虎戴 VR》作畫大戰就此拉開序幕。
DALL-E 也來請戰
首先來應戰的,是 OpenAI 家的 DALL・E。網友 Jacob 出於好奇,便用它做了幾幅來做比較。
首先是滿滿「定妝照」風格的《虎戴 VR》:
不難看出DALL・E 的畫作和 Imagen 在風格上還是有很大的區別,Imagen 的畫作更趨於簡約線條風,而 DALL・E 則更多了些許油畫的元素。不過在意境方面,DALL・E 也是能夠產出「雙虎嬉戲」,甚至是擬人的畫作:
二者相比之下,網友們所說了他們的評價:
大多數網友們對Google家的 Imagen 更買單。
而除了它倆之外,像 AI 繪畫神器 MidJourney 也參與到了此次「大戰」,不過它的作品,就顯得略有些詭異了……
DALL·E 和 Imagen
那麼,同樣作為 AI 創作神器,最近大火的 Imagen 和 DALL・E 為何畫風會截然不同呢?Open AI 的 DALL・E 和Google的 Imagen,都可以直接通過文字描述生成類似超現實主義的圖像,讓機器也能擁有設計師般的創造力。
不過,二者的「創作」原理大不相同。DALL・E 2 採用 CLIP 將文字特徵映射到圖像特徵,然後指導一個 GAN 或擴散模型生成圖像。所謂 CLIP,是一個在各種圖像和文字上訓練的神經網路,對生成的多張圖片進行排序,挑選出更好的生成結果進行展示。
而Google的 Imagen 則使用純語言模型只負責編碼文字特徵,把文字到圖像轉換的工作丟給了圖像生成模型。語言模型部分使用的是Google自己的 T5-XXL 編碼器,將訓練好的文字凍結。圖像生成部分則是一系列擴散模型,先生成低解析度圖像,再逐級超採樣。
Google的 T5-XXL 有 46 億個參數,而擴大文字編碼器的規模,可以有效改善文字到圖像的對應關係,和圖像的保真度。此外,Imagen 還使用了另一種稱為 noise conditioning augmentation 的擴散技術,幫助模型學習已添加的噪聲量,從而提高圖像的還原性。
對比來看,Imagen 似乎比 DALL・E 更具有「寫實」的特點:
目前,在 Imagen 官網上已湧現出各種新奇的圖像。
有人給浣熊戴上了太空人頭盔。
泰迪熊在這裡開始游蝶泳。
還有老鷹型的巧克力冰淇淋。
截至目前,Imagen 和 DALL・E 都還在調試階段,尚未向公眾開放。
One More Thing
這次《虎戴 VR》AI 作畫大戰中,也不乏有失敗的作品,例如有網友就所說了用 DALL・E mini 來生成的示例。
不難看出,在這版中的《虎戴 VR》中,並沒有任何 VR 的出現,而且老虎的面部基本上都是模糊不清。據網友描述,在生成的過程中,只是把「北宋」改成了「南宋」,畫作最難的「形象性」,在這次有所下降。
那麼你覺得《虎戴 VR》,哪家 AI 神器更強一些呢?
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!