教壞 AI「畫虎藍」？國外玩家讓 DALL·E、Imagen、MidJourney 等不同的 AI 畫家《虎戴 VR》仙拼仙

誰能曾想，宋朝的老虎們，有一天能在被玩出新的花樣。

最近有幾個利用AI來繪畫的神器，只要你給一句話，AI就能生成符合語意的圖片。其中之一是Google的AI創作神器 Imagen。然後不知道是哪位國外網友先想到的，給 Imagen 出了道題：「給宋代的東方老虎佩戴 VR」，Imagen 「啪的一下」就做出了一幅力作 ──《虎戴 VR》。

不僅是畫風上，VR 頭戴跟老虎以及整幅畫作能夠保持一致。就連手柄、雙虎嬉戲的感覺也都一步到位的畫了出來。然後還有兩隻老虎戴 VR，手牽著手一起「恰恰恰」的：

甚至 Imagen 還別出心裁地設計了個「連線版」VR：

不過，正如前面所說的，在 AI 作畫這事上，除了Google Imagen 之外還有很多神器。於是，一場《虎戴 VR》作畫大戰就此拉開序幕。

首先來應戰的，是 OpenAI 家的 DALL・E。網友 Jacob 出於好奇，便用它做了幾幅來做比較。

首先是滿滿「定妝照」風格的《虎戴 VR》：

不難看出DALL・E 的畫作和 Imagen 在風格上還是有很大的區別，Imagen 的畫作更趨於簡約線條風，而 DALL・E 則更多了些許油畫的元素。不過在意境方面，DALL・E 也是能夠產出「雙虎嬉戲」，甚至是擬人的畫作：

二者相比之下，網友們所說了他們的評價：

大多數網友們對Google家的 Imagen 更買單。

而除了它倆之外，像 AI 繪畫神器 MidJourney 也參與到了此次「大戰」，不過它的作品，就顯得略有些詭異了……

那麼，同樣作為 AI 創作神器，最近大火的 Imagen 和 DALL・E 為何畫風會截然不同呢？Open AI 的 DALL・E 和Google的 Imagen，都可以直接通過文字描述生成類似超現實主義的圖像，讓機器也能擁有設計師般的創造力。

不過，二者的「創作」原理大不相同。DALL・E 2 採用 CLIP 將文字特徵映射到圖像特徵，然後指導一個 GAN 或擴散模型生成圖像。所謂 CLIP，是一個在各種圖像和文字上訓練的神經網路，對生成的多張圖片進行排序，挑選出更好的生成結果進行展示。

而Google的 Imagen 則使用純語言模型只負責編碼文字特徵，把文字到圖像轉換的工作丟給了圖像生成模型。語言模型部分使用的是Google自己的 T5-XXL 編碼器，將訓練好的文字凍結。圖像生成部分則是一系列擴散模型，先生成低解析度圖像，再逐級超採樣。

Google的 T5-XXL 有 46 億個參數，而擴大文字編碼器的規模，可以有效改善文字到圖像的對應關係，和圖像的保真度。此外，Imagen 還使用了另一種稱為 noise conditioning augmentation 的擴散技術，幫助模型學習已添加的噪聲量，從而提高圖像的還原性。

對比來看，Imagen 似乎比 DALL・E 更具有「寫實」的特點：

目前，在 Imagen 官網上已湧現出各種新奇的圖像。

有人給浣熊戴上了太空人頭盔。

泰迪熊在這裡開始游蝶泳。

還有老鷹型的巧克力冰淇淋。

截至目前，Imagen 和 DALL・E 都還在調試階段，尚未向公眾開放。

這次《虎戴 VR》AI 作畫大戰中，也不乏有失敗的作品，例如有網友就所說了用 DALL・E mini 來生成的示例。

不難看出，在這版中的《虎戴 VR》中，並沒有任何 VR 的出現，而且老虎的面部基本上都是模糊不清。據網友描述，在生成的過程中，只是把「北宋」改成了「南宋」，畫作最難的「形象性」，在這次有所下降。

那麼你覺得《虎戴 VR》，哪家 AI 神器更強一些呢？