今年以來ChatGPT爆紅,導致去年原本大熱門的AI繪圖似乎被冷落了。畢竟,玩了大半年的AI繪圖,很多人發現還是有其極限,比方說畫出來的圖無法預測、比方說生成出來的人像無法克服「恐怖谷」效應,以及最有名的「AI不會畫手」。
不過,沒有什麼事情是熱情無法攻克的。當你還忙著在問ChatGPT工作不順怎麼辦、能不能幫你寫論文的時候,有一群人默默的在AI繪圖領域想辦法解決那些問題,目的只為了可以產生「二次元老婆」。
最終的結果,就是最近開始在社群爆紅的一系列讓你難分真假的「AI寫真」。
如何打造AI美少女夢工廠?
也不過一年前不到,當時人們就嘗試利用AI繪圖來打造一些寫實風格的圖片。不過,AI繪圖雖然可以產生極具科幻感的場景、壯闊的風景圖,但是就是對於普通的寫真照沒輒。
當然,還有著名的「AI不會畫手」。
怎麼辦呢?這時候,總該有個動力在背後來推一把,解決這個問題。
大家都清楚,推動人類科技進步背後的推手之一,總有一個不能說的秘密:成人產業。
在一年多前,成人產業與AI相結合的話題還是deepfake,利用AI換臉的技術把名人的頭像套用在一些成人明星的身體上,產生偽名人影片,國內也有網紅因此被判刑。
不過,deepfake影片畢竟是影片,認真看都還是看得出破綻、流暢的程度也有限。
而就在今年年初開始,一些寫實風格的AI成人圖片開始在國外的社群上流傳,品質之高讓許多人大開眼界,先不說「成人」的部分,光是臉跟手,就沒有違和感。跟真人寫真幾乎沒有差別。
AI能以如此細膩的筆觸將寫實風格的人物繪製出來這件事,的確是嚇著了不少人。
不過,過去這些日子以來,到底發生了什麼轉變?是哪些技術讓AI繪圖變成美少女夢工廠的?
Lora模型
目前,超過數十億筆以上訓練資料的超強大型語言模型,例如GPT-3,雖然能力強大,但是訓練成本也相當高。以GPT-3 175B為例,具備1,750億個參數,但是在實際使用的過程中,其實發現了一些Bug,不過雖然發現了這些Bug,但也無法進行微調,因為那意味著需要重新訓練,幾乎沒有單位負擔得起巨大開銷。
而LoRA: Low-Rank Adaptation of Large Language Models 14 是微軟研究員引入的一項新技術,主要用於處理大型模型微調的問題。LoRA 建議凍結預訓練模型的權重並在每個 Transformer 塊中注入可訓練層 (秩-分解矩陣)。因為不需要為大多數模型權重計算梯度,所以大大減少了需要訓練參數的數量並且降低了 GPU 的記憶體要求。
Lora模型的出現,讓一般網友也可以透過簡單的設備,建立更加風格化、標籤化的模型,使用者可以集中訓練某個動作、場景、角色,甚至是服飾上的細節。
儘管 LoRA 最初是為大型語言模型提出的,但該技術也可以應用於其他地方。在微調 Stable Diffusion 的情況下,LoRA 可以應用於將圖像表示與描述它們的提示相關聯的交叉注意層(crossattention)。下圖的細節並不重要,只需要注意黃色塊是負責建立圖文之間的關係表示就行。
延伸閱讀:AI繪圖的10大Q&A:用什麼「繪圖關鍵字」?有哪些繪圖網站?
簡單來說,以前的 AI 畫圖模型是一台基本的大型電腦,雖然功能強大,但是你沒辦法進行微調。但是透過LoRA,為這台大型電腦可以加入「模組」,你可以依照個人的需求,單獨訓練你自己的人臉、風格(網友稱之為「小模型」),然後再來加入這個模組,這樣就可以實現你的特性需求。
由於 LoRA 訓練出來的小模型檔案大多為 100MB 左右,而且只要有單一張顯卡,以及十幾張圖片,就可以進行訓練,因此很容易上手。在Lora模型的加持下,漸漸的AI畫出來的角色也變得更有人味。
ChilloutMix+Korean Doll
早期的Lora模型套用後雖然「人味」是有了,但是對於亞洲人來說,總覺得看起來還是怪怪的。主要原因是早期的Lora模型多半是用西方人來訓練的,因此總覺得少了些什麼。
當Lora的應用越來越熱門,也有亞洲玩家開始訓練AI模型,因此,前一陣子,基於亞裔臉模的AI模型ChilloutMix問世。再加上有一些分享AI繪圖模型的網站出現,讓玩的人也越來越多,討論度也越來越熱烈。
之後,又有韓式風格的Korean Doll及Taiwan Doll等多種Lora小模型。至此,亞洲玩家也熱門了起來。
真人網美該擔心嗎?
現在AI寫真這麼容易製作,網友就喊出說,原本的網美是不是該擔心了,以後沒人要買了?而且拍一本寫真集製作至少也需要專業的造型、攝影師、燈光、還要拉一堆人出外景、成本就算再低,也不比網友坐在電腦前面AI算圖的成本低。更何況最後做出來的成果,可能還沒有AI畫出來的場景震撼。
不過,這點目前應該還不用太過擔心。
會買寫真集的,應該還是針對特定的人去買的。而且目前的AI繪圖也還是有一些侷限在那邊。
很多網美目前以接業配為主要的生計,而AI網美想要搶業配可能還是有一些難度。
比方說,目前你看到的AI生成的圖片,基本上大家的動作都差不多。那是因為所有AI生成的圖片,基本上動作會傾向於依照訓練圖片的內容來生成。再來就是目前AI畫手的問題,並沒有完全解決,因此有些圖片還是傾向於能避就把手的細節避掉。
再來就是創意與真實感,因為AI畫圖效果靠的是一些基本的「詠唱」,瞭解哪些關鍵字,生成哪些效果,基本上至少到目前為止,不論是從背景、人物姿勢、風格,AI創作出來的圖片還是有一些端倪可以看出的。而且在一些細節上,往往會用模糊化處理。
因此,如果要搭配特定產品做業配,基本上依然需要人工介入進行修圖。如此下來有一定的難度,對於廣告主來說,現階段應該還是請真人比較能夠符合他們的特定需求。
不過,講到AI畫圖的動作問題,最近也有了新技術叫做 ControlNet 上線了,只要畫幾筆簡單的姿勢就可以讓AI角色擺出複雜的動作......
延伸問題:明星AI模型
透過這些技術的結合,如果餵給AI的是同一個明星的照片,是不是可以打造出自己的AI明星呢?
的確是如此,而且網路上也的確已經有一些明星AI模型出現了。
下載了這些模型,透過一些微調,的確是可以得出一些以假亂真的照片。
事實上,這也衍生出更多新的問題。以前在Deepfake上所發生的問題,現在在AI畫圖上一樣會再發生一遍。而且,因為AI畫圖的硬體門檻要比Deepfake更低,而且產出的圖更真實,勢必會發生的法律問題也可以預期更嚴重。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!