新‧AI繪畫控制大師ControlNet-XS,只需1%參數,就能隨便變換畫中的各種細節!

新‧AI繪畫控制大師ControlNet-XS,只需1%參數,就能隨便變換畫中的各種細節!

ADVERTISEMENT

「新‧AI繪畫細節控制大師」ControlNet-XS來啦! 重點是參數只要原始ControlNet的1%。 就能做到蛋糕口味隨意切換:

新‧AI繪畫控制大師ControlNet-XS,只需1%參數,就能隨便變換畫中的各種細節!

新‧AI繪畫控制大師ControlNet-XS,只需1%參數,就能隨便變換畫中的各種細節!

改變一個人的裝扮也輕輕鬆鬆: 

新‧AI繪畫控制大師ControlNet-XS,只需1%參數,就能隨便變換畫中的各種細節!

上圖同款,身形不變藝術氛圍感拉滿:

新‧AI繪畫控制大師ControlNet-XS,只需1%參數,就能隨便變換畫中的各種細節!

自然風光也能完全沒問題,一年四季任意切換:

新‧AI繪畫控制大師ControlNet-XS,只需1%參數,就能隨便變換畫中的各種細節!

還有貓頭鷹,直接從活物變雕塑: 

新‧AI繪畫控制大師ControlNet-XS,只需1%參數,就能隨便變換畫中的各種細節!

參數很小的情況下,能做到這樣的效果,網友也是直呼迫不及待想看論文。 

ControlNet-XS由海德堡大學電腦視覺實驗室研發,目前相關論文、預訓練模型還未公佈。 

但研究人員表示ControlNet-XSFID分數明顯優於ControlNet。 

且控制Stable Diffusion-XL和Stable Diffusion 2.1的程式碼將在不久後開源。

ControlNet-XS

新生代控制大師 

新‧AI繪畫控制大師ControlNet-XS,只需1%參數,就能隨便變換畫中的各種細節!

先來看看對StableDiffusion-XL的控制。 

研究人員在評估了不同大小的控制模型後發現,控制模型甚至不必和2.6B參數的StableDiffusion-XL基礎網路大小一樣。 

400M、104M和48M參數的ControlNet-XS控制也很明顯。 

深度圖給出了更為直觀的展示,根據圖像內容的距離、深度,深度圖呈現出準確的顏色深淺度:

新‧AI繪畫控制大師ControlNet-XS,只需1%參數,就能隨便變換畫中的各種細節!

要注意的是,這裡研究人員設置的每行seed值不同,每列seed值相同。 

此外,還有Canny邊緣檢測圖,物體的邊界、輪廓都能清晰地展現出來:

新‧AI繪畫控制大師ControlNet-XS,只需1%參數,就能隨便變換畫中的各種細節!

對StableDiffusion的控制,研究人員則是評估了491M、55M和14M參數的三個版本的ControlNet-XS。 

結果表明1.6%的參數(865M)也能夠可靠地控制產生過程。

新‧AI繪畫控制大師ControlNet-XS,只需1%參數,就能隨便變換畫中的各種細節!

新‧AI繪畫控制大師ControlNet-XS,只需1%參數,就能隨便變換畫中的各種細節!

 

那這是如何做到的呢? 

從頭開始訓練

原始ControlNet是StableDiffusion基礎模型(base model)中U-Net編碼器的副本,所以接收與基礎模型相同的輸入,並帶有額外的引導訊號,比如說邊緣圖。 

然後,經過訓練的ControlNet的中間輸出被加到基礎模型的解碼器層的輸入中。在ControlNet的整個訓練過程中,基礎模型的權重保持凍結狀態。 

ControlNet-XS的研究者們認為這種方法存在問題,ControlNet不必這麼龐大。 

首先是Stable Diffusion最終輸出圖像,是在一系列步驟中反覆運算生成的。每個步驟會在U-Net網路結構的編碼器(Encoder)和解碼器(Decoder)兩部分中執行。 

每次反覆運算基礎模型和控制模型的輸入是前一個步驟生成的圖像。控制模型還接收一個控制圖像。 

問題在於,在編碼器階段這兩個模型都獨立運行,而控制模型的回饋只在基礎模型的解碼階段輸入。 

總之,結果就是一個延遲的校正/控制機制。 

也就是說ControlNet必須執行兩項任務:一邊校正/控制,一邊還要提前預測基本模型的編碼器將犯哪些「錯誤」。 

透過暗示圖像生成和控制需要相似的模型容量,自然而然地可以用基礎模型的權重初始化ControlNet的權重,然後進行微調。

新‧AI繪畫控制大師ControlNet-XS,只需1%參數,就能隨便變換畫中的各種細節!

而對於ControlNet-XS,研究人員表示從設計上就與基礎模型不同,是從零開始訓練ControlNet-XS權重,解決了延遲回饋的問題。 

如上圖所示,方法是從基礎模型的編碼器加入連接到控制編碼器(A),這樣校正過程可以更快地適應基礎模型的生成過程。但這並不能完全消除延遲,因為基礎模型的編碼器仍然沒有受到引導。 

因此,研究人員從ControlNet-XS添加額外的連接到基礎模型編碼器,直接影響整個生成過程(B)。 

此外,他們還評估了在ControlNet設置中使用鏡像解碼架構是否有用(C)。 

最終,研究人員在COCO2017驗證集上,針對Canny邊緣引導的三種不同變體(A、B、C)與原始的ControlNet進行了FID分數性能評估。 

結果所有變體都有了顯著提升,同時僅使用了原始ControlNet參數的一小部分。

新‧AI繪畫控制大師ControlNet-XS,只需1%參數,就能隨便變換畫中的各種細節!

 

研究人員又拿出了變體B,分別使用Canny邊緣圖和深度圖引導,針對StableDiffusion2.1和StableDiffusion-XL分別訓練了三種不同大小的模型。

新‧AI繪畫控制大師ControlNet-XS,只需1%參數,就能隨便變換畫中的各種細節!

 

所以下一步就等相關論文、程式碼以及預訓練模型公布啦~ 

新‧AI繪畫控制大師ControlNet-XS,只需1%參數,就能隨便變換畫中的各種細節!

 

Qbitai
作者

量子位(Qbitai)專注於人工智慧及前沿科技領域,提供技術研發趨勢、科技企業動態、新創公司報道等最新資訊,以及機器學習入門資源、電腦科學最新研究論文、開源程式碼和工具的相關報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則