Stable Diffusion AI算圖使用手冊(6-3):Pony Diffusion安裝與使用技巧

Stable Diffusion AI算圖使用手冊(6-3):Pony Diffusion安裝與使用技巧

ADVERTISEMENT

Pony Diffusion是以SDXL為基礎、重頭訓練的Stable Diffusion AI圖像生成模型,相當適合用於生成動漫風格圖像。

(本教學以Stable Diffusion WebUI 1.93版本為例)

二次元老司機模型

Pony Diffusion是款參照SDXL架構重新訓練而衍生的Stable Diffusion AI圖像生成模型,它最大的特色就是使用大量動畫、漫畫圖像作為訓練素材,所以非常適合用於生成動漫風格圖像,甚至對於生成多種「特殊領域」的圖像也有相當理想的效果。

延伸閱讀:Stable Diffusion AI算圖使用手冊系列文章目錄

以常見的Checkpoint模型為例,大多數屬於融合類型的模型(資料欄位註記為Checkpoint Merge),簡單地說是將多款現有Checkpoint大模型與LoRA小模型以不同權重融合在一起而成。由於工作流程只需準備融合用的模型檔案,所以前置工作比較簡單。

不過如果想要讓新的模型跳脫既有風格的窠臼或是大幅改善品質,那最好的方式就是從頭訓練模型(資料欄位註記為Checkpoint Trained),然而這種方式需要準備大量訓練用的圖像,因此工作流程比較複雜,社群上也比較少有這類模型的分享。

Pony Diffusion屬於從頭訓練的模型,雖然採用SDXL架構,但是因為作為訓練資料的圖庫內容與SDXL基本模型相差太大,在LoRA的相容性以及撰寫提示詞部分都與SDXL有些出入,CivitAI網站也因此為Pony Diffusion設立獨立的資源分類。

Pony Diffusion保有SDXL提高生成圖片原生解析度與提示詞理解能力的優勢,加上社群提供大量動漫角色、服裝相關LoRA資源,可以說是二次元老司機探索未知領域的有力工具,但礙於尺度考量我們在這邊就不多做討論,讀者可以在CivitAI網站https://civitai.com/尋找更多Pony類別的Checkpoint與LoRA自行嘗試。

需要注意的是,在LoRA的使用部分,Pony Diffusion可以相容於專為Pony訓練的LoRA,但不相容於專為SD 1.5版本LoRA。Pony Diffusion與SDXL版本的LoRA相互之間有一定的相容性,讀者可以自行嘗試混用的效果,並在出現問題時嘗試降低LoRA權重以改善圖像錯誤情況。

(若手機版瀏覽器無法顯示表格,請點我看完整表格

LoRA版本相容性一覽
  SD 1.5 LoRA SDXL LoRA Pony類LoRA 相容狀況
SD 1.5 Checkpoint O X X 僅可搭配SD 1.5 LoRA
SDXL Checkpoint X O 建議搭配SDXL LoRA,Pony類LoRA可能會出問題
Pony類Checkpoint X O 建議搭配Pony類LoRA,SDXL LoRA可能會出問題

 

相關資源連結:
CivitAI網站
Pony Diffusion V6 XL模型下載(請在分頁處選擇V6 start with this one)
Js2Prony模型下載
Pony Realism模型下載
AutismMix SDXL模型下載(請在分頁處選擇AutismMix Pony)
GhostXL SDXL模型下載

讀者可在CivitAI網站下載Pony Diffusion V6 XL模型,請在分頁處選擇「V6 start with this one」,然後再點擊下載按鈕。在右方資料欄位可以看到它是Checkpoint Trained類型的模型。

CivitAI網站目前使用小馬圖示標記Pony類LoRA。SD 1.5則無標記,SDXL標記為XL。

Pony Diffusion採用SDXL規格,對於提示詞的理解能力更高,生成圖像的品質也更理想。

Pony Diffusion能夠生成多種不同風格的動漫圖像。

搭配LoRA除了可以強化鎖定角色特徵的成效,也可以利用產生Pony Minimal Style這類特殊的風格效果。

Pony Diffusion的採用SDXL大模型架構,圖像品質比SD 1.5出色許多。

Pony Diffusion系列模型不只能生成動畫風格的圖片,例如刊頭圖片使用Pony Realism模型,生成的圖像偏向寫實風格。

Pony Realism搭配「Vixon's Pony Styles - Dramatic lighting」LoRA,添加戲劇性的光影效果。

Pony Diffusion使用大量動漫圖像進行訊練,可以在不使用LoRA的情況下生成指定角色的圖像。圖片範例為使用Pony類的Js2Prony模型直接生成來自《命運石之門》的牧瀬紅莉栖。

圖為使用Js2Prony模型搭配SDXL版本的「[Animagine XL V3] Kurisu Makise」LoRA所生成的圖像,LoRA權重設定為0.6。

圖為使用SDXL架構的GhostXL模型同樣搭配「[Animagine XL V3] Kurisu Makise」LoRA所生成的圖像。

Pony Diffusion使用說明

Pony Diffusion與SDXL一樣建議使用Stable Diffusion AI WebUI 1.5之後的版本,讀者可以參考此教學更新至最新版本。撰稿時Pony Diffusion的最新版本為「Pony Diffusion V6-1.5 XL」,但筆者仍使用「V6 start with this one」版本進行示範。

在使用Pony類模型時,筆者習慣使用Euler a取樣器(Sampler)並將迭代步數(Steps)設定為25,Pony Diffusion與其他SDXL模型一樣都屬於SDXL架構,運作的原生解析度為1024 x 1024,因此建議將生成圖像的解析度設定為下列尺寸,最高圖像解析度不要超1536 x 1536,如需更高解析度的圖像則可透過Hires Fix.功能進行升頻與放大。

Pony類、SDXL類模型建議之解析度設定值
長寬比例為1:1 : 1024 x 1024或1536 x 1536
長寬比例為3:2 : 768 x 512或1536 x 1024
長寬比例為4:3 : 1366 x 1024
長寬比例為16:9 : 1280 x 720

在提示詞方面,Pony Diffusion最大的特色就是可以在不用套用LoRA的前提下生成許多動漫角色以及「特殊動作」的圖像,而在萬用正、反面提示詞則可加入下方範例,其中「score_9, score_8_up, score_7_up」等分數標籤為訓練用圖像的等第,由於我們希望生成高品質圖像,因此在正面提示詞輸入高分,反面提示詞則輸入低分。關於分數標籤的說明可參考此文

Pony類模型萬用提示詞範例
正面提示詞:((masterpiece)), (top quality), (best quality), (official art, beautiful and aesthetic:1.2), extreme detailed,colorful, score_9, score_8_up, score_7_up,
反面提示詞:(worst quality, low quality:1.4), (deformed, distorted, disfigured:1.3), missing fingers, extra digit, fewer digits, cropped, bad anatomy, wrong anatomy, text, signature, watermark, username, artist name, blurry, out of frame, score_6, score_5, score_4,

另一方面,Pony Diffusion的訓練用圖像也加入了圖像風格與分級標簽,讀者也可以依需求在正、反面提示詞加入下列標籤。

Pony類模型特殊標簽提示詞範例
source_pony:彩虹小馬風格圖像
source_furry:獸人風格圖像
source_cartoon:卡通風格圖像
source_anime:二次元插畫風格圖像
rating_safe:普通級
rating_questionable:分級不明確
rating_explicit:限制級

Pony Diffusion範例設定一覽。

透過下列題示詞生成的圖像範例。

範例提示詞
正面提示詞:
((masterpiece)), (top quality), (best quality), (official art, beautiful and aesthetic:1.2), extreme detailed,((solo)), (((1girl))),
score_9, score_8_up, score_7_up,
source_animate,
indoors, room, computer desk,
half body shot,
<lora:lora:0.6>, makise kurisu, lab coat, collared shirt, red necktie, black shorts, pantyhose, legwear under shorts, short boots, brown hair, very long hair, blue eyes,
sitting in office chair, eating cookie, looking away,
反面提示詞:
(worst quality, low quality:1.4),
(deformed,  distorted, disfigured:1.3), missing fingers, extra digit, fewer digits, cropped, bad anatomy, wrong anatomy,
text, signature, watermark, username, artist name, blurry, out of frame,
score_6, score_5, score_4,

若將正面提示詞中的「source_animate」改為「source_pony」,則容易得到Q版人物圖像。

Pony Diffusion系列模型最大的優勢在於有相當多同好提供大量Checkpoint與LoRA模型,大大提高「可玩度」,讀者可以到CivitAI等社群挖寶。

回到系列文章目錄

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則