ADVERTISEMENT
Stable Diffusion是款深度學習文字到圖像生成模型,主要的功能可以將文字敘述轉換為圖像,筆者將這系列文章介紹它的使用方式。
文章目錄
文轉圖的AI助手
相信在「電繪教母」風波之後,大家對AI算圖多少都有些瞭解,這類技術能夠將使用者輸入的文字轉換為圖像,在短短幾分鐘內就能產生許多有趣的圖片,不但可以做為美術工作者的有利助手,對一般人來說也具有相當娛樂性。
在各種圖像生成模型中,由StabilityAI、CompVis、Runway等公司合作開發的Stable Diffusion就是相當熱門的模型之一,它以擴散模型(Diffusion Model)為技術基礎,並且採用開源方式發布,使用者可以在遵守授權條款的前提下進行非商業與商業使用。
不過筆者在這邊先提醒,雖然根本Stable Diffusion程式的授權調款能夠進行商業使用,但是考量到許多AI模型不一定符合商業使用的範疇,另外目前AI算圖所產生的作品也尚無較為明確的法律規範,因此建議現階段僅先進行技術研究與體驗,不要將產出的圖片進行商業使用,以表示對原始圖像作者的尊重並避免法律糾紛。
話說回來,Stable Diffusion的另一個特色是能夠部署在自己的電腦上,只需要準備一套相容的電腦,就可以不使用方式與次數限制的自由使用,雖然前置作業與成本等門檻比線上服務高,但是可以胡搞瞎搞的「可玩度」更具吸引力。
- 延伸閱讀:電繪教母
執行Stable Diffusion的系統準備
由於Stable Diffusion採用開源的型式發布,所以有許多開發者都推出了不同的衍生分枝與前端工具,筆者將在這系列文章中以由AUTOMATIC1111 所開發的Stable Diffusion WebUI為範例,並搭配Miniconda建立Python虛擬環境。
不過需要注意的是,雖然根據AUTOMATIC1111於Git提供的說明,Stable Diffusion WebUI除了能搭配NVIDIA顯示卡使用外,也可以透過DirectML搭配AMD顯示卡使用,或是於Apple Silicon上執行,但是考量現階段執行的相容性興與效能等因而,教學中將暫時只以NVIDIA顯示卡做為範例,並視情況於未來更新教學。
在執行Stable Diffusion的硬體需求部分,儲存裝置方面最低建議可用容量為20GB以上的傳統硬碟,但強烈建議準備大容量的固態硬碟以存放更多模型並提高讀取速度,以提升算圖的精準度、多樣性與速度。顯示卡方面則為搭載6GB顯示記憶體以上的型號,根據社群回饋的心得NVIDIA GeForce RTX 2060就能執行,但仍建議使用具有12GB顯示記憶體以上的型號(如GeForce RTX 3060),若是搭配GeForce RTX 40系列顯示卡自然能夠提升算圖速度。其餘如處理器與記憶體等規格則無特殊需求。
軟體部分則相對簡單許多,只要在Windows作業系統安裝Git、Python、Miniconda等軟體,並安裝顯示卡所對應的最佳化函數庫,就可以下載Stable Diffusion WebUI與各種模型,並且開始算圖了。
筆者將於教學的2-1章節中實際示範安裝與GeForce RTX 40系列顯示卡最佳化的操作過程,請讀者參考下一頁的系列文章目錄。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!