ADVERTISEMENT
NVIDIA、麻省理工學院 (MIT) 和京都精華大學的研究團隊發表了一款名為「Sana」的圖像生成 AI,它可以在幾秒鐘內生成解析度高達 4096×4096 的圖像。
- SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers https://arxiv.org/abs/2410.10629
- Sana https://nvlabs.github.io/Sana/
以下是用 Sana 實際生成的圖像範例。使用「astronaut in a jungle, cold color palette, muted colors, detailed,8k(叢林中的太空人,冷色系,柔和的顏色,精細,8K)」的提示詞,可以生成這樣的圖像:
使用「a cyberpunk cat with a neon sign that says 「SANA」(一隻帶有寫著「SANA」的霓虹燈的賽博龐克貓)」的提示詞生成的圖像是:
輸入「portrait photo of a girl, photograph, highly detailed face, depth of field(女孩的肖像照片,寫實,非常細緻的臉部,景深)」的提示詞,則生成了逼真的人物圖像:
根據 Sana 的開發團隊介紹,相較於傳統只能壓縮至 8 倍的自動編碼器(Autoencoder),Sana 能透過對最大 32 倍壓縮的自動編碼器進行訓練,進而有效減少潛在標記的數量,實現高效的訓練和 4K 超高解析度圖像的生成。
此外,Sana 使用一個名為「Gemma」的語言模型作為文本編碼器,專門負責解碼器部分,這強化了對提示詞的理解與推理表現。不同於以往的 T5 模型,Gemma 具有更強的文本理解能力,這能在應對訓練不穩定性時,改善圖像與文本的對應關係。同時,為了減少取樣步驟,Sana 引入了名為「Flow-DPM-Solver」的機制,這使得取樣步驟從「Flow-Euler-Solver」的 28 至 50 步減少到 14 至 20 步,從而實現了更有效的標籤生成與選擇。
透過這些努力,Sana 在保持與「Flux」等最新的高性能圖像生成 AI 相當的競爭力的同時,實現了超過 100 倍的圖像生成速度。開發團隊表示,參數大小為 6 億的「SANA-0.6B」甚至可以部署在配備 16GB 記憶體容量 GPU 的筆記型電腦上,生成 1024×1024 解析度的圖像只需 1 秒鐘。以下是 Sana 圖像生成時間的比較圖,參數大小為 16 億的「SANA-1.6B」可以 1.2 秒生成 1024×1024 的圖像,15.9 秒生成 4096×4096 的圖像。此外,SANA-0.6B 可以 0.9 秒生成 1024×1024 的圖像,僅需 9.6 秒即可生成 4096×4096 的圖像。
以下是一張 Sana 與各類圖像生成 AI 的性能比較表,顯示 Sana 的各個模型在生成速度和處理量上都遠超其他圖像生成 AI。
目前,Sana 的原始碼尚未公開,但預計將在近日內發布。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!