筆記型電腦也能生成4096x4096圖片？SANA輕鬆生成高解析度圖像！

NVIDIA、麻省理工學院 (MIT) 和京都精華大學的研究團隊發表了一款名為「Sana」的圖像生成 AI，它可以在幾秒鐘內生成解析度高達 4096×4096 的圖像。

SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers https://arxiv.org/abs/2410.10629
Sana https://nvlabs.github.io/Sana/

以下是用 Sana 實際生成的圖像範例。使用「astronaut in a jungle, cold color palette, muted colors, detailed,8k（叢林中的太空人，冷色系，柔和的顏色，精細，8K）」的提示詞，可以生成這樣的圖像：

使用「a cyberpunk cat with a neon sign that says 「SANA」（一隻帶有寫著「SANA」的霓虹燈的賽博龐克貓）」的提示詞生成的圖像是：

輸入「portrait photo of a girl, photograph, highly detailed face, depth of field（女孩的肖像照片，寫實，非常細緻的臉部，景深）」的提示詞，則生成了逼真的人物圖像：

根據 Sana 的開發團隊介紹，相較於傳統只能壓縮至 8 倍的自動編碼器（Autoencoder），Sana 能透過對最大 32 倍壓縮的自動編碼器進行訓練，進而有效減少潛在標記的數量，實現高效的訓練和 4K 超高解析度圖像的生成。

此外，Sana 使用一個名為「Gemma」的語言模型作為文本編碼器，專門負責解碼器部分，這強化了對提示詞的理解與推理表現。不同於以往的 T5 模型，Gemma 具有更強的文本理解能力，這能在應對訓練不穩定性時，改善圖像與文本的對應關係。同時，為了減少取樣步驟，Sana 引入了名為「Flow-DPM-Solver」的機制，這使得取樣步驟從「Flow-Euler-Solver」的 28 至 50 步減少到 14 至 20 步，從而實現了更有效的標籤生成與選擇。

透過這些努力，Sana 在保持與「Flux」等最新的高性能圖像生成 AI 相當的競爭力的同時，實現了超過 100 倍的圖像生成速度。開發團隊表示，參數大小為 6 億的「SANA-0.6B」甚至可以部署在配備 16GB 記憶體容量 GPU 的筆記型電腦上，生成 1024×1024 解析度的圖像只需 1 秒鐘。以下是 Sana 圖像生成時間的比較圖，參數大小為 16 億的「SANA-1.6B」可以 1.2 秒生成 1024×1024 的圖像，15.9 秒生成 4096×4096 的圖像。此外，SANA-0.6B 可以 0.9 秒生成 1024×1024 的圖像，僅需 9.6 秒即可生成 4096×4096 的圖像。