AI圖像生成新星Flux強勢來襲,逼真度堪比真人照片,挑戰Midjourney霸主地位

AI圖像生成新星Flux強勢來襲,逼真度堪比真人照片,挑戰Midjourney霸主地位

ADVERTISEMENT

江山代有模型出,一代更比一代強。 

就當人們以為 AI 圖片生成領域戰爭已經基本結束時,又有一個新的模型團隊出現,用自家產品將 Midjourney、DALL-E 挑落馬下。 

8 月初,初創公司 Black Forest Labs 橫空出世,發表了擁有 120 億參數的文生圖模型 Flux,隨後迅速走紅,被譽為 Stable Diffusion 的繼承者,並與 Midjourney 直接對打。 

從網上曝光的圖片能看出,Flux 在生成人物、尤其是真實人物的場景中,圖像已經非常接近真人實拍的效果。無論是人物的表情、皮膚光澤、髮型、人物配飾等細節方面,都做到了接近完美。 

更重要的是,Flux 開源其系列的一些模型,可以在一台配備不錯的筆記型電腦上運行,這也意味著它會像 Stable Diffusion 一樣,可以在多模型平台上找到並使用。 

Black Forest Labs 宣稱,其模型在圖像品質和對文字提示的遵循度等方面,超過了現有的主流選擇,如 Midjourney 和 DALL-E。 

過去兩年中,在 AI 圖像生成市場,Midjourney、DALL-E 和 Stable Diffusion 和 Adobe Firefly 等一直在激烈競爭,Flux 憑什麼一出來就能搶走風頭,甚至被認為可能擊敗現有的其他模型? 

Flux,橫空出世即走紅

Flux 來自 AI 初創公司 Black Forest Labs,這家新公司由一些開發了 Stable Diffusion 背後技術並發明潛在擴散技術的研究人員創立,總部位於德國。 

今年 8 月 1 日,Black Forest Labs 才對外正式宣布成立,就迅速打響名聲。「我們深深植根於生成式 AI 研究社群,致力於開發和推進用於圖像和影片等媒體的最先進的生成式深度學習模型。」 

Black Forest Labs 稱,其公司「決心建立生成式媒體行業的標準」,作為實現這一目標的第一步,他們發表了 Flux.1 文生圖模型套件,稱在圖像細節、提示回應、風格多樣性和場景複雜性方面定義了文生圖的最新尖端。

Flux 模型生成的圖像|圖片來源:Black Forest Labs ▲ 網友用 Flux 模型生成的圖像|圖片來源:reddit

為了在可及性和模型能力之間取得平衡,Flux.1 目前提供了三個版本:Pro、Dev 和 Schnell,都是文生圖模型,大小依次遞減。 

其中,Flux.1 Pro 版是透過 API 提供的閉源版本,也是最強大的版本,提供最先進的圖像生成性能。可以透過 API 註冊造訪使用,適用於商業應用,為訂閱使用者提供生成式 AI 圖像技術的存取權限。 

Flux.1 Dev 版是開源版本,具有非商業許可,供社群開發,直接從 Pro 版本「知識萃取」而來,據稱有類似的品質和提示回應能力,同時比同尺寸的標準模型更高效,可在 HuggingFace 上獲取,並可直接在 Replicate 或 Fal.ai 上試用。 

最後一個 Flux.1 Schnell 版,是速度最快的版本(schnell 在德語中意為快速),也是精簡版本,據稱運行速度最高可提高十倍,開放原始程式碼,採用 Apache 2 許可,適用於本地開發和個人使用,與 Dev 版本類似,也可以在 Hugging Face 上獲取。

Flux 部分模型可在 AI 開源社群獲取|圖片來源:Hugging Face

有科技部落客測評後認為,兩個高階 Flux.1 模型的輸出在提示忠實度上與 OpenAI 的 DALL-E 3 相當,且在真實感上接近 Midjourney 6。 

他們還發現,Flux.1 在生成手部圖像方面似乎表現相當出色,這在早期的圖像合成模型(如 Stable Diffusion 1.5)中是一個薄弱點。儘管自那時起,像 Midjourney 這樣的 AI 圖像生成器也掌握了手部生成,但 Flux.1 的公開權重模型在各種姿勢下能夠相對準確地算繪手部圖像,仍然值得注意。 

理論上說,Flux.1 兩個較小的版本可以在性能較好的硬體上運行,例如高性能筆記型電腦,這使得它更容易被更廣泛的用戶使用,包括業餘愛好者、開發人員和小型企業,這也意味著不必依賴網際網路或雲端來運行 Flux.1。 

不過,硬體性能較弱的使用者可能會遇到困難。Flux.1 的開源模型大小約為 23GB,這意味著它可能需要接近 24GB 的 VRAM 才能運行,直到出現可能更輕量化的版本。 

已經有科技網站在測評中稱,在配有 RTX 4090 的筆記型電腦上運行——它們在對提示的遵從度、圖像品質和圖像中文字算繪方面都優於 Midjourney、DALL-E 甚至 Ideogram。 

據 Black Forest Labs 稱,Flux.1 模型採用了 Black Forest Labs 稱之為「多模態和平行擴散 Transformer 塊的混合架構」,參數規模達 120 億,比之前的擴散模型更進一步,融合了流匹配和其他最佳化技術。 

在基準測試中,Flux 表示其模型在圖像合成方面設立了新標準,稱在視覺品質、提示跟隨度、大小/長寬比多樣性、排版和輸出多樣性方面表現出色,超越了 Midjourney v6.0、Dall-E 3(HD)和 SD3 Ultra 等模型。 

Black Forest Labs 的圖表顯示,其 Pro 和 Dev 模型是迄今為止最好的圖像生成器,而其相對較弱的 Schnell 版本雖然未超越 SD3-Ultra 和 Ideogram,但也超越了 Midjourney v6.0 和 DALL.E 3(HD)。Black Forest Labs 稱,「Flux.1 [schnell] 是迄今為止最先進的少步模型,不僅在其類別中表現出色,還超越了強大的非知識萃取模型。」

Flux 模型與其他模型對比|圖片來源:Black Forest Labs

所有 Flux.1 模型版本都支援 0.1 和 2.0 百萬圖元的各種縱橫比和解析度。強調這個亮點,是因為市面上不少 AI 工具僅支援生成「方形」圖像。

Flux 模型支援各種縱橫比|圖片來源:Black Forest Labs

對於那些有興趣探索 Flux 的人來說,有幾種方法可以存取和使用該模型。如果電腦足夠好,可以下載並在本地運行 Flux.1。此外,目前已經有幾個網站提供了 Flux.1 的存取權限。 

例如,AI 圖像平臺社群 NightCafe 已經可以造訪 Flux.1 模型,使用者可以快速將其與 Ideogram 和 Stable Diffusion 3 等其他工具生成的圖像進行比較。AI 模型平臺 Poe,也可以使用 Flux.1,允許使用者以聊天的形式生成圖像。 

使用者還可以透過更多面向開發者的平臺獲取存取權限,包括 Based Labs、Hugging Face 和 Fal.ai 等。市場上最大的 AI 圖像平臺之一 FreePik 表示,它也正在努力將 Flux 引入其網站。 

網上已經有不少實驗者,較紅的是一些真實感很強的圖像,乍一看就像普通照片,甚至引起 AI 圖像被用於實施詐騙或製造假新聞的擔憂。

Flux 模型生成的 AI 人像|圖片來源:reddit

「如果我不知道第一張照片發表在哪裡,我 100% 會相信這是一張真實的照片。這種瘋狂的真實感。我實際上還以為我正在瀏覽一些關於 Ted 演講之類的 Reddit 廣告。」有 reddit 使用者如此評論。還有使用者認為,「Flux 確實超越了 midjourney」。

使用者利用 Flux 模型生成的 AI 人像|圖片來源:reddit 

不過,也有觀察者指出,仔細看的話,仍然可以辨識出這些圖像是 AI 生成的,比如「文字是最大的亮點,尤其是圖中掛繩和麥克風等物品上的小文字。」 

AI 圖片江湖:開源 vs 閉源

Black Forest Labs 由 Robin Rombach、Andreas Blattmann 和 Dominik Lorenz 領導,他們都是 Stability AI 的前工程師,此外還有其他在擴散式 AI 模型開發中起重要作用的人物。 

Flux.1 的發表時機對開源 AI 來說具有一定意義。 

Stable Diffusion 背後的公司——Stability AI 在幾個月前經歷了一些動盪,該公司的產品因在人體解剖生成方面表現不佳而遭到廣泛批評,使用者在社群媒體上分享了扭曲的四肢和身體的示例圖像。 

Flux.1 的發表距 Stability AI 在 6 月中旬發表的 Stable Diffusion 3 Medium 版本僅七周,該問題版本的發表伴隨著 Stability AI 三位關鍵工程師的離職,他們隨後與潛在擴散的共同開發者等人一起創立了 Black Forest Labs。 

Black Forest Labs 在成立聲明中,強調了其團隊在推動媒體生成 AI 方面的出色記錄,稱他們的創新包括「創建 VQGAN 和潛在擴散模型、用於圖像和影片生成的 Stable Diffusion 模型(如 Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers),以及用於超快即時圖像生成的對抗性擴散蒸餾技術。」 

在對外發表 Flux 之前,Black Forest Labs 已經完成了 3100 萬美元的種子輪融資,由 a16z 創始人 Andreessen Horowitz 領投,天使投資者包括前迪士尼總裁 Michael Ovitz 等,以及其他在 AI 研究和公司建設方面的專家,General Catalyst 和 MätchVC 進行了追加投資。 

有 AI 社群的創業者認為,在 Stability 崩潰後,開源 AI 領域一直缺少一家優秀的圖像生成公司,而 Black Forest Labs 發表的 Flux.1 品質看起來可以媲美 DALL-E,這對於多模態 AI 來說是一個好消息,向開源 AGI 進軍的步伐仍在繼續。

AI 社群人士支援圖像生成模型開源|圖片來源:X

目前,透過簡單的文字提示生成圖像是生成式 AI 領域最成熟的應用之一,市場上至少已經有幾十款 AI 圖像生成器,提供各種選項、功能和風格,各有千秋。 

有些主流的 AI 圖像生成工具完全獨立,比如 Midjourney。在不到兩年的時間裡,Midjourney 從只能創建低解析度、幾乎無法辨認的人物圖像,已經發展到現在可以生成高解析度的、幾乎與相機拍攝的照片無法區分的圖像。 

不過,Midjourney 因拒絕討論其訓練資料來源而備受爭議。許多人懷疑其資料大部分來自抓取任何可以找到的公開圖像,而不考慮是否獲得了圖像創作者的許可。 

Leonardo 生成的圖像幾乎可以與 Midjourney 相媲美,今年 7 月被線上設計獨角獸 Canva 宣布收購。 

有些圖像生成器內建於其他產品中。比如,OpenAI 將 DALL-E 3 整合在 ChatGPT 的付費版本中,可以通過對話方式生成和編輯圖像。微軟也將 DALL-E 3 整合到 Microsoft 的 Copilot 聊天機器人中,推出了 Copilot Designer。 

其他巨頭方面,谷歌方面基於 Imagen 系列模型,推出了 ImageFX,但目前僅支援生成方形圖像,限制了應用場景,Meta 的 Imagine 也存在同樣的問題。 

還有前谷歌工程師出來創立了 Ideogram,擅長在圖像上加上文字,適合生成帶有文字的圖像,比如電影海報、傳單、賀卡等。 

Adobe 推出了 AI 圖像生成工具 Firefly,最大優勢之一是它與 Photoshop 的深度整合,以及據稱合乎版權規範的訓練資料集,主要來自 Adobe Stock。 

此外還有支援多模型工具的 AI 圖像生成社群,比如 NightCafe,支援多種模型選擇,包括 Stable Diffusion、DALL-E 3、CLIP-Guided Diffusion 等。像 Stability AI 的圖像工具,已經被像 NightCafe 這樣的社群平臺公司廣泛使用。 

Black Forest Labs 的 Flux 與市面上的 AI 圖像生成工具的主要不同,可能還是在於開源。 

該公司稱,「我們相信生成式 AI 將成為所有未來技術的基礎構建塊。透過向廣泛的受眾提供我們的模型,我們希望將其好處帶給每個人,教育公眾,並增強對這些模型安全性的信任。」 

Black Forest Labs 在成立聲明中強調「透明度是建立信任和廣泛採用的關鍵」,希望將技術盡可能廣泛地為大眾所用,將最先進的 AI 帶給「全球每個人」,據稱這是其核心信念。 

不過,談到「信任和安全」時,公司沒有提到 Flux.1 模型的訓練資料來源。有科技網站測評發現,根據 Flux.1 模型生成的圖像,包括版權角色的描繪,Black Forest Labs 可能使用了大量未經授權的抓取的網際網路圖像,主要可能由 LAION 收集。 

LAION 是收集了訓練 Stable Diffusion 資料集的組織。但目前這也只是猜測。儘管 Flux.1 的技術成就值得注意,但如果團隊的做法像 Stability AI 一樣對「公平使用」圖像抓取的倫理問題有所鬆懈,這種做法可能會最終引發類似 Stability AI 所面臨的訴訟。

文字生成影片模型預告|圖片來源:Black Forest Labs

此外,文生圖模型只是第一步,Flux 這些模型據稱是為 Black Forest Labs 即將推出的文字生成影片系統套件奠定基礎。他們已經在開發一個文字生成影片模型,承諾將提供高品質輸出並以開源形式發表,稱將是「適用於所有人的最先進文字生成影片技術。」 

「我們的影片模型將以高解晰度和前所未有的速度解鎖精確的創建和編輯功能。我們致力於繼續引領生成式媒體的未來。」Black Forest Labs 稱。 

這意味著,他們未來可能將與 OpenAI 的 Sora、Runway 的 Gen-3 Alpha 等產生競爭。Midjourney 也有類似的計畫,其開發人員正在開發 3D 和影片模式,想將 AI 圖像、影片、3D 和即時生成模型結合在一起,透過文字提示創建完全沉浸式的虛擬環境。

 

geekpark
作者

極客公園(www.geekpark.net)成立於2010年,是中國創新者的大本營。透過對前沿科技的觀察報告,在內容媒體、會展公關、創業服務三大業務協同發展下連結資源,讓優秀的科技新創更快速的成長。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則