江山代有模型出,一代更比一代強(qiáng)。
就當(dāng)人們以為 AI 圖片生成領(lǐng)域戰(zhàn)爭已經(jīng)基本結(jié)束時(shí),又有一個(gè)新的模型團(tuán)隊(duì)出現(xiàn),用自家產(chǎn)品將 Midjourney、DALL-E 挑落馬下。
8 月初,初創(chuàng)公司 Black Forest Labs 橫空出世,發(fā)布了擁有 120 億參數(shù)的文本生成圖像模型 Flux,隨后迅速走紅,被譽(yù)為 Stable Diffusion 的繼承者,并與 Midjourney 直接對打。
從網(wǎng)上曝光的圖片能看出,F(xiàn)lux 在生成人物、尤其是真實(shí)人物的場景中,圖像已經(jīng)非常接近真人實(shí)拍的效果。無論是人物的表情、皮膚光澤、發(fā)型、人物配飾等細(xì)節(jié)方面,都做到了接近完美。
更重要的是,F(xiàn)lux 開源其系列的一些模型,可以在一臺配置不錯(cuò)的筆記本電腦上運(yùn)行,這也意味著它會像 Stable Diffusion 一樣,可以在多模型平臺上找到并使用。
Black Forest Labs 宣稱,其模型在圖像質(zhì)量和對文本提示的遵循度等方面,超過了現(xiàn)有的主流選擇,如 Midjourney 和 DALL-E。
過去兩年中,在 AI 圖像生成市場,Midjourney、DALL-E 和 Stable Diffusion 和 Adobe Firefly 等一直在激烈競爭,F(xiàn)lux 憑什么一出來就能搶走風(fēng)頭,甚至被認(rèn)為可能擊敗現(xiàn)有的其他模型?
Flux,橫空出世即走紅
Flux 來自 AI 初創(chuàng)公司 Black Forest Labs,這家新公司由一些開發(fā)了 Stable Diffusion 背后技術(shù)并發(fā)明了潛在擴(kuò)散技術(shù)的研究人員創(chuàng)立,總部位于德國。
今年 8 月 1 日,Black Forest Labs 才對外正式宣布成立,就迅速打響名聲!肝覀兩钌钪哺谏墒 AI 研究社區(qū),致力于開發(fā)和推進(jìn)用于圖像和視頻等媒體的最先進(jìn)的生成式深度學(xué)習(xí)模型!
Black Forest Labs 稱,其公司「決心建立生成式媒體行業(yè)的標(biāo)準(zhǔn)」,作為實(shí)現(xiàn)這一目標(biāo)的第一步,他們發(fā)布了 Flux.1 文本生成圖像模型套件,稱在圖像細(xì)節(jié)、提示響應(yīng)、風(fēng)格多樣性和場景復(fù)雜性方面定義了文本生成圖像的新前沿。
Flux 模型生成的圖像|圖片來源:Black Forest Labs
網(wǎng)友用 Flux 模型生成的圖像|圖片來源:reddit
為了在可及性和模型能力之間取得平衡,F(xiàn)lux.1 目前提供了三個(gè)版本:Pro、Dev 和 Schnell,都是文本生成圖像模型,大小依次遞減。
其中,F(xiàn)lux.1 Pro 版是通過 API 提供的閉源版本,也是最強(qiáng)大的版本,提供最先進(jìn)的圖像生成性能?梢酝ㄟ^ API 注冊訪問,適用于商業(yè)應(yīng)用,為訂閱用戶提供生成式 AI 圖像技術(shù)的訪問權(quán)限。
Flux.1 Dev 版是開源版本,具有非商業(yè)許可,供社區(qū)開發(fā),直接從 Pro 版本「蒸餾」而來,據(jù)稱有類似的質(zhì)量和提示響應(yīng)能力,同時(shí)比同尺寸的標(biāo)準(zhǔn)模型更高效,可在 HuggingFace 上獲取,并可直接在 Replicate 或 Fal.ai 上試用。
最后一個(gè) Flux.1 Schnell 版,是速度最快的版本(schnell 在德語中意為快速),也是精簡版本,據(jù)稱運(yùn)行速度最高可提高十倍,開放源代碼,采用 Apache 2 許可,適用于本地開發(fā)和個(gè)人使用,與 Dev 版本類似,也可以在 Hugging Face 上獲齲
Flux 部分模型可在 AI 開源社區(qū)獲取|圖片來源:Hugging Face
有科技博主測評后認(rèn)為,兩個(gè)高端 Flux.1 模型的輸出在提示忠實(shí)度上與 OpenAI 的 DALL-E 3 相當(dāng),且在真實(shí)感上接近 Midjourney 6。
他們還發(fā)現(xiàn),F(xiàn)lux.1 在生成手部圖像方面似乎表現(xiàn)相當(dāng)出色,這在早期的圖像合成模型(如 Stable Diffusion 1.5)中是一個(gè)薄弱點(diǎn)。盡管自那時(shí)起,像 Midjourney 這樣的 AI 圖像生成器也掌握了手部生成,但 Flux.1 的公開權(quán)重模型在各種姿勢下能夠相對準(zhǔn)確地渲染手部圖像,仍然值得注意。
理論上說,F(xiàn)lux.1 兩個(gè)較小的版本可以在性能較好的硬件上運(yùn)行,例如高性能筆記本電腦,這使得它更容易被更廣泛的用戶使用,包括業(yè)余愛好者、開發(fā)人員和小型企業(yè),這也意味著不必依賴互聯(lián)網(wǎng)或云來運(yùn)行 Flux.1。
不過,硬件性能較弱的用戶可能會遇到困難。Flux.1 的開源模型大小約為 23GB,這意味著它可能需要接近 24GB 的 VRAM 才能運(yùn)行,直到出現(xiàn)可能更輕量化的版本。
已經(jīng)有科技網(wǎng)站在測評中稱,在配有 RTX 4090 的筆記本電腦上運(yùn)行它們在對提示的遵從度、圖像質(zhì)量和圖像中文字渲染方面都優(yōu)于 Midjourney、DALL-E 甚至 Ideogram。
據(jù) Black Forest Labs 稱,F(xiàn)lux.1 模型采用了 Black Forest Labs 稱之為「多模態(tài)和平行擴(kuò)散 Transformer 塊的混合架構(gòu)」,參數(shù)規(guī)模達(dá) 120 億,比之前的擴(kuò)散模型更進(jìn)一步,融合了流匹配和其他優(yōu)化技術(shù)。
在基準(zhǔn)測試中,F(xiàn)lux 表示其模型在圖像合成方面設(shè)立了新標(biāo)準(zhǔn),稱在視覺質(zhì)量、提示跟隨度、大小/長寬比多樣性、排版和輸出多樣性方面表現(xiàn)出色,超越了 Midjourney v6.0、Dall-E 3(HD)和 SD3 Ultra 等模型。
Black Forest Labs 的圖表顯示,其 Pro 和 Dev 模型是迄今為止最好的圖像生成器,而其相對較弱的 Schnell 版本雖然未超越 SD3-Ultra 和 Ideogram,但也超越了 Midjourney v6.0 和 DALLE 3(HD)。Black Forest Labs 稱,「Flux.1 [schnell] 是迄今為止最先進(jìn)的少步模型,不僅在其類別中表現(xiàn)出色,還超越了強(qiáng)大的非蒸餾模型!
Flux 模型與其他模型對比|圖片來源:Black Forest Labs
所有 Flux.1 模型版本都支持 0.1 和 2.0 百萬像素的各種縱橫比和分辨率。強(qiáng)調(diào)這個(gè)亮點(diǎn),是因?yàn)槭忻嫔喜簧?AI 工具僅支持生成「方形」圖像。
Flux 模型支持各種縱橫比|圖片來源:Black Forest Labs
對于那些有興趣探索 Flux 的人來說,有幾種方法可以訪問和使用該模型。如果計(jì)算機(jī)足夠好,可以下載并在本地運(yùn)行 Flux.1。此外,目前已經(jīng)有幾個(gè)網(wǎng)站提供了 Flux.1 的訪問權(quán)限。
例如,AI 圖像平臺社區(qū) NightCafe 已經(jīng)可以訪問 Flux.1 模型,用戶可以快速將其與 Ideogram 和 Stable Diffusion 3 等其他工具生成的圖像進(jìn)行比較。AI 模型平臺 Poe,也可以訪問 Flux.1,允許用戶以聊天的形式生成圖像。
用戶還可以通過更多面向開發(fā)者的平臺獲取訪問權(quán)限,包括 Based Labs、Hugging Face 和 Fal.ai 等。市場上最大的 AI 圖像平臺之一 FreePik 表示,它也正在努力將 Flux 引入其網(wǎng)站。
網(wǎng)上已經(jīng)有不少實(shí)驗(yàn)者,較火的是一些真實(shí)感很強(qiáng)的圖像,乍一看就像普通照片,甚至引起 AI 圖像被用于實(shí)施詐騙或制造假新聞的擔(dān)憂。
Flux 模型生成的 AI 人像|圖片來源:reddit
「如果我不知道第一張照片發(fā)布在哪里,我 100% 會相信這是一張真實(shí)的照片。這種瘋狂的真實(shí)感。我實(shí)際上還以為我正在瀏覽一些關(guān)于 Ted 演講之類的 Reddit 廣告!褂 reddit 用戶如此評論。還有用戶認(rèn)為,「Flux 確實(shí)超越了 midjourney」。
用戶利用 Flux 模型生成的 AI 人像|圖片來源:reddit
不過,也有觀察者指出,仔細(xì)看的話,仍然可以識別出這些圖像是 AI 生成的,比如「文字是最大的亮點(diǎn),尤其是圖中掛繩和麥克風(fēng)等物品上的小文字。」
AI 圖片江湖:開源 vs 閉源
Black Forest Labs 由 Robin Rombach、Andreas Blattmann 和 Dominik Lorenz 領(lǐng)導(dǎo),他們都是 Stability AI 的前工程師,此外還有其他在擴(kuò)散式 AI 模型開發(fā)中起重要作用的人物。
Flux.1 的發(fā)布時(shí)機(jī)對開源 AI 來說具有一定意義。
Stable Diffusion 背后的公司Stability AI 在幾個(gè)月前經(jīng)歷了一些動蕩,該公司的產(chǎn)品因在人體解剖生成方面表現(xiàn)不佳而遭到廣泛批評,用戶在社交媒體上分享了扭曲的四肢和身體的示例圖像。
Flux.1 的發(fā)布距 Stability AI 在 6 月中旬發(fā)布的 Stable Diffusion 3 Medium 版本僅七周,該問題版本的發(fā)布伴隨著 Stability AI 三位關(guān)鍵工程師的離職,他們隨后與潛在擴(kuò)散的共同開發(fā)者等人一起創(chuàng)立了 Black Forest Labs。
Black Forest Labs 在成立聲明中,強(qiáng)調(diào)了其團(tuán)隊(duì)在推動媒體生成 AI 方面的出色記錄,稱他們的創(chuàng)新包括「創(chuàng)建 VQGAN 和潛在擴(kuò)散模型、用于圖像和視頻生成的 Stable Diffusion 模型(如 Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers),以及用于超快實(shí)時(shí)圖像生成的對抗性擴(kuò)散蒸餾技術(shù)!
在對外發(fā)布 Flux 之前,Black Forest Labs 已經(jīng)完成了 3100 萬美元的種子輪融資,由 a16z 創(chuàng)始人 Andreessen Horowitz 領(lǐng)投,天使投資者包括前迪士尼總裁 Michael Ovitz 等,以及其他在 AI 研究和公司建設(shè)方面的專家,General Catalyst 和 MtchVC 進(jìn)行了追加投資。
有 AI 社區(qū)的創(chuàng)業(yè)者認(rèn)為,在 Stability 崩潰后,開源 AI 領(lǐng)域一直缺少一家優(yōu)秀的圖像生成公司,而 Black Forest Labs 發(fā)布的 Flux.1 質(zhì)量看起來可以媲美 DALL-E,這對于多模態(tài) AI 來說是一個(gè)好消息,向開源 AGI 進(jìn)軍的步伐仍在繼續(xù)。
AI 社區(qū)人士支持圖像生成模型開源|圖片來源:X
目前,通過簡單的文本提示生成圖像是生成式 AI 領(lǐng)域最成熟的應(yīng)用之一,市場上至少已經(jīng)有幾十款 AI 圖像生成器,提供各種選項(xiàng)、功能和風(fēng)格,各有千秋。
有些主流的 AI 圖像生成工具完全獨(dú)立,比如 Midjourney。在不到兩年的時(shí)間里,Midjourney 從只能創(chuàng)建低分辨率、幾乎無法辨認(rèn)的人物圖像,已經(jīng)發(fā)展到現(xiàn)在可以生成高分辨率的、幾乎與相機(jī)拍攝的照片無法區(qū)分的圖像。
不過,Midjourney 因拒絕討論其訓(xùn)練數(shù)據(jù)來源而備受爭議。許多人懷疑其數(shù)據(jù)大部分來自抓取任何可以找到的公開圖像,而不考慮是否獲得了圖像創(chuàng)作者的許可。
Leonardo 生成的圖像幾乎可以與 Midjourney 相媲美,今年 7 月被在線設(shè)計(jì)獨(dú)角獸 Canva 宣布收購。
有些圖像生成器內(nèi)置于其他產(chǎn)品中。比如,OpenAI 將 DALL-E 3 集成在 ChatGPT 的付費(fèi)版本中,可以通過對話方式生成和編輯圖像。微軟也將 DALL-E 3 集成到 Microsoft 的 Copilot 聊天機(jī)器人中,推出了 Copilot Designer。
其他巨頭方面,谷歌方面基于 Imagen 系列模型,推出了 ImageFX,但目前僅支持生成方形圖像,限制了應(yīng)用場景,Meta 的 Imagine 也存在同樣的問題。
還有前谷歌工程師出來創(chuàng)立了 Ideogram,擅長在圖像上添加文本,適合生成帶有文字的圖像,比如電影海報(bào)、傳單、賀卡等。
Adobe 推出了 AI 圖像生成工具 Firefly,最大優(yōu)勢之一是它與 Photoshop 的深度整合,以及據(jù)稱合規(guī)的訓(xùn)練數(shù)據(jù)集,主要來自 Adobe Stock。
此外還有支持多模型工具的 AI 圖像生成社區(qū),比如 NightCafe,支持多種模型選擇,包括 Stable Diffusion、DALL-E 3、CLIP-Guided Diffusion 等。像 Stability AI 的圖像工具,已經(jīng)被像 NightCafe 這樣的社區(qū)平臺公司廣泛使用。
Black Forest Labs 的 Flux 與市面上的 AI 圖像生成工具的主要不同,可能還是在于開源。
該公司稱,「我們相信生成式 AI 將成為所有未來技術(shù)的基礎(chǔ)構(gòu)建塊。通過向廣泛的受眾提供我們的模型,我們希望將其好處帶給每個(gè)人,教育公眾,并增強(qiáng)對這些模型安全性的信任!
Black Forest Labs 在成立聲明中強(qiáng)調(diào)「透明度是建立信任和廣泛采用的關(guān)鍵」,希望將技術(shù)盡可能廣泛地為大眾所用,將最先進(jìn)的 AI 帶給「全球每個(gè)人」,據(jù)稱這是其核心信念。
不過,談到「信任和安全」時(shí),公司沒有提到 Flux.1 模型的訓(xùn)練數(shù)據(jù)來源。有科技網(wǎng)站測評發(fā)現(xiàn),根據(jù) Flux.1 模型生成的圖像,包括版權(quán)角色的描繪,Black Forest Labs 可能使用了大量未經(jīng)授權(quán)的抓取的互聯(lián)網(wǎng)圖像,主要可能由 LAION 收集。
LAION 是收集了訓(xùn)練 Stable Diffusion 數(shù)據(jù)集的組織。但目前這也只是猜測。盡管 Flux.1 的技術(shù)成就值得注意,但如果團(tuán)隊(duì)的做法像 Stability AI 一樣對「公平使用」圖像抓取的倫理問題有所松懈,這種做法可能會最終引發(fā)類似 Stability AI 所面臨的訴訟。
文本生成視頻模型預(yù)告|圖片來源:Black Forest Labs
此外,文本生成圖像模型只是第一步,F(xiàn)lux 這些模型據(jù)稱是為 Black Forest Labs 即將推出的文本生成視頻系統(tǒng)套件奠定基矗他們已經(jīng)在開發(fā)一個(gè)文本生成視頻模型,承諾將提供高質(zhì)量輸出并以開源形式發(fā)布,稱將是「適用于所有人的最先進(jìn)文本生成視頻技術(shù)。」
「我們的視頻模型將以高清晰度和前所未有的速度解鎖精確的創(chuàng)建和編輯功能。我們致力于繼續(xù)引領(lǐng)生成式媒體的未來。」Black Forest Labs 稱。
這意味著,他們未來可能將與 OpenAI 的 Sora、Runway 的 Gen-3 Alpha 等產(chǎn)生競爭。Midjourney 也有類似的計(jì)劃,其開發(fā)人員正在開發(fā) 3D 和視頻模式,想將 AI 圖像、視頻、3D 和實(shí)時(shí)生成模型結(jié)合在一起,通過文本提示創(chuàng)建完全沉浸式的虛擬環(huán)境。
頭圖來源:Reddit