展會信息港展會大全

Midjourney 也得「站著敬酒」,AI 圖片生成新王 Flux 怎么這么強?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-08-14 09:42:44   瀏覽:5624次  

導(dǎo)讀:江山代有模型出,一代更比一代強。 就當(dāng)人們以為 AI 圖片生成領(lǐng)域戰(zhàn)爭已經(jīng)基本結(jié)束時,又有一個新的模型團隊出現(xiàn),用自家產(chǎn)品將 Midjourney、DALL-E 挑落馬下。 8 月初,初創(chuàng)公司 Black Forest Labs 橫空出世,發(fā)布了擁有 120 億參數(shù)的文本生成圖像模型 Flux...

江山代有模型出,一代更比一代強。

就當(dāng)人們以為 AI 圖片生成領(lǐng)域戰(zhàn)爭已經(jīng)基本結(jié)束時,又有一個新的模型團隊出現(xiàn),用自家產(chǎn)品將 Midjourney、DALL-E 挑落馬下。

8 月初,初創(chuàng)公司 Black Forest Labs 橫空出世,發(fā)布了擁有 120 億參數(shù)的文本生成圖像模型 Flux,隨后迅速走紅,被譽為 Stable Diffusion 的繼承者,并與 Midjourney 直接對打。

從網(wǎng)上曝光的圖片能看出,F(xiàn)lux 在生成人物、尤其是真實人物的場景中,圖像已經(jīng)非常接近真人實拍的效果。無論是人物的表情、皮膚光澤、發(fā)型、人物配飾等細(xì)節(jié)方面,都做到了接近完美。

更重要的是,F(xiàn)lux 開源其系列的一些模型,可以在一臺配置不錯的筆記本電腦上運行,這也意味著它會像 Stable Diffusion 一樣,可以在多模型平臺上找到并使用。

Black Forest Labs 宣稱,其模型在圖像質(zhì)量和對文本提示的遵循度等方面,超過了現(xiàn)有的主流選擇,如 Midjourney 和 DALL-E。

過去兩年中,在 AI 圖像生成市場,Midjourney、DALL-E 和 Stable Diffusion 和 Adobe Firefly 等一直在激烈競爭,F(xiàn)lux 憑什么一出來就能搶走風(fēng)頭,甚至被認(rèn)為可能擊敗現(xiàn)有的其他模型?

Flux,橫空出世即走紅

Flux 來自 AI 初創(chuàng)公司 Black Forest Labs,這家新公司由一些開發(fā)了 Stable Diffusion 背后技術(shù)并發(fā)明了潛在擴散技術(shù)的研究人員創(chuàng)立,總部位于德國。

今年 8 月 1 日,Black Forest Labs 才對外正式宣布成立,就迅速打響名聲!肝覀兩钌钪哺谏墒 AI 研究社區(qū),致力于開發(fā)和推進用于圖像和視頻等媒體的最先進的生成式深度學(xué)習(xí)模型!

Black Forest Labs 稱,其公司「決心建立生成式媒體行業(yè)的標(biāo)準(zhǔn)」,作為實現(xiàn)這一目標(biāo)的第一步,他們發(fā)布了 Flux.1 文本生成圖像模型套件,稱在圖像細(xì)節(jié)、提示響應(yīng)、風(fēng)格多樣性和場景復(fù)雜性方面定義了文本生成圖像的新前沿。

Flux 模型生成的圖像|圖片來源:Black Forest Labs

網(wǎng)友用 Flux 模型生成的圖像|圖片來源:reddit

為了在可及性和模型能力之間取得平衡,F(xiàn)lux.1 目前提供了三個版本:Pro、Dev 和 Schnell,都是文本生成圖像模型,大小依次遞減。

其中,F(xiàn)lux.1 Pro 版是通過 API 提供的閉源版本,也是最強大的版本,提供最先進的圖像生成性能?梢酝ㄟ^ API 注冊訪問,適用于商業(yè)應(yīng)用,為訂閱用戶提供生成式 AI 圖像技術(shù)的訪問權(quán)限。

Flux.1 Dev 版是開源版本,具有非商業(yè)許可,供社區(qū)開發(fā),直接從 Pro 版本「蒸餾」而來,據(jù)稱有類似的質(zhì)量和提示響應(yīng)能力,同時比同尺寸的標(biāo)準(zhǔn)模型更高效,可在 HuggingFace 上獲取,并可直接在 Replicate 或 Fal.ai 上試用。

最后一個 Flux.1 Schnell 版,是速度最快的版本(schnell 在德語中意為快速),也是精簡版本,據(jù)稱運行速度最高可提高十倍,開放源代碼,采用 Apache 2 許可,適用于本地開發(fā)和個人使用,與 Dev 版本類似,也可以在 Hugging Face 上獲齲

Flux 部分模型可在 AI 開源社區(qū)獲。鼒D片來源:Hugging Face

有科技博主測評后認(rèn)為,兩個高端 Flux.1 模型的輸出在提示忠實度上與 OpenAI 的 DALL-E 3 相當(dāng),且在真實感上接近 Midjourney 6。

他們還發(fā)現(xiàn),F(xiàn)lux.1 在生成手部圖像方面似乎表現(xiàn)相當(dāng)出色,這在早期的圖像合成模型(如 Stable Diffusion 1.5)中是一個薄弱點。盡管自那時起,像 Midjourney 這樣的 AI 圖像生成器也掌握了手部生成,但 Flux.1 的公開權(quán)重模型在各種姿勢下能夠相對準(zhǔn)確地渲染手部圖像,仍然值得注意。

理論上說,F(xiàn)lux.1 兩個較小的版本可以在性能較好的硬件上運行,例如高性能筆記本電腦,這使得它更容易被更廣泛的用戶使用,包括業(yè)余愛好者、開發(fā)人員和小型企業(yè),這也意味著不必依賴互聯(lián)網(wǎng)或云來運行 Flux.1。

不過,硬件性能較弱的用戶可能會遇到困難。Flux.1 的開源模型大小約為 23GB,這意味著它可能需要接近 24GB 的 VRAM 才能運行,直到出現(xiàn)可能更輕量化的版本。

已經(jīng)有科技網(wǎng)站在測評中稱,在配有 RTX 4090 的筆記本電腦上運行它們在對提示的遵從度、圖像質(zhì)量和圖像中文字渲染方面都優(yōu)于 Midjourney、DALL-E 甚至 Ideogram。

據(jù) Black Forest Labs 稱,F(xiàn)lux.1 模型采用了 Black Forest Labs 稱之為「多模態(tài)和平行擴散 Transformer 塊的混合架構(gòu)」,參數(shù)規(guī)模達(dá) 120 億,比之前的擴散模型更進一步,融合了流匹配和其他優(yōu)化技術(shù)。

在基準(zhǔn)測試中,F(xiàn)lux 表示其模型在圖像合成方面設(shè)立了新標(biāo)準(zhǔn),稱在視覺質(zhì)量、提示跟隨度、大小/長寬比多樣性、排版和輸出多樣性方面表現(xiàn)出色,超越了 Midjourney v6.0、Dall-E 3(HD)和 SD3 Ultra 等模型。

Black Forest Labs 的圖表顯示,其 Pro 和 Dev 模型是迄今為止最好的圖像生成器,而其相對較弱的 Schnell 版本雖然未超越 SD3-Ultra 和 Ideogram,但也超越了 Midjourney v6.0 和 DALLE 3(HD)。Black Forest Labs 稱,「Flux.1 [schnell] 是迄今為止最先進的少步模型,不僅在其類別中表現(xiàn)出色,還超越了強大的非蒸餾模型。」

Flux 模型與其他模型對比|圖片來源:Black Forest Labs

所有 Flux.1 模型版本都支持 0.1 和 2.0 百萬像素的各種縱橫比和分辨率。強調(diào)這個亮點,是因為市面上不少 AI 工具僅支持生成「方形」圖像。

Flux 模型支持各種縱橫比|圖片來源:Black Forest Labs

對于那些有興趣探索 Flux 的人來說,有幾種方法可以訪問和使用該模型。如果計算機足夠好,可以下載并在本地運行 Flux.1。此外,目前已經(jīng)有幾個網(wǎng)站提供了 Flux.1 的訪問權(quán)限。

例如,AI 圖像平臺社區(qū) NightCafe 已經(jīng)可以訪問 Flux.1 模型,用戶可以快速將其與 Ideogram 和 Stable Diffusion 3 等其他工具生成的圖像進行比較。AI 模型平臺 Poe,也可以訪問 Flux.1,允許用戶以聊天的形式生成圖像。

用戶還可以通過更多面向開發(fā)者的平臺獲取訪問權(quán)限,包括 Based Labs、Hugging Face 和 Fal.ai 等。市場上最大的 AI 圖像平臺之一 FreePik 表示,它也正在努力將 Flux 引入其網(wǎng)站。

網(wǎng)上已經(jīng)有不少實驗者,較火的是一些真實感很強的圖像,乍一看就像普通照片,甚至引起 AI 圖像被用于實施詐騙或制造假新聞的擔(dān)憂。

Flux 模型生成的 AI 人像|圖片來源:reddit

「如果我不知道第一張照片發(fā)布在哪里,我 100% 會相信這是一張真實的照片。這種瘋狂的真實感。我實際上還以為我正在瀏覽一些關(guān)于 Ted 演講之類的 Reddit 廣告!褂 reddit 用戶如此評論。還有用戶認(rèn)為,「Flux 確實超越了 midjourney」。

用戶利用 Flux 模型生成的 AI 人像|圖片來源:reddit

不過,也有觀察者指出,仔細(xì)看的話,仍然可以識別出這些圖像是 AI 生成的,比如「文字是最大的亮點,尤其是圖中掛繩和麥克風(fēng)等物品上的小文字!

AI 圖片江湖:開源 vs 閉源

Black Forest Labs 由 Robin Rombach、Andreas Blattmann 和 Dominik Lorenz 領(lǐng)導(dǎo),他們都是 Stability AI 的前工程師,此外還有其他在擴散式 AI 模型開發(fā)中起重要作用的人物。

Flux.1 的發(fā)布時機對開源 AI 來說具有一定意義。

Stable Diffusion 背后的公司Stability AI 在幾個月前經(jīng)歷了一些動蕩,該公司的產(chǎn)品因在人體解剖生成方面表現(xiàn)不佳而遭到廣泛批評,用戶在社交媒體上分享了扭曲的四肢和身體的示例圖像。

Flux.1 的發(fā)布距 Stability AI 在 6 月中旬發(fā)布的 Stable Diffusion 3 Medium 版本僅七周,該問題版本的發(fā)布伴隨著 Stability AI 三位關(guān)鍵工程師的離職,他們隨后與潛在擴散的共同開發(fā)者等人一起創(chuàng)立了 Black Forest Labs。

Black Forest Labs 在成立聲明中,強調(diào)了其團隊在推動媒體生成 AI 方面的出色記錄,稱他們的創(chuàng)新包括「創(chuàng)建 VQGAN 和潛在擴散模型、用于圖像和視頻生成的 Stable Diffusion 模型(如 Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers),以及用于超快實時圖像生成的對抗性擴散蒸餾技術(shù)!

在對外發(fā)布 Flux 之前,Black Forest Labs 已經(jīng)完成了 3100 萬美元的種子輪融資,由 a16z 創(chuàng)始人 Andreessen Horowitz 領(lǐng)投,天使投資者包括前迪士尼總裁 Michael Ovitz 等,以及其他在 AI 研究和公司建設(shè)方面的專家,General Catalyst 和 MtchVC 進行了追加投資。

有 AI 社區(qū)的創(chuàng)業(yè)者認(rèn)為,在 Stability 崩潰后,開源 AI 領(lǐng)域一直缺少一家優(yōu)秀的圖像生成公司,而 Black Forest Labs 發(fā)布的 Flux.1 質(zhì)量看起來可以媲美 DALL-E,這對于多模態(tài) AI 來說是一個好消息,向開源 AGI 進軍的步伐仍在繼續(xù)。

AI 社區(qū)人士支持圖像生成模型開源|圖片來源:X

目前,通過簡單的文本提示生成圖像是生成式 AI 領(lǐng)域最成熟的應(yīng)用之一,市場上至少已經(jīng)有幾十款 AI 圖像生成器,提供各種選項、功能和風(fēng)格,各有千秋。

有些主流的 AI 圖像生成工具完全獨立,比如 Midjourney。在不到兩年的時間里,Midjourney 從只能創(chuàng)建低分辨率、幾乎無法辨認(rèn)的人物圖像,已經(jīng)發(fā)展到現(xiàn)在可以生成高分辨率的、幾乎與相機拍攝的照片無法區(qū)分的圖像。

不過,Midjourney 因拒絕討論其訓(xùn)練數(shù)據(jù)來源而備受爭議。許多人懷疑其數(shù)據(jù)大部分來自抓取任何可以找到的公開圖像,而不考慮是否獲得了圖像創(chuàng)作者的許可。

Leonardo 生成的圖像幾乎可以與 Midjourney 相媲美,今年 7 月被在線設(shè)計獨角獸 Canva 宣布收購。

有些圖像生成器內(nèi)置于其他產(chǎn)品中。比如,OpenAI 將 DALL-E 3 集成在 ChatGPT 的付費版本中,可以通過對話方式生成和編輯圖像。微軟也將 DALL-E 3 集成到 Microsoft 的 Copilot 聊天機器人中,推出了 Copilot Designer。

其他巨頭方面,谷歌方面基于 Imagen 系列模型,推出了 ImageFX,但目前僅支持生成方形圖像,限制了應(yīng)用場景,Meta 的 Imagine 也存在同樣的問題。

還有前谷歌工程師出來創(chuàng)立了 Ideogram,擅長在圖像上添加文本,適合生成帶有文字的圖像,比如電影海報、傳單、賀卡等。

Adobe 推出了 AI 圖像生成工具 Firefly,最大優(yōu)勢之一是它與 Photoshop 的深度整合,以及據(jù)稱合規(guī)的訓(xùn)練數(shù)據(jù)集,主要來自 Adobe Stock。

此外還有支持多模型工具的 AI 圖像生成社區(qū),比如 NightCafe,支持多種模型選擇,包括 Stable Diffusion、DALL-E 3、CLIP-Guided Diffusion 等。像 Stability AI 的圖像工具,已經(jīng)被像 NightCafe 這樣的社區(qū)平臺公司廣泛使用。

Black Forest Labs 的 Flux 與市面上的 AI 圖像生成工具的主要不同,可能還是在于開源。

該公司稱,「我們相信生成式 AI 將成為所有未來技術(shù)的基礎(chǔ)構(gòu)建塊。通過向廣泛的受眾提供我們的模型,我們希望將其好處帶給每個人,教育公眾,并增強對這些模型安全性的信任!

Black Forest Labs 在成立聲明中強調(diào)「透明度是建立信任和廣泛采用的關(guān)鍵」,希望將技術(shù)盡可能廣泛地為大眾所用,將最先進的 AI 帶給「全球每個人」,據(jù)稱這是其核心信念。

不過,談到「信任和安全」時,公司沒有提到 Flux.1 模型的訓(xùn)練數(shù)據(jù)來源。有科技網(wǎng)站測評發(fā)現(xiàn),根據(jù) Flux.1 模型生成的圖像,包括版權(quán)角色的描繪,Black Forest Labs 可能使用了大量未經(jīng)授權(quán)的抓取的互聯(lián)網(wǎng)圖像,主要可能由 LAION 收集。

LAION 是收集了訓(xùn)練 Stable Diffusion 數(shù)據(jù)集的組織。但目前這也只是猜測。盡管 Flux.1 的技術(shù)成就值得注意,但如果團隊的做法像 Stability AI 一樣對「公平使用」圖像抓取的倫理問題有所松懈,這種做法可能會最終引發(fā)類似 Stability AI 所面臨的訴訟。

文本生成視頻模型預(yù)告|圖片來源:Black Forest Labs

此外,文本生成圖像模型只是第一步,F(xiàn)lux 這些模型據(jù)稱是為 Black Forest Labs 即將推出的文本生成視頻系統(tǒng)套件奠定基矗他們已經(jīng)在開發(fā)一個文本生成視頻模型,承諾將提供高質(zhì)量輸出并以開源形式發(fā)布,稱將是「適用于所有人的最先進文本生成視頻技術(shù)!

「我們的視頻模型將以高清晰度和前所未有的速度解鎖精確的創(chuàng)建和編輯功能。我們致力于繼續(xù)引領(lǐng)生成式媒體的未來!笲lack Forest Labs 稱。

這意味著,他們未來可能將與 OpenAI 的 Sora、Runway 的 Gen-3 Alpha 等產(chǎn)生競爭。Midjourney 也有類似的計劃,其開發(fā)人員正在開發(fā) 3D 和視頻模式,想將 AI 圖像、視頻、3D 和實時生成模型結(jié)合在一起,通過文本提示創(chuàng)建完全沉浸式的虛擬環(huán)境。

頭圖來源:Reddit

贊助本站

相關(guān)熱詞: Midjourney 也得 站著 敬酒 圖片 生成 新王 F

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港