展會信息港展會大全

谷歌 Fluid 顛覆共識,AI 文生圖領(lǐng)域自回歸模型超越擴(kuò)散模型
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-23 13:42:13   瀏覽:662次  

導(dǎo)讀:IT之家 10 月 23 日消息,科技媒體 The Decoder 昨日(10 月 22 日)發(fā)布博文,報道稱谷歌 DeepMind 團(tuán)隊攜手麻省理工學(xué)院(MIT),推出了全新的Fluid模型,在規(guī)模達(dá)到 105 億參數(shù)時候,能取得最佳的文生圖效果。 目前在文生圖領(lǐng)域,行業(yè)內(nèi)的一個共識 是自回...

IT之家 10 月 23 日消息,科技媒體 The Decoder 昨日(10 月 22 日)發(fā)布博文,報道稱谷歌 DeepMind 團(tuán)隊攜手麻省理工學(xué)院(MIT),推出了全新的“Fluid”模型,在規(guī)模達(dá)到 105 億參數(shù)時候,能取得最佳的文生圖效果。

目前在文生圖領(lǐng)域,行業(yè)內(nèi)的一個共識是自回歸模型(Autoregressive Models)不如擴(kuò)散模型(Diffusion Models)。

IT之家簡要介紹下這兩種模型:

擴(kuò)散模型 (Diffusion Models): 這是一種最近非常熱門的內(nèi)容生成技術(shù),它模擬的是信號從噪聲中逐漸恢復(fù)的過程。擴(kuò)散模型通過迭代地減少隨機(jī)噪聲來生成高質(zhì)量的圖像、文本和其他形式的數(shù)據(jù)。比如應(yīng)用于圖像生成領(lǐng)域中的 DDPM(離散擴(kuò)散概率模型)及其變體就有很高的關(guān)注度。

自回歸模型 (Autoregressive Models): 自回歸模型預(yù)測序列中的下一個元素時,依賴于前面的元素。在文本生成領(lǐng)域,像基于 Decoder-only 的 GPT 系列(如 GPT-3、GPT-4)就是典型的自回歸模型,它們逐詞預(yù)測下一個詞,從而生成連貫的文本段落。

谷歌 DeepMind 和 MIT 團(tuán)隊通過深入研究,發(fā)現(xiàn)了使用連續(xù) tokens(非離散 tokens)和采用隨機(jī)生成順序(非固定順序)兩個關(guān)鍵設(shè)計因素,顯著提高了自回歸模型的性能和可擴(kuò)展性。

團(tuán)隊表示在離散 tokens 為每個圖像區(qū)域分配一個來自有限詞匯的代碼,這會導(dǎo)致信息丟失,而連續(xù) tokens 可以更精確地圖像信息存儲,減少信息丟失。這讓模型能夠更好地重建圖像,提高視覺質(zhì)量。

此外大多數(shù)自回歸模型以固定順序生成圖像,而 Fluid 采用隨機(jī)生成順序,讓模型能夠在每一步預(yù)測任意位置的多個像素,這種方法在理解整體圖像結(jié)構(gòu)時表現(xiàn)更為出色。

Fluid 模型結(jié)合了連續(xù)標(biāo)記和隨機(jī)生成順序后,當(dāng)其規(guī)模擴(kuò)大到 105 億參數(shù)時,F(xiàn)luid 在重要基準(zhǔn)測試中超越了 Stable Diffusion 3 擴(kuò)散模型和谷歌此前的 Parti 自回歸模型。

與 Parti 相比,F(xiàn)luid 顯示出顯著的改進(jìn):擁有 200 億參數(shù)的 Parti 在 MS-COCO 上達(dá)到了 7.23 的 FID 分?jǐn)?shù),而僅有 3.69 億參數(shù)的小型 Fluid 模型卻達(dá)到了相同的分?jǐn)?shù)。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港