如同ChatGPT在2023年帶來的震撼,2024年的AI圈,到處喧囂著Sora的故事。
近期,號(hào)稱研發(fā)時(shí)間比Sora更早的「Vidu」文生視頻大模型亮相,這是由生數(shù)科技聯(lián)合清華大學(xué)發(fā)布的中長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性視頻大模型。
輿論立即非常熱烈,因?yàn)閺墓嫉陌咐曨l效果來看,Vidu已經(jīng)可以支持一鍵生成達(dá)16秒、分辨率達(dá)1080P的高清視頻內(nèi)容。Vidu不僅能夠模擬真實(shí)物理世界,還擁有想象力生成,具備多鏡頭、時(shí)空一致性等特點(diǎn)。如果這些特點(diǎn)在公測(cè)時(shí)能呈現(xiàn),那無疑已經(jīng)比肩Sora的水平。
實(shí)際上,Vidu并非是第一個(gè)號(hào)稱國(guó)產(chǎn)Sora產(chǎn)品,還有北大的Open Sora、字節(jié)的Dreamina、騰訊的VideoCrafter2、右腦科技的Vega AI、愛詩科技的PixVerse、MewXAI的藝映AI、智象未來的Pixeling,以及NeverEnds和Morph Studio,還有昆侖萬維、萬興科技公司推出的視覺大模型,共計(jì)10余款文生視頻產(chǎn)品。
圖片來源:智東西
這其中大部分是依賴算法圖片轉(zhuǎn)視頻,真正文生視頻大模型為底座的少之又少。
Sora為何成為AI圈明珠
為何國(guó)內(nèi)的AI領(lǐng)域,Sora再次復(fù)刻了百模大戰(zhàn)的盛況?
這可能源于一個(gè)共識(shí),Sora具有跨時(shí)代的意義。它結(jié)合了大語言模型LLM(ChatGPT、Claude和文心一言)和圖形模型diffusion(midjourney、Stable diffusion),能完美理解文字,然后根據(jù)文字生成圖片到視頻。
這張圖深刻解析了Sora的原理,左腦負(fù)責(zé)語言/邏輯/記憶,LLM大語言模型復(fù)刻了這一模式,右腦負(fù)責(zé)形象/創(chuàng)意/美術(shù),Unconditional Diffusion擴(kuò)散模型更擅長(zhǎng)于此。將二者模型結(jié)合,誕生了從文生視頻的大模型Sora。
所以可以說,Sora才是代表真正的仿人腦智能,其他模型只是模仿了一部分。通過這一原理,我們就辨別很多偽Sora了。
比如美圖公司的文生視頻產(chǎn)品Whee,做出來的圖片簡(jiǎn)單動(dòng)一下,3秒都不到,大概了采用了StableDiffusion的模型SDXL,而不是Diffusion與Transformer融合的架構(gòu)U-ViT。前者很難做出來超過10秒的視頻,文字理解能力也不會(huì)優(yōu)秀,模型決定了天花板。
所以Vidu迅速出圈的原因在于,其核心技術(shù)U-ViT架構(gòu)。該技術(shù)于2022年9月提出,早于Sora采用的DiT架構(gòu),是全球首個(gè)Diffusion與Transformer融合的架構(gòu)。
這個(gè)架構(gòu)的高成長(zhǎng)性,意味著兩三年內(nèi),Sora制作AI短劇/電影/廣告宣傳片等等,都將在幾個(gè)小時(shí)內(nèi)完成,
Sora已經(jīng)驗(yàn)證了這種可能性。新媒體公司Shy Kids 團(tuán)隊(duì)僅用 3 人的團(tuán)隊(duì),利用Sora在大約 1.5 到 2 周內(nèi)制作了《Air Head》 。Patrick 認(rèn)為目前階段的Sora,對(duì)畫面連續(xù)性,以及鏡頭運(yùn)動(dòng)的理解,都還存在一定問題; 而且這部電影是720P,也利用了AE特效軟件進(jìn)行編輯。
但3 到 20 秒,渲染時(shí)間在 10 到 20 分鐘范圍內(nèi),以及極大地提升了效率?苹秒娪熬拗啤栋⒎策_(dá)》花了8年時(shí)間,從拍攝到制作完成,未來可能一倆月內(nèi)就行實(shí)現(xiàn),內(nèi)容制作成本被數(shù)以萬計(jì)的降低。
中國(guó)工程院院士,阿里云創(chuàng)始人王堅(jiān)說道,只說它可能會(huì)影響短視頻等行業(yè),那我覺得是對(duì)它極大的羞辱,它的意義遠(yuǎn)超這種事情。就像是原子彈剛剛爆炸時(shí)一樣,沒有人能想到這個(gè)東西后來可以作為核電站來發(fā)電,還可以實(shí)現(xiàn)小型化,還有很多別的用處。
當(dāng)然,Sora還處于嬰幼兒期。 我認(rèn)為我們現(xiàn)在在Sora的發(fā)展進(jìn)度就像是新視覺模型的GPT-1.我們對(duì)Sora的前景持樂觀態(tài)度,認(rèn)為它將取代人類的某些能力。從長(zhǎng)遠(yuǎn)來看,我們相信Sora有朝一日將超越人類的智慧,成為世界模型的代表。 Sora核心創(chuàng)始人timi在最近接受采訪時(shí)說到。
清華北大+創(chuàng)業(yè)公司發(fā)力Sora
目前國(guó)內(nèi)的Sora創(chuàng)業(yè)大潮中,學(xué)術(shù)機(jī)構(gòu)+創(chuàng)業(yè)公司的組合表現(xiàn),更為亮眼。
清華這只Vidu團(tuán)隊(duì),是在2023年3月,團(tuán)隊(duì)開源了全球第一個(gè)基于融合的大模型UniDiffuser,首個(gè)驗(yàn)證了大規(guī)模訓(xùn)練和擴(kuò)展的規(guī)律。但囿于所需算例成本太高,團(tuán)隊(duì)一時(shí)間的主要精力,重點(diǎn)轉(zhuǎn)到了文生圖,文生3D領(lǐng)域。今年1月,團(tuán)隊(duì)實(shí)現(xiàn)4秒視頻的生成,可以達(dá)到Pika、Runway的效果。
轉(zhuǎn)折點(diǎn)是2024年2月份,Sora的發(fā)布,震撼了圈內(nèi)外人士。團(tuán)隊(duì)重回文生時(shí)評(píng)領(lǐng)域,第一時(shí)間緊急啟動(dòng)攻關(guān),也向海淀區(qū)領(lǐng)導(dǎo)進(jìn)行了匯報(bào),當(dāng)時(shí)得到了很多支持。
此后兩個(gè)月時(shí)間內(nèi),從1月的4秒,3月底突破到8秒,4月底,Vidu對(duì)外展示的是16秒的成果,直接超越了國(guó)內(nèi)的絕大部分Sora模型,達(dá)到了Sora的同等水平。
Vidu案例視頻
相比Vidu的突然炸裂出圈,北大的Open Sora則是從出生起,就敲鑼打鼓地誕生。
Open-Sora Plan由北大-兔展AIGC聯(lián)合實(shí)驗(yàn)室共同發(fā)起,目前推出了 1.0 版本的模型,同時(shí)發(fā)布了一個(gè)名為MagicTime項(xiàng)目,從Time-lapse 視頻中學(xué)習(xí)真實(shí)世界的物理知識(shí)。
這個(gè)初始團(tuán)隊(duì)一共13人:帶隊(duì)的是北大信息工程學(xué)院助理教授、博導(dǎo)袁粒和北大計(jì)算機(jī)學(xué)院教授、博導(dǎo)田永鴻等人 ,合作的創(chuàng)業(yè)公司是兔展公司。
由于缺乏足夠的資源,團(tuán)隊(duì)采用開源生態(tài)共建,AnimateDiff大神也參與其中。
目前國(guó)內(nèi)視頻生成領(lǐng)域,知名的產(chǎn)品是愛詩科技的PixVerse,這家公司剛剛完成A2輪融資,上個(gè)月宣布完成A1輪融資,核心創(chuàng)始人是從字節(jié)跳動(dòng)離職創(chuàng)業(yè),主要解決了視頻運(yùn)鏡控制和一致性的問題,很多實(shí)測(cè)效果超過Pika和runway等競(jìng)爭(zhēng)對(duì)手。
多模態(tài)大模型似乎不是PixVerse重點(diǎn)發(fā)力方向,算力需求沒有Sora那么高。所以目前看,國(guó)內(nèi)實(shí)際應(yīng)用中,PixVerse用戶已經(jīng)在88天內(nèi),超過一千萬次視頻生成。
還有一家公司值得一提,4月28日,萬興公司發(fā)布 天幕 音視頻大模型,號(hào)稱依托15億用戶行為數(shù)據(jù)和百億本土化音視頻數(shù)據(jù),可通過文生視頻能力,實(shí)現(xiàn)不同風(fēng)格、豐富場(chǎng)景及主題的連貫性,一鍵生成時(shí)長(zhǎng)率先支持60秒+。60秒創(chuàng)造國(guó)內(nèi)文生視頻時(shí)長(zhǎng)的記錄了。
英雄不問出處,畢竟從OpenAI的不足百人,Midjourney的11人創(chuàng)業(yè)團(tuán)隊(duì)看,團(tuán)隊(duì)規(guī)模不是AI創(chuàng)業(yè)成功的關(guān)鍵,核心還是首席科學(xué)家的團(tuán)隊(duì)沖鋒能力。這也是為何國(guó)產(chǎn)Sora創(chuàng)業(yè)公司能突然涌現(xiàn)的核心原因。
當(dāng)然,算力資源還是個(gè)大門檻。據(jù)Vidu朱軍表示, 當(dāng)時(shí)訓(xùn)練UniDiffuser第一個(gè)版本時(shí),用到的算力是去年年中訓(xùn)練同樣模型的近40倍,團(tuán)隊(duì)半年時(shí)間將算力需求降低40倍。 這也是其重要技術(shù)突破。
大廠不掀文生視頻的門簾
在轟轟烈烈的AGI創(chuàng)業(yè)浪潮中,BAT是2023年的大模型創(chuàng)業(yè)明星。但在Sora這波中,百度、阿里、騰訊、字節(jié)等大公司卻顯得有些安靜,風(fēng)頭有些被創(chuàng)業(yè)公司搶去。
作為All in AGI動(dòng)作最迅猛的百度,發(fā)布過一款名為 UniVG 的視頻生成模型。用戶只需提供一張圖片或一段文字,就能生成一段流暢的視頻,雖然與早期的AI視頻生成工具相比,UniVG所生成的每一幀畫面都更加穩(wěn)定、連貫,但實(shí)際上,這款模型還是更注重算法,而非Sora的多模態(tài)大模型路線。
在百度2023年Q4及全年業(yè)績(jī)會(huì)上,百度創(chuàng)始人、董事長(zhǎng)兼首席執(zhí)行官李彥宏表示,多模態(tài)或多模態(tài)的融合,比如文字到視頻,其實(shí)是非常重要的一個(gè)未來基礎(chǔ)模型開發(fā)的方向,這是AGI的一個(gè)必要方向,百度也已經(jīng)在這些領(lǐng)域進(jìn)行投資,并且也會(huì)在未來繼續(xù)進(jìn)行投資。
這方面,字節(jié)的動(dòng)作相對(duì)穩(wěn)健一點(diǎn),字節(jié)跳動(dòng)早在年初就發(fā)布了超高清文生視頻模型MagicVideo-V2。據(jù)悉,該模型輸出的視頻在高清度、潤(rùn)滑度、連貫性、文本語義還原等方面,比目前主流的文生視頻模型Gen-2、Stable Video Diffusion、Pika1.0等更出色。
字節(jié)的文生視頻產(chǎn)品是Dreammina,目前文生視頻已經(jīng)處于內(nèi)測(cè)階段,這也是大廠中唯一已經(jīng)公布的Sora產(chǎn)品。AI鯨選社 社群的朋友田際云對(duì)此進(jìn)行了內(nèi)測(cè):
附評(píng)價(jià):1、Dreamina提示詞 一個(gè)工程師,坐在辦公桌前寫代碼 ,還不錯(cuò);2、對(duì)漢字理解很不足,以為 寫 就是在本子上寫字,其實(shí)是在電腦上輸入輸出。3、Dreamina使用這幾天的總結(jié):當(dāng)代元素和人物的生成比古代元素與人物要精準(zhǔn)些,國(guó)外元素生成比國(guó)內(nèi)元素要好很多。底層模型不言而喻了。
而阿里云旗下魔搭社區(qū)(Model-Scope)上線文本生成視頻大模型。目前由文本特征提取、文本特征到視頻隱空間擴(kuò)散模型、視頻隱空間到視頻視覺空間這3個(gè)子網(wǎng)絡(luò)組成,整體模型參數(shù)約17億。
阿里目前最火的視頻模型,應(yīng)該是最近剛在通義上線的EMO,這款讓圖片說話唱歌的AI產(chǎn)品,屬于算法定義的產(chǎn)品,目前已經(jīng)在通義的APP上可以使用。
騰訊推出的視頻模型是Mira,目前的模型可以生成分辨率為128x80的長(zhǎng)達(dá) 20 秒的視頻和分辨率為384x240的長(zhǎng)達(dá) 10 秒的視頻。同時(shí)提供了數(shù)據(jù)標(biāo)注和模型訓(xùn)練的工具。
所以目前來看,大廠有一些基本的視頻大模型,但還沒有公布真正的對(duì)標(biāo)Sora大模型。這也是奇怪的地方,大廠不缺人才、算力以及資金,在最能露臉的文生視頻領(lǐng)域,動(dòng)作卻比較遲緩,任由創(chuàng)業(yè)公司露臉。
當(dāng)然,大廠也不是完全沒有動(dòng)作,投資也是一種參與手段。
Vidu背后的生數(shù)科技正式成立于2023年3月,由瑞萊智慧RealAI、螞蟻和百度風(fēng)投聯(lián)合孵化。在2023年6月,公司完成近億元人民幣天使輪融資,由螞蟻集團(tuán)領(lǐng)投,BV百度風(fēng)投、卓源資本跟投,投后估值達(dá)1億美元。在在天使+輪,錦秋基金獨(dú)家投資了該公司,錦秋基金的前身是字節(jié)戰(zhàn)投部門。