當(dāng)?shù)貢r間周一,OpenAI宣布正式向用戶開放AI視頻生成模型Sora,此時距離OpenAI首次公開展示Sora已過去大約10個月。據(jù)介紹,Sora將于當(dāng)天晚些時候向美國及其他市場的ChatGPT付費用戶開放Sora Turbo版本,這是一個生成速度更快的版本。
“Sora為模型理解和模擬現(xiàn)實世界提供了一個基礎(chǔ),我們相信這個能力將是實現(xiàn)AGI(通用人工智能)路上的一個重要里程碑!監(jiān)penAI表示。有用戶則在社交媒體上表示,Sora的服務(wù)器已經(jīng)太過繁忙,出現(xiàn)無法注冊的情況。
此次Sora新增了一些功能,讓用戶有更多工具來控制視頻。不過,此次公開給付費用戶使用的Sora Turbo版本生成時長最多20秒,而非Sora首次公開展示時的1分鐘。記者了解到,視頻時長較短還是視頻模型面臨的一個難點,其背后與視頻延續(xù)性能力不足有關(guān)。
Sora新增功能
此次Sora展示了一些新功能,包括用戶可使用Remix工具可以替換、刪除或重新設(shè)計視頻中的元素。此外,用戶還可以找到最佳的幀并在此基礎(chǔ)上擴(kuò)展成一個場景,還可以在時間軸上編輯視頻的獨特序列、使用Loop工具剪輯并要求Sora生成無縫銜接的重復(fù)視頻、將兩個視頻合并為一個無縫銜接的視頻、創(chuàng)建獨特風(fēng)格。
這些新功能讓Sora在用戶手中變得更加可控。據(jù)OpenAI展示的案例,用戶可以要求視頻中的門打開、將圖書館替換成宇宙飛船;將一個飄雪的視頻和一個花朵降落的視頻合并在一起,就會出現(xiàn)花朵與雪花同時降落、最后變成只有花朵降落的一段視頻,過渡自然;將花朵開放閉合的視頻重復(fù),花朵將會持續(xù)重復(fù)開放閉合的動作,將翻滾海浪的視頻重復(fù),則會出現(xiàn)一個不斷涌動的海浪,這些重復(fù)的視頻不會出現(xiàn)視頻間機(jī)械拼接的跡象;將大象和犀牛行走的畫面換個風(fēng)格,則能變成黑白風(fēng)格,或者變成紙工藝大象和犀牛行走的畫面,或者更換他們所處的背景。
OpenAI表示,Sora Turbo還是一個早期版本,它可以通過輸入文本、圖像和視頻轉(zhuǎn)化為視頻輸出,視頻分辨率可達(dá)1080p,最長生成時長是20秒。技術(shù)上,Sora是一個Diffusion(擴(kuò)散)模型,被賦予了許多幀的預(yù)見能力,OpenAI表示,現(xiàn)在已經(jīng)解決了一個具有挑戰(zhàn)性的問題,即當(dāng)某個主題暫時消失在畫面中時,視頻主題依然不變。
Sora與GPT模型類似,也采用了Transformer架構(gòu)。此外,Sora還使用了DALLE 3的重現(xiàn)技術(shù),該技術(shù)能為視覺訓(xùn)練數(shù)據(jù)生成高度描述性的詞,使模型能更貼合用戶的文字指令。OpenAI表示,當(dāng)Sora基于一個靜止圖像生成視頻時,能精確地將圖像內(nèi)容動畫化,并關(guān)注里面的小細(xì)節(jié),也能獲取現(xiàn)有的視頻并填充視頻中缺失的幀。
“正如我們在2月的技術(shù)報告中描述的,Sora從大語言模型中獲得靈感,這些模型通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)基礎(chǔ)上訓(xùn)練來獲得能力。大語言模型的成功一定程度上得益于用token(詞元)統(tǒng)一了各種數(shù)據(jù)形式,在Sora中,我們也考慮了視覺生成模型如何繼承以上優(yōu)點,類似于大語言模型預(yù)測下一個token,Sora能生成visual patches(視覺補(bǔ)。。我們先將視頻壓縮到一個較低維的空間,將其分解為時空補(bǔ)丁,再將視頻轉(zhuǎn)化為補(bǔ)丁!本图夹g(shù)原理,OpenAI解釋。
OpenAI還介紹了Sora訓(xùn)練的數(shù)據(jù)來源。來源包括公開可用的數(shù)據(jù),主要來自機(jī)器學(xué)習(xí)數(shù)據(jù)集和通過網(wǎng)絡(luò)爬蟲技術(shù)收集的數(shù)據(jù),此外,OpenAI還與Shutterstock$Pond5等廠商合作以獲取非公開數(shù)據(jù),并用到了來自AI訓(xùn)練者、紅隊測試成員和員工的反饋數(shù)據(jù)。
當(dāng)?shù)貢r間周一晚些時候,Sora Turbo版本已開放給付費用戶使用。目前已有OpenAI員工在社交媒體上展示了自己創(chuàng)作的視頻,例如生成古人騎馬打戰(zhàn)、古代黑白街景的20秒視頻,這些畫面看起來有足夠的細(xì)膩度,也有特寫、中景和遠(yuǎn)景的鏡頭切換,不過,仍有一些不合理之處。
以古人騎馬打戰(zhàn)的視頻為例,一開始畫面還比較合理,人物身著古代服飾并舉著劍,馬匹奔跑前進(jìn),不過,到第11秒時突然有一個人無緣由地從馬上摔下,畫面上還出現(xiàn)了一個人騎馬往另一個方向走。
藝術(shù)家Boris Eldagsen也在社交媒體上展示了他此前測試Sora時制作的視頻。視頻中梳著油頭的人物一邊跳舞一邊用量尺丈量東西,鏡頭語言豐富,量尺則出現(xiàn)了各種姿態(tài),有時會長在人物的身上,該藝術(shù)家該視頻有“對商業(yè)術(shù)語的卡夫卡式解構(gòu)”。
也有用戶在社交平臺上分享了他如何使用Sora將兩個視頻融合在一起的功能。該用戶用了一個俯拍城堡的視頻和一個人物在林間奔跑的視頻,融合后,可以看到鏡頭下降到一條林間小路上,遠(yuǎn)處看得到城堡,近處看得到人物在奔跑,過渡真實,不足之處則在于人物的身高一開始與樹木幾乎齊平,然后迅速下降,有墜落的感覺。
Sora與其他模型差距多大?
推出這些方便用戶編輯的工具背后,OpenAI表示,今年2月以來,OpenAI就與來自60多個國家的數(shù)百名視覺藝術(shù)家、設(shè)計師和電影制作人合作,以便獲得關(guān)于如何改進(jìn)視頻、幫助創(chuàng)意行業(yè)專業(yè)人士創(chuàng)作的反饋。不過,記者留意到,此前Sora展示的視頻出現(xiàn)了對物理規(guī)律的違背,例如酒杯摔下并不會碎,而此次Sora更新并未專門談及在遵循物理規(guī)律方面的改進(jìn)。
時長上看,相比今年2月Sora首次公開展示時的1分鐘生成視頻時長,此次公開給付費用戶使用的Sora Turbo版本可生成的最長時長則是20秒。能使用Sora Turbo的用戶是ChatGPT Plus訂閱用戶和ChatGPT Pro訂閱用戶,其中ChatGPT Plus訂閱用戶可以每月生成50個低分辨率視頻,單個視頻時長最長5秒,只有ChatGPT Pro訂閱用戶才能無限制生成高分辨率視頻,時長最長20秒。而ChatGPT Pro的訂閱費頗高,達(dá)到每月200美元。
此次Sora Turbo沒有開放很長的生成時長,且收費較高,可能是算力成本的因素。一名視頻生成業(yè)內(nèi)人士告訴記者,Sora此前公開展示后之所以沒有很快開放公眾使用,一個可能原因就是推理成本太高,視頻生成模型不能跟文本模型一樣公開給用戶免費使用,同時,視頻生成模型訓(xùn)練成本也比文本模型高數(shù)倍以上,商業(yè)模式還待完全打通。
此外,記者了解到,視頻生成模型要生成效果較好、時長較長的視頻,技術(shù)上也存在卡點!皩⒁曨l生成時長做長是一個純算力和數(shù)據(jù)問題,當(dāng)時長增加一倍時,算力呈現(xiàn)平方級上升,所以將時長做太長并不劃算。如果不考慮算力原因,視頻時長可以做得很長,但視頻效果退化會越來越嚴(yán)重,業(yè)界主流的模型時長都是五六秒!绷碛幸曨l大模型技術(shù)人員告訴記者。
Sora今年2月公開展示Sora后,在業(yè)界引起了視頻大模型熱潮。從Sora的競爭產(chǎn)品上看,據(jù)12月初騰訊混元團(tuán)隊展示的一張文生視頻模型效果評估表,包括騰訊混元視頻生成、Luma1.6、GEN-3 alpha和2個國內(nèi)模型在內(nèi),這5個模型的效果總體評分都在24%~42%之間,得分都不算高。Sora與業(yè)界已有的其他產(chǎn)品之間,差距有多大?
“我看了一些Sora的視頻案例,效果比較好,但貌似與其他視頻模型之間的距離也沒有大到代際差距!毙吕宋⒉┬录夹g(shù)研發(fā)負(fù)責(zé)人張俊林告訴記者,目前視頻模型的難點還是長視頻的一致性,就是時間長了之后如何讓角色和背景表現(xiàn)一致。據(jù)不完全統(tǒng)計,目前已發(fā)布或已在內(nèi)測的國內(nèi)外視頻生產(chǎn)產(chǎn)品已有Sora、Gen3、Luma、Pika、即夢、可靈、混元、通義萬相、video-1、清影、PixVerse、Vidu等近20個。
從技術(shù)路線上看,多名視頻模型業(yè)內(nèi)人士都告訴記者,包括Sora在內(nèi),業(yè)內(nèi)的視頻生成路徑基本收斂到Tranformer+Diffusion,表現(xiàn)為這兩種架構(gòu)融合的DiT架構(gòu)或類DiT架構(gòu)。有業(yè)內(nèi)人士認(rèn)為,沿著這條路徑走下去,要做出效果更好的模型需要比拼資金實力,除此之外,算法本身不算成熟,也有繼續(xù)創(chuàng)新的空間。
(本文來自第一財經(jīng))