12月3日,騰訊混元大模型正式上線(xiàn)視頻生成能力,這是繼文生文、文生圖、3D生成之后的又一新舉措。騰訊開(kāi)源該視頻生成大模型,參數(shù)量130億,是當(dāng)前最大的視頻開(kāi)源模型。
用戶(hù)只需要輸入一段描述,即可生成視頻,生成視頻支持中英文雙語(yǔ)輸入、多種視頻尺寸以及多種視頻清晰度。目前該模型已上線(xiàn)騰訊元寶APP,用戶(hù)可在A(yíng)I應(yīng)用中的“AI視頻”板塊申請(qǐng)?jiān)囉。企業(yè)客戶(hù)通過(guò)騰訊云提供服務(wù)接入,目前API同步開(kāi)放內(nèi)測(cè)申請(qǐng)。
據(jù)騰訊混元的多模態(tài)生成技術(shù)負(fù)責(zé)人凱撒介紹,目前視頻生成的開(kāi)源生態(tài)差距比較大,最大的問(wèn)題在于:圖像生成的算力和數(shù)據(jù)消耗與視頻是數(shù)量級(jí)之間的差距,因此,“大家不太有信心或者不太想把自己花這么多成本的模型開(kāi)源出來(lái)給大家用;煸獙儆诤蟀l(fā)的模型,前面領(lǐng)先的很多機(jī)構(gòu)目前還是一個(gè)閉門(mén)造車(chē)的狀態(tài),有最好的模型大家也沒(méi)有用起來(lái)!
“視頻生成特別是文生視頻領(lǐng)域成熟度遠(yuǎn)沒(méi)有大家想象的那么高,失敗率很高,抽卡太多了。這個(gè)技術(shù)程度至少在我們內(nèi)部評(píng)估還沒(méi)有到大規(guī)模商業(yè)化的程度,還在技術(shù)打磨階段。在這個(gè)階段里,我們對(duì)外開(kāi)源的操作,也是希望跟社區(qū)一起,把技術(shù)早日推向像圖像生成這種真正可用的狀態(tài)!眲P撒說(shuō)道。
從年初以來(lái),騰訊混元系列模型的開(kāi)源速度不斷加快。此前,騰訊混元已經(jīng)開(kāi)源了旗下文生文、文生圖和3D生成大模型。至此,騰訊混元系列大模型已實(shí)現(xiàn)全面開(kāi)源。(文/趙小天 編輯/李不清)