IT之家 8 月 6 日消息,阿里團(tuán)隊(duì)最新推出了 AI 視頻生成框架 Tora,同時(shí)集成了文本、視覺和軌跡條件用于生成視頻,是基于軌跡導(dǎo)向的擴(kuò)散變換器(DiT)技術(shù)。
Tora 由一個(gè)軌跡提取器(TE)、一個(gè)時(shí)空 DiT 和一個(gè)運(yùn)動(dòng)引導(dǎo)融合器(MGF)組成:
TE 使用 3D 視頻壓縮網(wǎng)絡(luò)將任意軌跡編碼為分層時(shí)空運(yùn)動(dòng)補(bǔ)叮
MGF 將運(yùn)動(dòng)貼片集成到 DiT 模塊中,以生成遵循軌跡的連貫視頻。
Tora 無(wú)縫契合 DiT 設(shè)計(jì),支持制作最長(zhǎng) 204 癥720P 分辨率的視頻,可以精確控制不同持續(xù)時(shí)間、寬高比和分辨率的視頻內(nèi)容。大量實(shí)驗(yàn)證明,Tora 在實(shí)現(xiàn)高運(yùn)動(dòng)保真度方面表現(xiàn)出色,同時(shí)還能細(xì)致模擬物理世界的運(yùn)動(dòng)。
其獨(dú)特設(shè)計(jì)理念融合文本、視覺和軌跡條件,精準(zhǔn)控制視頻內(nèi)容,模擬物理世界運(yùn)動(dòng)規(guī)律,為電影特效制作、虛擬現(xiàn)實(shí)領(lǐng)域帶來(lái)無(wú)限可能。
IT之家附上參考地址