劃重點
01成立僅9個月的AI創(chuàng)業(yè)公司DreamTech專注于原生3D生成,團隊擁有豐富的3D領域經(jīng)驗。
02該公司發(fā)布了全球首個公開發(fā)布的具備可擴展性的原生3D生成大模型Direct3D,具備50億參數(shù)規(guī)模。
03Direct3D模型參數(shù)每增加4倍,生成結果質量精度提高2倍,尤其在動畫人物手指等精細部位表現(xiàn)明顯。
04除此之外,DreamTech還推出了二次元創(chuàng)作神器Neural4D和聊天應用程序AnimeIt,旨在滿足創(chuàng)作者和普通用戶的需求。
05目前,DreamTech正致力于研發(fā)更大規(guī)模的模型,如16B版本的Direct3D-XL,以提升生成結果質量精度。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
“實際上大眾都是3D內(nèi)容的消費者。”
作者|八度
“在淘寶上,有特別多做3D創(chuàng)意設計的店鋪,他們一年的銷量能達到幾十萬件。原先他們是半人工操作,現(xiàn)在我們現(xiàn)在能夠借助AI、通過3D生成直接打印就可以了。”DreamTech創(chuàng)始人張飛虎向「甲子光年」展示道。
DreamTech雖然是一家成立僅9個月的AI創(chuàng)業(yè)公司,但其戰(zhàn)略路線明確,專注于原生3D生成,并且團隊在這一領域的經(jīng)驗豐富。
CEO張飛虎博士畢業(yè)于牛津大學,師從英國皇家科學院、皇家工程院兩院院士Philip Torr。Philip Torr教授在3D建模方面有重點研究。此外,DreamTech創(chuàng)始團隊成員還曾成功創(chuàng)立多家3D領域標桿公司,后被蘋果、谷歌等業(yè)界巨頭收購。
這一次,DreamTech的成立,對于張飛虎和其團隊來說,都是新的出發(fā)。不過在張飛虎看來,創(chuàng)業(yè)并非心血來潮,而是籌備已久:3D生成,終于走到了商業(yè)化的門前。
2023年下半年,DreamTech團隊發(fā)現(xiàn)了3D技術的新方向能夠實現(xiàn)端到端的生成模型,類似于圖像或視頻的處理方式。緊接著,他們又攻克了3D模型表征的關鍵難題。這兩者技術突破,讓張飛虎和他的團隊看到了希望,隨即開展了一系列緊鑼密鼓的動作。
2024年5月,DreamTech團隊公布了其研發(fā)的3D生成大模型Direct3D的算法研究論文,這也是全球首個公開發(fā)布的具備可擴展性的原生3D生成大模型。該學術成果受到行業(yè)的廣泛關注,Meta、Apple、Adobe等企業(yè)相繼跟進該研究論文。
8月份,DreamTech團隊又推出了最新的Direct3D-5B版本,具備50億參數(shù)規(guī)模,成為目前全世界參數(shù)規(guī)模最大的3D生成大模型,這一模型具備scaling up能力,基本結論為:3D生成模型參數(shù)量每增加4倍,生成結果質量精度提高2倍。
具體來說,在3D領域,動畫人物的手指等精細部位也可以被立體地生成。在模型幾何結構規(guī)整度、細節(jié)精度上,Direct3D-5B也都實現(xiàn)了明顯的提升。
Direct3D-1B(上)與Direct3D-5B(下)對比
在產(chǎn)品即將正式上線前夕,張飛虎接受了「甲子光年」的專訪,詳細介紹了3D生成過去的痛點、如今在3D數(shù)據(jù)合成、算力、scaling law等方向上的突破。同時他還講述了今年對DreamTech團隊來說,最為重要的一件事。
以下為采訪內(nèi)容,經(jīng)過編輯整理。
1.3D技術創(chuàng)業(yè):DreamTech的端到端原生3D之路
甲子光年:去年12月,DreamTech公司成立。當時,是什么契機促使你們決定回國創(chuàng)業(yè)?
張飛虎:實際上,創(chuàng)業(yè)這個想法我準備了比較長的一段時間,但確實在去年下半年才開始融資。
當時,我們發(fā)現(xiàn)了一個核心的技術收斂:3D領域可以像圖像或視頻一樣做出端到端的生成模型,這是其他公司或研究人員尚未發(fā)現(xiàn)的。我們看到了3D領域scaling law的能力。
去年上半年還出現(xiàn)了一項新的技術進展,叫DiT架構,它被應用于文生圖。緊接著,我們自己解決了一個3D模型表征的問題,這是一個關鍵問題。將這兩者結合起來,我們看到了希望,認為這個項目可以開始實施,并有望在今年(2024年)商業(yè)化。
簡單來說,去年下半年我們判斷今年可以開始進行3D生成的商業(yè)化,而在此之前這是不可能的。
甲子光年:你剛提到為創(chuàng)業(yè)籌備了很久,是你在此之前一直在等這個時機?
張飛虎:對,其實在2022年初,我們就開始進行相關的研究和開發(fā)。那年,我們在WAIC大會上展示了相關的demo,當時關注度也比較高。但當時的技術水平僅限于制作一些演示,而且速度非常慢,可能需要一個小時才能生成一個3D模型,效果也不理想。我當時看到這個情況,就覺得它還沒有達到商業(yè)化的程度,所以我們一直在不斷地打磨和完善相關的技術。
直到去年,我們發(fā)現(xiàn)了新的算法實現(xiàn)方案,情況不一樣了。只要算力夠,我們能立馬去訓練這個模型并開展商業(yè)化,所以我們在去年下半年啟動創(chuàng)業(yè)。
甲子光年:聽起來,你們關于創(chuàng)業(yè)的整個決策過程是比較順其自然的,并沒有太多困惑和矛盾?
張飛虎:我認為這是我們最自豪的一點。我們的戰(zhàn)略決策做得就比較對,比如與市場上其他一些做3D生成的公司相比,包括海外的公司,他們在開始時選擇了2D轉3D這樣一套方案,花費了幾千萬去做這樣一個模型或者上線產(chǎn)品。
但我們一直堅持做端到端的原生3D,當我們推出新方案后,舊的方案就全部被淘汰了。即便你投入了數(shù)千萬甚至上億的資金,在新的方案出來之后,所有的資源都要推倒重來。
我們在戰(zhàn)略決策上,由于我們自身的經(jīng)驗比較豐富,我們團隊是做3D領域起家的,也做過公司并出售過,在3D領域有十年以上的一個積累。所以我們在戰(zhàn)略決策時判斷哪些算法可行,哪些事情該做,我們的方向就比較準確。
在融資拿到錢之后,我們就立馬就把這套方案給做出來了,基本上沒有浪費什么時間和資源。
甲子光年:在你看來創(chuàng)業(yè)最重要的是什么?或者說,你在創(chuàng)業(yè)之初的一個目標是什么?
張飛虎:我的目標其實當時考慮得很簡單。我2022年博士畢業(yè)前,也就是2021年,我已經(jīng)拿到了包括Google、Facebook等大公司的offer,也拿到了教職的邀請。
但我當時想的是,我想要做出一些影響力較大的東西,而不是僅僅在學校或大公司的研究所里繼續(xù)做一些小規(guī)模的研究。
比如,我想要開展一些大型項目,但無論是在學校還是在大公司,我都做不到這一點。因為在大公司,我不可能一進去就能獨立開展一個非常大的項目,比如像現(xiàn)在的3D生成項目。
另外,在學校里,資源是有限的,尤其是數(shù)據(jù)和算力資源,這是學校無法提供的。因此,我當時就想,如果想要做一個有影響力的大型項目,我就出來自己搞唄。這就是我當時的想法。
2.3D技術突破:解鎖3D生成的scaling law潛力
甲子光年:你剛剛提到,在高校中進行這項工作時,數(shù)據(jù)和算力無法滿足需求,是嗎?
張飛虎:對,首先,數(shù)據(jù)方面確實是一個難題。比如我們現(xiàn)在動輒需要處理的數(shù)據(jù)量達到1PB級別,這對于高校來說是無法支撐的。不僅是國內(nèi)高校,即便是世界頂尖的學府,像牛津大學這種,盡管有龐大的經(jīng)費,但它的算力也是有限的。
實際上,我們要做一些好的工作,其實大部分情況下還是需要跟外部公司做合作的,算力和數(shù)據(jù),都存在這樣一個瓶頸。
甲子光年:創(chuàng)業(yè)時,如何解決數(shù)據(jù)算力難題?
張飛虎:第一個是數(shù)據(jù)這塊,3D數(shù)據(jù)的獲取實際上非常困難。我們采取的策略是數(shù)據(jù)合成。
在我博士研究期間,我的課題是3D AI結合數(shù)據(jù)合成。因此,我們從2022年開始到2023年初,持續(xù)在做3D數(shù)據(jù)合成的工作,合成了非常多3D的數(shù)據(jù)。比如你剛才看到的那些二次元角色的數(shù)據(jù),都是我們合成的成果。
利用合成的3D數(shù)據(jù)訓練AI,這是我們的獨家秘籍。
甲子光年:你們已經(jīng)合成了2000萬的數(shù)據(jù)?
張飛虎:對,3D數(shù)據(jù)的成本非常高,單個3D資產(chǎn)的平均制作成本大約是1000美元一個。
如果人工制作這些數(shù)據(jù),成本將是2000萬乘以1000美元,所以人工制作是不現(xiàn)實的,全世界沒有那么多人力可以完成這樣的工作,因此3D制作的難度非常大。唯一的解決方案就是數(shù)據(jù)合成。
我們在這塊做了比較領先的一些方案,而且把它做到了一個全球領先的程度,甚至有些大公司可能會來挖我們的人才。核心原因在于,我們不僅理解了算法,而且擁有大規(guī)模的數(shù)據(jù)支撐。這些數(shù)據(jù)的規(guī)?赡鼙仁澜缟先魏我患夜径家。
數(shù)據(jù)合成是一套非常復雜的系統(tǒng),它需要日積月累的的經(jīng)驗和系統(tǒng)構建,以及反饋機制。它是一個機器學習系統(tǒng),類似于我們早年看到的AlphaGo,涉及強化學習和監(jiān)督學習,然后通過整個反饋過程,組合出一些真正有用的成果。
甲子光年:數(shù)據(jù)合成是從去年開始的嗎?
張飛虎:是的,去年年初開始,到現(xiàn)在有一年半了。
相比之下,其他公司可能需要購買數(shù)據(jù),或者花錢去爬取數(shù)據(jù),這當然存在一定的法律風險,屬于灰色地帶。另外,購買數(shù)據(jù)的成本非常高。所以我們的優(yōu)勢在于可以用低成本獲取大量合成數(shù)據(jù)。
甲子光年:你們是最開始就意識到數(shù)據(jù)是一個痛點,所以很早就往這個方向去突破了,是嗎?
張飛虎:確實,我們在算法之前,去年上半年,我們已經(jīng)開始搞數(shù)據(jù)了。
因為我們堅定認為(數(shù)據(jù))這件事比較重要,我對這方面的認識比較足。我所在的牛津實驗室是世界上非常知名的能夠進行數(shù)據(jù)合成的實驗室,為蘋果公司提供過相關的服務。我的導師認為,在算法層面,它并沒有大家想象的那么困難,你不去做別人也會去做,但數(shù)據(jù)工作屬于基礎研究的領域。
整個AI領域都是建立在數(shù)據(jù)基礎之上的。例如,我們看大語言模型,F(xiàn)acebook開源的Llama 3與Llama 2相比,它的模型本身并沒有大改,它只是更新了數(shù)據(jù),將訓練數(shù)據(jù)清洗得更干凈,并使用了更多的訓練數(shù)據(jù),它的效果就直線提升了。實際上,數(shù)據(jù)才是AI的一個本質問題。
有了數(shù)據(jù)的支撐,我們可以疊scaling law了。我們最近在研究中發(fā)現(xiàn)了一個非常重要的規(guī)律,在5月份時我還沒有完全搞清楚,但最近我們迭代出新版本的模型后,發(fā)現(xiàn)了一個特別重要的事情:3D生成領域的scaling law,咱們看大語言模型生成了scaling law,圖像模型生成了scaling law。
那到3D生成領域的scaling law是怎樣的呢?
我們發(fā)現(xiàn):模型參數(shù)每提升4倍,模型的精細度就能提高2倍,也就是說我們生成的圖像質量可以提高2倍。比如原來我能做1厘米厚度的東西,我現(xiàn)在就能做到5毫米。
比如從1B到現(xiàn)在公開的5B,精細度的提升非常明顯。1B的手指有些彎曲,但5B的手指就非常直了。
甲子光年:在你看來,目前市場上有哪些算是DreamTech的競品?
張飛虎:我們在數(shù)據(jù)上的優(yōu)勢是任何一家公司都不具備的,哪怕是大公司。在算法層面上,我們迭代得非?,實際上各家可能主要在參考我們的一些相關研究,我們推動了這一波的技術革新。
長遠看,數(shù)據(jù)一定是DreamTech最大的優(yōu)勢。
短期內(nèi),比如半年內(nèi),我們在算法上的優(yōu)勢也很大。從長遠來看,可能取決于我們擁有多大規(guī)模的數(shù)據(jù)。這是一個持續(xù)的過程,而且是一個門檻非常高的領域。
3.3D技術革命:DreamTech的二次元創(chuàng)作神器
甲子光年:我看過資料,你們目前已經(jīng)開發(fā)了兩款產(chǎn)品,這其中哪款產(chǎn)品會被優(yōu)先開發(fā)?
張飛虎:你所看到的是Neural4D,這個產(chǎn)品是為創(chuàng)作者設計的。
另一款產(chǎn)品則是名為AnimeIt的應用程序,它具備聊天和陪伴等功能,更偏向于C端市常
我們的商業(yè)化進程是有明確時間節(jié)點的,特別是在10月份,我們將重點放在創(chuàng)作者產(chǎn)品這一部分,并計劃做一些活動,例如近期我們做了一個CuteMe的創(chuàng)意玩法,用戶可以通過照片創(chuàng)作Q版風格化的3D形象,讓普通用戶也可以自由發(fā)揮創(chuàng)意。
Direct3D-1B 3D打印件效果
甲子光年:你們會為客戶提供哪些服務模式?
張飛虎:我們的服務模式之一是創(chuàng)意平臺,通過我們的產(chǎn)品,設計師可以注冊賬號,并推出一些增值功能,例如付費用戶能夠體驗到更多的功能。用戶在網(wǎng)站上生成內(nèi)容后,可以進行編輯,并利用工具制作動畫,這些操作都可以在網(wǎng)站上完成。
用戶可以根據(jù)自己的需求使用這些內(nèi)容,比如游戲開發(fā)者可以將其用于游戲開發(fā),動畫師可以用于動畫制作,或者3D設計師可以將其打印出來,這是針對創(chuàng)作者的服務,我們稱之為小B端的創(chuàng)作群體。
對于普通用戶,可能平時沒有意識到自己是3D資產(chǎn)的消費者,但實際上大眾都是3D內(nèi)容的消費者。
例如,在玩游戲時,我們可以為普通用戶開放一個APP。這個APP的功能允許用戶創(chuàng)造角色,包括Q版或二次元風格的角色,并與之進行互動,比如聊天和社交體驗,還可以為角色裝扮,類似于過去的QQ秀。
此外,用戶還可以將這些角色打印出來作為禮物送給他人,比如將家人的形象轉換成風格化的角色后,作為禮物送給朋友或家人。
用戶還可以在APP上玩游戲,甚至自己制作小游戲,因為我們的生成技術非常強大,用戶可以創(chuàng)造出場景,拼接資產(chǎn),享受無限的可能性,比如自己創(chuàng)造游戲等。
甲子光年:現(xiàn)在生成需要多長時間?
張飛虎:大約1~2分鐘,這取決于后臺用戶排隊的情況。如果等待時間較長,很可能是因為后臺用戶太多。去年這個時候,可能最快也需要20分鐘。
甲子光年:你們是什么時候確定走二次元路線?
張飛虎:我們在做3D生成的時候進行過市場調研,普通用戶大多不喜歡那種真實還原的效果。比如我給自己拍一張照片,然后做成100%還原的樣子,普通用戶并不喜歡,他們喜歡的是風格化、可愛、卡通化的效果。
而且,這種風格的受眾和市場規(guī)模要比其他風格大得多。比如二次元在整個3D內(nèi)容消費市場中占據(jù)了50%的份額,加上Q版風格的,兩者加起來超過了80%。
所以去年我們確定以風格化作為主要的路線。我們不會追求100%的真實還原,而是會進行風格化處理,比如你輸入的是一個人的真人圖像,我們可能會將其轉換成二次元形象,或者轉換成Q版形象。
甲子光年:基于你剛剛提到的全世界最大,包括之前也有資料顯示是全球首個原生3D大模型。我如何辨別或證明是否為全球首個?
張飛虎:你可以看到我們5月份最早發(fā)表的一篇關于原生3D的論文。這是目前公開發(fā)表的第一篇達到這種水平的論文。在此之前,確實還沒有類似的研究,大家都在嘗試其他的方案,但我們的這套方案是目前大家公認的。例如,我們了解到歐美的大企業(yè)都在跟進這套方案,都在朝這個方向去做。
甲子光年:外界會對3D市場有刻板印象,認為3D的AI應用會是一個相對小眾的市場,更適合設計師人群。你怎么看待這種觀點?
張飛虎:其實我剛才介紹行業(yè)的時候,每一個行業(yè)都非常非常大。當時我們在做市場調研的時候,就發(fā)現(xiàn)一個問題,比如現(xiàn)在非常熱的圖像和視頻,大家傳統(tǒng)意義上認為市場比較大,但大家會發(fā)現(xiàn)一個點,就是大眾不太愿意為這些付費,因為互聯(lián)網(wǎng)上這些東西都是天然存在的,是免費的。
但在3D領域,并不是如此。在3D領域,我們平時獲取資產(chǎn)時,要么自己訂閱軟件,比如在海外,當付費習慣較好時,使用的都是正版軟件,如3D Max等建模軟件,年訂閱費用約為1萬美元。
而當用戶需要購買模型時,這與圖像和視頻也不一樣,因為圖像和視頻可以輕易地截圖或錄制。但購買3D資產(chǎn)或虛擬資產(chǎn)時都需要付費,比如在sketchfab上購買一個最簡單的資產(chǎn),可能需要花費大約10到15美元。即使在國內(nèi),用戶不太愿意付費的情況下,他們也會知道在淘寶上購買盜版模型可能需要花費幾塊錢。
所以這些是3D領域與其它領域不同的地方,我們不必擔心用戶不愿意付費的問題,他們的付費習慣非常好,也愿意為這些3D資產(chǎn)付費。
另一個支撐這個行業(yè)龐大的因素是其下游應用場景非常廣泛。
例如,游戲行業(yè)就是一個非常大的市常再比如3D設計行業(yè),它是一個萬億級別的行業(yè)。我們接觸到的許多用戶,比如珠寶設計師、鞋類設計師,或者其它類型的設計師,他們可能會設計出某個產(chǎn)品,生成一個3D模型,并將其制作成3D打印產(chǎn)品。此外,有些用戶可能會購買一個花瓶,如果只是普通購買,可能只需要花費10元錢,但如果這個花瓶是用戶自己創(chuàng)造的、獨一無二的設計,那么他們可能愿意花費幾百元。
在歐洲和國內(nèi),年輕人在創(chuàng)業(yè)和設計領域的需求非常大。具體來說,有幾個非常大的行業(yè)。首先是創(chuàng)意設計領域,我們一直認為它是一個千億甚至萬億級別的市場,這完全依賴于3D技術,因為它需要制作實物。另一個是游戲行業(yè),我們看到了《黑神話:悟空》上線幾天就賺取了十幾億的收入,它完全是基于3D技術。
當我們的3D生成技術成熟后,我們認為即使是小團隊也能夠開發(fā)3A級別的大作。
目前3D應用最困難的部分還是模型的制作,可能需要花費數(shù)年時間進行建模和掃描。但在3D技術成熟后,開發(fā)這類3A大作游戲將變得非常簡單。還有動畫行業(yè),現(xiàn)在3D動畫正成為主流,動畫也是一個千億級別的市常
為什么說3D動畫的體驗感要比2D好很多?2D動畫是一張張圖畫,然后將它們連接起來使動畫動起來。而3D動畫則是先建立3D模型,然后通過動作捕捉技術,讓人的表情和動作驅動模型,最后渲染出一部動畫,其流暢性和連貫性都非常好。還有大家期待非常高的AR和VR行業(yè),整個生態(tài)完全依賴于3D技術。
甲子光年:3D其實是在迭代這些行業(yè)?
張飛虎:對,它會讓這些行業(yè)做得更好玩,而且讓每一個用戶都可以獨立創(chuàng)作。同時,比如我們期待的元宇宙和AR、VR技術,為何之前的發(fā)展并不成熟,沒有起來?核心原因有兩個:一是內(nèi)容太少,無法生產(chǎn)出好玩的內(nèi)容。3D建模太難了,沒有這類資產(chǎn)和數(shù)據(jù),不像圖像或視頻那樣簡單,3D建模的難度確實很大。
另一個原因就是硬件設備還不成熟。設備的成熟可能是一個漸進的過程,當然,這需要硬件公司來解決。
我們把3D內(nèi)容這塊做好,這是3D生態(tài)的一個基礎技術,它的重要性就像現(xiàn)在的文字和圖像在互聯(lián)網(wǎng)上的重要性一樣,在XR這個生態(tài)系統(tǒng)中,3D是一個基礎元素級別的關鍵要素。
甲子光年:你認為今年對DreamTech來說最重要的一件事是什么?
張飛虎:我們認為最重要的是在年底前完成15B至16B模型,也就是我們稱之為XL模型的迭代。
這個模型對我們的數(shù)據(jù)處理要求非常高,它意味著我們從數(shù)據(jù)合成階段進入到數(shù)據(jù)閉環(huán)階段。同時,在這一基礎上,我們將開發(fā)出更多的商業(yè)應用。這是我們今年年底的目標,就是訓練出一個具有160億參數(shù)的模型。
目前,由于算力限制,我們實際上并沒有使用全部數(shù)據(jù)進行訓練,例如我們的5B版本模型僅使用了大約400萬數(shù)據(jù)。而XL模型將使用全部2000萬訓練數(shù)據(jù)。
Direct3D 迭代路線圖,DreamTech下一個目標:Direct3D-XL(16B)版本,將進一步提升生成結果質量精度
甲子光年:這個一旦做成其實也是一個里程碑。
張飛虎:對,它將是一個非常大的里程碑。我們自己的C端產(chǎn)品都可以在這個基礎上做得非常好。而在明年上半年,基于這個模型,我們可能會經(jīng)歷一個用戶數(shù)量激增的階段。
(封面圖來源及文中圖片來源:DreamTech)