本期《晚點(diǎn)聊》,關(guān)注當(dāng)技術(shù)遇上藝術(shù),聊一聊計(jì)算機(jī)技術(shù)和正蓬勃發(fā)展的 AI 技術(shù),如何與 M&E,也就是 Media and Entertainment 媒體娛樂(lè)產(chǎn)業(yè)相互影響、相互塑造。
我們邀請(qǐng)了兩位嘉賓一起對(duì)談:一位是 NVIDIA 中國(guó)區(qū)高級(jí)技術(shù)市場(chǎng)經(jīng)理施澄秋(Searching),另一位是新片場(chǎng)董事長(zhǎng)兼 CEO 尹興良(Ethan)。
他們站在技術(shù)塑造內(nèi)容這個(gè)鏈條的兩端:NVIDIA 是人工智能計(jì)算領(lǐng)導(dǎo)者,同時(shí) NVIDIA 也會(huì)開(kāi)發(fā)大量的軟件去幫整個(gè)生態(tài)更好的使用 GPU。NVIDIA 起家就是依靠計(jì)算機(jī)圖形技術(shù),最初就是用在游戲和影視行業(yè)。
成立于 2012 年的新片場(chǎng),則是中國(guó)最大的高質(zhì)量短片和視頻素材分享平臺(tái),并制作了大熱 IP 劇集《鬼吹燈》(《怒晴湘西》《精絕古城》《南海歸墟》等)系列。
內(nèi)容創(chuàng)作是人類(lèi)文明最早的活動(dòng)之一。在 AI 技術(shù)之前,這個(gè)行業(yè)已是一個(gè)有長(zhǎng)鏈條的技術(shù)工業(yè)體系。本期節(jié)目中,我們回顧了在 AI 之前,計(jì)算機(jī)圖形等技術(shù)對(duì)內(nèi)容制作的影響與滲透,進(jìn)一步展開(kāi)了生成式 AI 浪潮帶來(lái)的新變化。生成式 AI 的發(fā)展則將進(jìn)一步縮短從創(chuàng)意到表達(dá)的距離,讓更多人有表達(dá)自己的工具,未來(lái)還可能衍生出新的社區(qū)與平臺(tái),面對(duì)影視和內(nèi)容創(chuàng)作這個(gè)萬(wàn)億級(jí)的全球大市場(chǎng),AI 帶來(lái)的新一輪變化才剛開(kāi)始。
AI 之前,影視內(nèi)容工業(yè)已高度技術(shù)化
《晚點(diǎn)聊》:首先想請(qǐng) Ethan 聊聊,當(dāng)前國(guó)內(nèi)劇集的制作流程大致,以及哪些環(huán)節(jié)用到的技術(shù)比較多。
尹興良:出品內(nèi)容的流程是:首先進(jìn)行立項(xiàng)會(huì)議,確定項(xiàng)目方向,通過(guò)審查后正式立項(xiàng);隨后確定劇本,以及導(dǎo)演、主演等主創(chuàng)人員,并開(kāi)始建組;實(shí)際拍攝完成后,進(jìn)行后期剪輯、特效制作、特效回插,調(diào)色和聲音處理,直至成片。最后,成片需通過(guò)審查,并確定上線時(shí)間,最終與觀眾見(jiàn)面。
國(guó)內(nèi)劇集制作的各個(gè)環(huán)節(jié)都在嘗試新技術(shù),以前期分鏡設(shè)計(jì)為例,傳統(tǒng)方式是純用綠幕,現(xiàn)在則會(huì)用到 LED 屏幕,在拍攝過(guò)程中直接把后景加進(jìn)去,后期制作的流程也同樣有技術(shù)輔助,而采用這些技術(shù)的目的則是降本增效。
《晚點(diǎn)聊》:您剛才說(shuō)拍攝過(guò)程中用 LED,是不是有 NVIDIA 的技術(shù),或者說(shuō)相關(guān)的產(chǎn)品支持?
施澄秋:綠幕技術(shù)已使用近 20 年。但十幾年前,LED 拍攝成本高,涉及占地、運(yùn)營(yíng)、維護(hù)和電費(fèi)等。從 17 年開(kāi)始,LED 成本下降,并逐漸開(kāi)始流行。無(wú)論是 LED 還是綠幕,背景都依賴于視覺(jué)運(yùn)算效果渲染,這是 NVIDIA 的強(qiáng)項(xiàng)。
例如,《獅子王》的 LED 屏幕背后虛擬場(chǎng)景由 CG 生成,拍攝時(shí)捕捉,實(shí)現(xiàn)“所見(jiàn)即所得”的效果。又如,拍攝珠寶奢侈品廣告時(shí),綠幕拍攝難以達(dá)到逼真的光影互動(dòng),無(wú)法襯托產(chǎn)品的高級(jí)感。而 LED 屏可以避免這些問(wèn)題。
隨著 CG 技術(shù)的發(fā)展,NVIDIA 的 GPU 渲染能力大幅提升,F(xiàn)在,結(jié)合 NVIDIA 的軟件技術(shù),綠幕拍攝也可以實(shí)現(xiàn)實(shí)時(shí)光線追蹤,多人協(xié)作,提高互動(dòng)性和效率。無(wú)論是 LED 還是綠幕,都能支持媒體娛樂(lè)產(chǎn)業(yè)的需求。萬(wàn)變不離其宗,核心都是 CG 渲染。
《晚點(diǎn)聊》:我想問(wèn)一下 Ethan,像《鬼吹燈》這個(gè)系列,對(duì)特效的要求比較高。在整個(gè)鏈條里面,技術(shù)投入占到你們的制片成本的多少?
尹興良:我們做的是《鬼吹燈》網(wǎng)絡(luò)電影,藝人的預(yù)算不高,大部分的預(yù)算投入在特效中。以《鬼吹燈之南海歸墟》為例,全部在棚內(nèi)拍攝。跟海相關(guān)的鏡頭都是特效,占到了一半以上的時(shí)長(zhǎng)。
《晚點(diǎn)聊》:從個(gè)人經(jīng)歷來(lái)講,入行開(kāi)始到現(xiàn)在,技術(shù)在中國(guó)的影視內(nèi)容,包括新聞這些制作行業(yè)里,大概是一個(gè)怎樣慢慢滲透的過(guò)程?
尹興良:我 2012 年開(kāi)始創(chuàng)業(yè)做新片場(chǎng),初衷是解決自己作品的存儲(chǔ)問(wèn)題。我認(rèn)為技術(shù)對(duì)于創(chuàng)作體系的顛覆非常大。
從拍攝這端來(lái)講。大學(xué)時(shí)拍片子,用笨重的設(shè)備,拍攝和導(dǎo)出過(guò)程非常耗時(shí)。到了 12、13 年,單反相機(jī)成為主流,現(xiàn)在很多人用手機(jī)拍攝。
關(guān)于制作端,雖然 Adobe 和蘋(píng)果的產(chǎn)品仍是主流,但制作流程本身已被顛覆,比如內(nèi)容導(dǎo)入時(shí)間更短。計(jì)算機(jī)性能的突飛猛進(jìn)跟 NVIDIA 的貢獻(xiàn)密不可分。未來(lái),AI 技術(shù)將進(jìn)一步簡(jiǎn)化創(chuàng)作流程。社交媒體讓傳播變得更平等,而 AI 將使創(chuàng)作能力不再局限于少數(shù)人或機(jī)構(gòu)。
施澄秋:我比 Ethan 年長(zhǎng),90 年代讀廣告專(zhuān)業(yè)。Ethan 之前是磁帶導(dǎo)入,我們是 DV,甚至用 beta 設(shè)備,從 1394 接口 1:1 地導(dǎo)進(jìn)電腦,還沒(méi)有高速的網(wǎng)絡(luò)。那時(shí)電腦非常昂貴,沒(méi)機(jī)會(huì)用電腦做后期,哪怕做平面的內(nèi)容都很奢侈,基本只學(xué)紙上談兵的理論。當(dāng)時(shí)也沒(méi)有虛擬演播室的概念,哪怕是疊加實(shí)時(shí)字幕,都是成本高昂的商業(yè)行為,花幾十萬(wàn)甚至上百萬(wàn)做實(shí)時(shí)字幕機(jī)系統(tǒng),只有頂級(jí)工作室和大公司才能負(fù)擔(dān)得起。
到了今天,創(chuàng)作者幾乎不再受到成本、專(zhuān)業(yè)背景的限制。以前做后期需要學(xué)習(xí) Premiere,今天拿手機(jī)戳戳屏幕就可以。甚至手機(jī)可以不具備強(qiáng)大的處理能力,云端的 GPU 資源可以調(diào)用服務(wù)器上的渲染能力,幫助用戶完成制作。以前只能靠專(zhuān)業(yè)人員完成的工作,現(xiàn)在通過(guò)簡(jiǎn)單的指令就能讓 AI 完成。NVIDIA 也在順應(yīng)潮流,產(chǎn)品從視覺(jué)計(jì)算,拓展到 AI 計(jì)算領(lǐng)域,為更多個(gè)人創(chuàng)作者創(chuàng)造便利,帶動(dòng) UGC 發(fā)展。
《晚點(diǎn)聊》:可以介紹一下 NVIDIA 在中國(guó)影視行業(yè)是如何逐步發(fā)展的嗎?個(gè)人創(chuàng)作者在使用這些工具時(shí),這個(gè)鏈條又是怎樣的?
施澄秋:早期,NVIDIA 在中國(guó)影視傳媒行業(yè)籍籍無(wú)名,沒(méi)有分公司、技術(shù)支持和售后。通過(guò)合作伙伴,或者采用了我們技術(shù)的系統(tǒng)整合商,NVIDIA 才逐步進(jìn)入市場(chǎng)。
90 年代做世界杯時(shí),主持人要提溜著幾個(gè)虛擬的小人講排兵布陣,這是早期的虛擬演播室,是比較簡(jiǎn)單的后臺(tái)渲染。天氣預(yù)報(bào)的直播間,主持人指點(diǎn)的氣象云圖,就是某種意義上的綠幕,渲染都是用 GPU 來(lái)完成。今天的渲染技術(shù)與過(guò)去相比,已不可同日而語(yǔ)。
如今我們可以做到實(shí)時(shí)光線的追蹤了,而以前這需要在渲染農(nóng)場(chǎng)中進(jìn)行離線渲染,耗時(shí)幾十上百小時(shí)完成幾十秒的畫(huà)面。皮克斯的電影制作周期從 18 到 24 個(gè)月縮短到幾個(gè)月,正是因?yàn)殇秩緯r(shí)間和成本大幅減少。
通過(guò)技術(shù)進(jìn)步,NVIDIA 不僅幫助大型機(jī)構(gòu),也在幫助個(gè)人創(chuàng)作者參與影視制作。
移動(dòng)互聯(lián)網(wǎng)降低了分享的門(mén)檻,生成式 AI 將降低創(chuàng)作的門(mén)檻
《晚點(diǎn)聊》:你們會(huì)比較在意這個(gè)熱潮里的什么東西?
尹興良:作為產(chǎn)業(yè)公司,首要關(guān)注生成式 AI 在現(xiàn)有工作流中的應(yīng)用。我們最早關(guān)注的是 Diffusion,也就是文生圖。Midjourney 爆火之前,美國(guó)有一款叫 Dream 的 APP 已經(jīng)流行。用戶輸入一段文字,Dream 生成特定風(fēng)格的藝術(shù)畫(huà),這就是 Diffusion 技術(shù)。用戶將在 Dream 上生成的內(nèi)容分享至我們的平臺(tái),讓我們意識(shí)到了生成式 AI 的潛力。后來(lái)的 Midjourney 對(duì)我們這個(gè)行業(yè)的影響就更大了,因?yàn)樗娴目梢赃M(jìn)入生產(chǎn)環(huán)節(jié),比如生成宣傳海報(bào)、制作分鏡頭腳本,可以達(dá)到使用水準(zhǔn)。
與傳統(tǒng)影視公司不同,網(wǎng)絡(luò)分發(fā)需要大量海報(bào)。例如,傳統(tǒng)線下電影只需要幾張海報(bào),而網(wǎng)絡(luò)內(nèi)容為了提高曝光,需要幾千張去測(cè)試 ROI。在這個(gè)環(huán)節(jié)里,Midjourney 替代了美工,可以批量生成信息流圖片,提高營(yíng)銷(xiāo)效果。
雖然 Midjourney 在生成某些細(xì)節(jié)(如手部)時(shí)會(huì)出現(xiàn)“幻覺(jué)”,但多數(shù)應(yīng)用場(chǎng)景中,這些瑕疵是可以接受的。
《晚點(diǎn)聊》:從 NVIDIA 技術(shù)供給方的角度看,生成式 AI 可能對(duì)媒體娛樂(lè)產(chǎn)業(yè)有什么影響?你比較在意的是什么?
施澄秋:NVIDIA 在這個(gè)行業(yè)里面技術(shù)走得比較前沿,所以有很多應(yīng)用尚未落地,或者沒(méi)有大規(guī)模應(yīng)用。舉個(gè)例子,大家可能知道我們有一個(gè)分工協(xié)作的在線平臺(tái),叫 Omniverse。
首先,它是一個(gè)多人實(shí)時(shí)在線分工協(xié)作的數(shù)字資產(chǎn)管理制作的工作流平臺(tái),采用了皮克斯開(kāi)發(fā)的通用場(chǎng)景描述(USD)技術(shù)。這一平臺(tái),能夠連接各類(lèi)主流的 SV 數(shù)字資源,用戶可以實(shí)現(xiàn)云原生的實(shí)時(shí)協(xié)作,進(jìn)行所見(jiàn)即所得的實(shí)時(shí)編輯。
例如,在拍攝時(shí)使用綠幕,過(guò)去綠幕效果需在后期添加,而現(xiàn)在借助 Omniverse 平臺(tái),導(dǎo)演可以在監(jiān)視器上實(shí)時(shí)看到完成后的場(chǎng)景與演員表演的結(jié)合效果。這得益于 USD 技術(shù),數(shù)字資產(chǎn)能夠?qū)崟r(shí)疊加,幫助導(dǎo)演即時(shí)發(fā)現(xiàn)動(dòng)作不匹配、穿幫等問(wèn)題,并進(jìn)行實(shí)時(shí)調(diào)整和特效處理,提升拍攝效率和質(zhì)量。
還有我們繞不開(kāi)的降本增效問(wèn)題。以往拍攝大場(chǎng)景如海上日出或雪景,需實(shí)際前往地點(diǎn),受天氣等因素影響大,成本高昂,F(xiàn)在有了 Omniverse 這個(gè)平臺(tái),輸入簡(jiǎn)單指令就可以生成高質(zhì)量的圖像或視頻。
平臺(tái)還能創(chuàng)建獨(dú)特且多樣化的數(shù)字角色,支持真人驅(qū)動(dòng)的數(shù)字人與虛擬環(huán)境互動(dòng),簡(jiǎn)化了動(dòng)作捕捉過(guò)程,減少了所需的傳感器數(shù)量。
Omniverse 里面有很多組件,比如用于創(chuàng)建數(shù)字人的 Machinima 和云原生數(shù)字人引擎 ACE。其中,Audio2Face 技術(shù)可通過(guò)分析語(yǔ)音語(yǔ)調(diào)和情緒,自動(dòng)匹配至數(shù)字人面部,實(shí)現(xiàn)逼真的表情。這些技術(shù)已在 Omniverse 中商用,受到廣泛歡迎。國(guó)內(nèi)也有許多合作伙伴進(jìn)行了二次開(kāi)發(fā),取得了顯著成果。
《晚點(diǎn)聊》:在 NVIDIA 落地的技術(shù)應(yīng)用中,還有別的例子可以講講嗎?
施澄秋:大家都知道,SIGGRAPH 是計(jì)算機(jī)圖形學(xué)最頂尖的業(yè)界會(huì)議,NVIDIA 每年都帶著很多論文參加,幾乎每年都能拿到最佳論文。其實(shí)這個(gè)是業(yè)界的一個(gè)風(fēng)向標(biāo),這些論文看似是非常早期的研究的方向,幾年之后它都會(huì)商業(yè)成品落地。
比如今天我們提到的 stable diffusion、AI 文生圖、圖生圖,都來(lái)源于生成式對(duì)抗網(wǎng)絡(luò)(GAN) 。八年前就已經(jīng)有這個(gè)概念了;再比如,NVIDIA 兩三年前發(fā)布的基于 NeRF 技術(shù)的應(yīng)用,是基于神經(jīng)圖形學(xué)的一個(gè)研究方向,今天已經(jīng)可以看到各式各樣的落地成果。通過(guò)這個(gè)技術(shù),用戶拍攝幾張場(chǎng)景照片,就快速生成高質(zhì)量的 3D 模型。在媒體和娛樂(lè)產(chǎn)業(yè)中,NeRF 可以用于電影制作中的場(chǎng)景采集和重建,減少實(shí)地拍攝的需求,這是一個(gè)很有吸引力的、降本增效的方式。
其實(shí),我們?nèi)祟?lèi)每一次科技的巨大進(jìn)步都來(lái)自我們的“懶”或者“摳”,且并非貶義。這些人類(lèi)與生俱來(lái)的特性,驅(qū)使我們研發(fā)新技術(shù),以更輕松的方式提升生產(chǎn)力,比如發(fā)明機(jī)械代步工具;節(jié)約也很正常,遠(yuǎn)古時(shí)期為了應(yīng)對(duì)天災(zāi)人禍,我們需要儲(chǔ)備物資,后來(lái)發(fā)展為存錢(qián),即成本控制,今天的說(shuō)法是“降本增效”。
在媒體娛樂(lè)產(chǎn)業(yè),過(guò)去投資充足,現(xiàn)在大家更希望用同樣的成本制作更高質(zhì)量的作品,或者增加產(chǎn)量,小成本制作也希望有高質(zhì)量的后期和特效。因此,我們利用惰性和節(jié)約的驅(qū)動(dòng)力,不斷拓展更高效的技術(shù),讓 GPU 和 AI 來(lái)幫助創(chuàng)作者們節(jié)約每一幀、每一個(gè)場(chǎng)景的成本。
《晚點(diǎn)聊》:2021 年 NVIDIA 的 GTC 大會(huì)上,黃仁勛穿著皮衣從廚房里端出一個(gè) GPU 的環(huán)節(jié)引起了轟動(dòng),因?yàn)椴糠之?huà)面是數(shù)字人。是用的 Omniverse 的技術(shù)嗎?
施澄秋:是 Omniverse 里面的 ACE 這個(gè)技術(shù)。ACE 就是 Avatar Cloud Engine,基于云原生的數(shù)字人引擎。這個(gè)是 Omniverse 里重要的組件。
我們掃描了黃仁勛先生,生成他的 1:1 數(shù)字孿生模型;通過(guò) Audio2Face 技術(shù),將講話內(nèi)容實(shí)時(shí)映射到數(shù)字人的臉上,實(shí)現(xiàn)表情的匹配。背景則使用虛擬拍攝技術(shù),將 3D 背景與數(shù)字人疊加在一起。
《晚點(diǎn)聊》:從 ACE 到 NeRF,ACE 的 AI 程度較低,因?yàn)樾枰暾膾呙。?NeRF 只需幾張照片就能生成 3D 模型,AI 程度更高,成本更低,對(duì)嗎?
施澄秋:這個(gè)就是所謂的 2D 生 3D 和真正的 3D 掃描、3D 建模的不同,實(shí)現(xiàn)的方式不太一樣,當(dāng)然成本也不同。今天無(wú)論是 CG 也好,電腦的 AI 也好,其實(shí)是一個(gè)百家爭(zhēng)鳴、百花齊放的場(chǎng)景。我們說(shuō)今天是人工智能發(fā)展的原點(diǎn),是新紀(jì)元的突破點(diǎn),我們也樂(lè)意于見(jiàn)到這個(gè)市場(chǎng)蓬勃發(fā)展,畢竟 NVIDIA 做 GPU,是一個(gè)賣(mài)“鏟子”的公司,大家把這個(gè)鏟子拿出來(lái),可以各顯神通。
《晚點(diǎn)聊》:國(guó)內(nèi)今年也出了很多這種產(chǎn)品,像生數(shù)的,字節(jié)最近也出了,快手的 Kling 可靈,還有 MiniMax 的海螺,這些你們有試嗎?還有愛(ài)詩(shī)的 pixverse。
尹興良:今年國(guó)內(nèi)很多視頻生成的產(chǎn)品,比如生數(shù)的 Vidu、快手的 Kling、MiniMax 的海螺、愛(ài)詩(shī)的 pixverse、字節(jié)的即夢(mèng) AI 等,我們都試過(guò)。但產(chǎn)業(yè)里需要解決的問(wèn)題很多,比如可控性,也就是抽卡的概率和包括渲染速度。產(chǎn)品要達(dá)到產(chǎn)業(yè)級(jí)別,時(shí)間成本和金錢(qián)成本必須低于傳統(tǒng)方式,還得是數(shù)量級(jí)別的降低。
《晚點(diǎn)聊》:國(guó)內(nèi)的公司會(huì)來(lái)主動(dòng)接洽合作嗎?
尹興良:是的。我們平臺(tái)上視頻創(chuàng)作者的客戶基本上都是我們的用戶。這些公司希望通過(guò)平臺(tái)把產(chǎn)品推向產(chǎn)業(yè)從業(yè)者。我們還探討共建模型,做素材訓(xùn)練、模型訓(xùn)練等合作。
《晚點(diǎn)聊》:從 Searching 你的角度看,AI 熱潮之后,有哪些下游的 ISV(獨(dú)立軟件供應(yīng)商)發(fā)展得比較好,或者有新的成長(zhǎng)?
施澄秋: Ethan 講的沒(méi)錯(cuò),大家對(duì)錯(cuò)誤的容忍度低,因此都非常謹(jǐn)慎。目前,圖片生成領(lǐng)域,如 Midjourney 和 Stable Diffusion 已經(jīng)商業(yè)化成熟,但像 Sora 這樣的新技術(shù)的商用前景尚不確定,要等產(chǎn)業(yè)鏈條發(fā)展成熟。
下游 ISV 中,利用 GPU 或算力最常見(jiàn)的應(yīng)用是渲染器。國(guó)內(nèi)的 D5 渲染器做得非常好,已經(jīng)與大部分主流 ISV 打通,被廣泛應(yīng)用于個(gè)人和專(zhuān)業(yè)用戶。
《晚點(diǎn)聊》:渲染器就是一個(gè)軟件嗎?
施澄秋:舉個(gè)簡(jiǎn)單的例子,假設(shè)我們?cè)阡浿埔欢我曨l,背景比較雜亂。以前,如果想把背景去掉,只保留人物,需要使用 Photoshop 等軟件,一幀一幀地用鼠標(biāo)畫(huà)線,把人物摳出來(lái)。這個(gè)過(guò)程非常耗時(shí),需要一個(gè)熟練使用這些軟件的人,確保每一幀中的人物都被正確摳出。
現(xiàn)在,有了 GPU 算力和人工智能的渲染器,用戶只需在人物臉上輕輕一點(diǎn),渲染器就能自動(dòng)識(shí)別并摳出人物,后續(xù)幀中的人物也會(huì)自動(dòng)被摳出。前端設(shè)備可以非常輕便,如手機(jī)或平板,因?yàn)閷?shí)際的處理工作是由后臺(tái)的 GPU 完成的。這種模式類(lèi)似于 SaaS(軟件即服務(wù))或 PaaS(平臺(tái)即服務(wù)),后臺(tái)平臺(tái)(如 NVIDIA Omniverse)負(fù)責(zé)復(fù)雜的計(jì)算任務(wù),前端設(shè)備只需要一個(gè)輕量級(jí)的界面。這樣一來(lái),個(gè)人創(chuàng)作者、UP 主、YouTuber 等用戶無(wú)需專(zhuān)業(yè)知識(shí),用輕量設(shè)備也能輕松完成高質(zhì)量的視頻編輯任務(wù)。
NVIDIA 的 Omniverse 平臺(tái),正是為影視傳媒行業(yè)提供的專(zhuān)業(yè)生產(chǎn)力工具,專(zhuān)門(mén)執(zhí)行這些任務(wù)。
《晚點(diǎn)聊》:視頻會(huì)議的軟件,比如說(shuō) zoom 或者騰訊會(huì)議都可以選背景,是這個(gè)技術(shù)嗎?
施澄秋:NVIDIA 也有一個(gè)專(zhuān)門(mén)的軟件叫 Maxine ,是一個(gè)我們的 SDK(軟件開(kāi)發(fā)工具包)。舉個(gè)例子,我跟你講話時(shí)眼神會(huì)飄,因?yàn)槲乙粫?huì)兒看手機(jī),一會(huì)兒看平板,一會(huì)兒看話題要點(diǎn),這對(duì)參會(huì)者來(lái)說(shuō)體驗(yàn)不好。但用 NVIDIA 的技術(shù),可以保持我的眼神聚焦,無(wú)論我眼睛看哪兒,你都會(huì)感覺(jué)我在直視你,眼神一點(diǎn)也不飄。
還有一個(gè)重要應(yīng)用,體現(xiàn)在節(jié)約流量方面,可以提高視頻質(zhì)量和會(huì)議容量。我們今天做視頻軟件和視頻會(huì)議很耗流量。雖然現(xiàn)在大家都用 5G,但在網(wǎng)絡(luò)不好的情況下,比如野外考察、實(shí)時(shí)開(kāi)荒或無(wú)人機(jī)拍攝等場(chǎng)景,特別是在直播應(yīng)用中,依然會(huì)遇到問(wèn)題。
比如在山火現(xiàn)場(chǎng)做直播連線,NVIDIA 提出了一種高效方案:首先為節(jié)目主持人創(chuàng)建高精度的數(shù)字人模型,主持人可以站在山火現(xiàn)場(chǎng),現(xiàn)場(chǎng)通過(guò)衛(wèi)星車(chē)與觀眾連線;同時(shí),無(wú)人機(jī)航拍捕捉的山火全景作為 B-roll。最終,用生成式 AI 的方式疊加起來(lái),生成高質(zhì)量的直播內(nèi)容。
這么大的數(shù)據(jù)傳輸量,對(duì)于現(xiàn)場(chǎng)的網(wǎng)絡(luò)條件是有挑戰(zhàn)的。NVIDIA 提出的解決方案是:前端只傳輸數(shù)字人的面部表情坐標(biāo),如嘴部和臉部的幾個(gè)關(guān)鍵點(diǎn)。這些坐標(biāo)數(shù)據(jù)量很小,對(duì)帶寬要求低。坐標(biāo)數(shù)據(jù)傳送到后端的云服務(wù)器上,利用云服務(wù)器的強(qiáng)大算力和網(wǎng)絡(luò)條件,生成逼真的數(shù)字人,實(shí)現(xiàn)高質(zhì)量的直播效果。
回到我們視頻會(huì)議的場(chǎng)景,我們每次 GTC 視頻會(huì)議,在線的可能是幾百個(gè)人、甚至上千人的視頻直播會(huì)議。全球的媒體、分析師、專(zhuān)家,包括我們的高層都在一個(gè)視頻會(huì)議的直播房間里面,如果使用 NVIDIA 一些相關(guān)的 SDK 和一些中間件,識(shí)別并傳送的只是你畫(huà)面的一些坐標(biāo)和你的語(yǔ)音,然后自動(dòng)投射到你的面部上,觀看側(cè)用戶的感官是非常好的,同時(shí)又非常節(jié)約帶寬。
這樣的技術(shù),能夠在同樣的成本和同樣的網(wǎng)絡(luò)開(kāi)銷(xiāo)下,實(shí)現(xiàn)更多的容量的接入,并且已經(jīng)在商用了。
《晚點(diǎn)聊》:NVIDIA 的員工數(shù)量并不算多,是如何敏感地獲取市場(chǎng)信息并決定研發(fā)方向的?
施澄秋:NVIDIA 與眾多 ISV(獨(dú)立軟件供應(yīng)商)及商用生產(chǎn)力工具開(kāi)發(fā)者保持著緊密合作。另外,我們內(nèi)部設(shè)有開(kāi)發(fā)者關(guān)系和開(kāi)發(fā)者技術(shù)兩個(gè)團(tuán)隊(duì),他們不直接銷(xiāo)售產(chǎn)品,而是構(gòu)建橋梁,讓所有的開(kāi)發(fā)者知道 NVIDIA 開(kāi)發(fā)了什么產(chǎn)品,有什么技術(shù)可以讓他們能夠提升效率。同時(shí)又讓我們內(nèi)部的研發(fā)人員和工程師知道,所有的開(kāi)發(fā)人員他需要什么樣的產(chǎn)品,需要什么樣軟硬件的堆疊,需要什么樣的技術(shù),可以幫助我們實(shí)時(shí)獲得市場(chǎng)上最敏銳的前端用戶需求和資訊。這個(gè)橋梁讓我們可以保持我們產(chǎn)品的領(lǐng)先力,保持我們對(duì)業(yè)界的敏感度。
AI 不能改變的:“內(nèi)心的想法是一切的根源”
《晚點(diǎn)聊》:每一次新技術(shù)來(lái)臨,都會(huì)討論技術(shù)與創(chuàng)作的關(guān)系。生成式 AI 產(chǎn)生之后,大家也會(huì)去想它會(huì)怎么改變創(chuàng)作。有一種觀點(diǎn)是覺(jué)得 AI 可能只能生成比較平庸的東西。Ethan 怎么看?
尹興良:AI 的魅力在于降低創(chuàng)作門(mén)檻,激發(fā)普通人的創(chuàng)作能力。過(guò)去,創(chuàng)作機(jī)會(huì)主要集中在電視臺(tái),我們這個(gè)時(shí)代,則轉(zhuǎn)移到了博主和網(wǎng)絡(luò)電影導(dǎo)演等非傳統(tǒng)電影行業(yè)的人士。隨著新技術(shù)的出現(xiàn),他們有了拍長(zhǎng)片的機(jī)會(huì),創(chuàng)造力就涌現(xiàn)出來(lái)。
《晚點(diǎn)聊》:這個(gè)現(xiàn)象在 AI 出現(xiàn)之前也在發(fā)生,對(duì)不對(duì)?比如肖央、大鵬這樣的短片創(chuàng)作者,現(xiàn)在做大電影票房也不錯(cuò)。
尹興良:是的。新片場(chǎng)創(chuàng)業(yè)這么多年,我們就看到了我們平臺(tái)上很多過(guò)去拍短片的創(chuàng)作者,都一步一步走上大銀幕。拍了幾十億票房的影片,現(xiàn)在我們這個(gè)社區(qū)領(lǐng)先創(chuàng)作者已經(jīng)有三個(gè)金像獎(jiǎng),兩個(gè)金馬獎(jiǎng)了。我覺(jué)得 AI 在未來(lái)會(huì)加速提升很多人的創(chuàng)作能力。
施澄秋:過(guò)去很多專(zhuān)業(yè)的場(chǎng)景和畫(huà)面,高度依賴專(zhuān)業(yè)技術(shù)人員,而且當(dāng)時(shí)的 AI 生成內(nèi)容非常粗糙。隨著 AI 技術(shù)的迭代和發(fā)展,電腦生成的內(nèi)容變得越來(lái)越逼真,個(gè)人創(chuàng)作者夠以較低的成本和較快的速度將創(chuàng)意變?yōu)楝F(xiàn)實(shí),準(zhǔn)確表達(dá)內(nèi)心的想法,創(chuàng)造出實(shí)實(shí)在在、拿得出手的作品。
NVIDIA 在過(guò)去做了很多類(lèi)似的引導(dǎo)工作,例如在中國(guó)通過(guò) Omniverse 平臺(tái)舉辦創(chuàng)作者競(jìng)賽。創(chuàng)作者在 Omniverse 平臺(tái)就可以渲染出很復(fù)雜的光影效果,同樣對(duì)設(shè)備的要求極低,甚至一名在校學(xué)生用個(gè)人消費(fèi)級(jí)的筆記本電腦就可以實(shí)現(xiàn)。在這個(gè)比賽里,可以看到很多個(gè)人創(chuàng)作者美輪美奐的作品。
《晚點(diǎn)聊》:聊到這個(gè)技術(shù)對(duì)創(chuàng)作的一些塑造,大家也會(huì)去討論風(fēng)險(xiǎn)。比如行業(yè)里有些工作可能變成機(jī)器來(lái)做,這是最直接的。那再往下, AI 元素加入后,藝術(shù)創(chuàng)作的性質(zhì)也會(huì)變化,還有創(chuàng)意歸屬的問(wèn)題等等。
NVIDIA 是行業(yè)里前沿的公司,你們可能也做工作,去幫助升級(jí)媒體娛樂(lè)產(chǎn)業(yè)的同時(shí),更好地去發(fā)揮 AI 技術(shù)好的一面?梢苑窒硪恍┳龇▎幔
施澄秋:所有的數(shù)字資產(chǎn)都要設(shè)置數(shù)字圍欄,保證信息安全。比如增強(qiáng)檢索生成(RAG) 這個(gè)部分或大型模型,我們會(huì)圈一個(gè)數(shù)字圍欄來(lái)做數(shù)字防護(hù),所有的人工智能創(chuàng)作要在這個(gè)圍欄范圍內(nèi),防止它們超出預(yù)設(shè)界限,如違反傳統(tǒng)道德觀念或泄露敏感信息等。
我們要讓 AI 在我們所需的特定領(lǐng)域內(nèi)進(jìn)行創(chuàng)作。例如,如果今天進(jìn)行的是中國(guó)元素、國(guó)風(fēng)的藝術(shù)創(chuàng)作,我們不希望 AI 創(chuàng)作受到西方美學(xué)或西方作品的影響。這樣,我們就會(huì)為 AI 設(shè)定一個(gè)數(shù)字圍欄。在整個(gè)創(chuàng)作流程中,無(wú)論是前期的數(shù)據(jù)喂料,還是后期的提示詞輸入,都是非常講究的。
目前 AI 已經(jīng)發(fā)展成為一個(gè)非常系統(tǒng)化和科學(xué)化的工程。以前在大學(xué)里,大家可能學(xué)的是電氣工程(EE)或者計(jì)算機(jī)科學(xué)(CS)。現(xiàn)在許多大學(xué)已經(jīng)開(kāi)始設(shè)立專(zhuān)門(mén)的“Prompt Engineering”專(zhuān)業(yè),即提示工程。這意味著,你提供的提示質(zhì)量直接影響 AI 生成的內(nèi)容質(zhì)量,這是一個(gè)非?茖W(xué)化和系統(tǒng)化的過(guò)程。
AI 的發(fā)展催生了許多新興行業(yè)和新的工作崗位,這些崗位需要人類(lèi)來(lái)更好地監(jiān)督和管理 AI。實(shí)際上,科技的發(fā)展與人類(lèi)的進(jìn)步是相輔相成、缺一不可的。
《晚點(diǎn)聊》:普通人如果有這種創(chuàng)作的想法,可以從什么方面去入手,你們有什么建議?
尹興良:創(chuàng)作熱情最重要。我們社區(qū)的 slogan 是“用作品打動(dòng)世界”,它激勵(lì)了很多創(chuàng)作人。很多用戶給我們反饋,就是因?yàn)檫@句話加入這個(gè)行業(yè)的。
第二件事情就是得多看。AI 工具幫我們降低了創(chuàng)作門(mén)檻。但更核心的還是你自己的經(jīng)歷、見(jiàn)識(shí)、認(rèn)知組成了你內(nèi)心深處想法的本源。在這個(gè)基礎(chǔ)上會(huì)有 AI 工具去幫你實(shí)現(xiàn)想法。但首先要心懷熱情,有想表達(dá)的東西。
施澄秋: 我覺(jué)得 Ethan 說(shuō)得非常好,我們?nèi)祟?lèi)的情感是 AI 替換不了的。AI 可能能打動(dòng)我們,但是 AI 不會(huì)被打動(dòng)。很多情況下,我們自己的需求、真正打動(dòng)我們內(nèi)心的東西,才能夠?qū)崒?shí)在在推動(dòng)這個(gè)行業(yè)的變革和科技的發(fā)展。
在過(guò)去,我們的需求可能受制于科技和生產(chǎn)力未能實(shí)現(xiàn),但是當(dāng)這些需求被推向前臺(tái)的時(shí)候,科技公司也都會(huì)看到這些需求。于是大家會(huì)朝著這些需求去研發(fā),去投資。最后大家齊心協(xié)力把這個(gè)行業(yè)做得更好、更強(qiáng)大。
對(duì)于個(gè)人用戶而言,我覺(jué)得首先就像 Ethan 講的,你內(nèi)心要有自己的想法和追求。第二,希望中國(guó)的開(kāi)發(fā)者和創(chuàng)業(yè)者能夠把你們的需求表達(dá)出來(lái),讓所有的科技公司都聽(tīng)得到你的需求,大家一起為這個(gè)行業(yè)共同營(yíng)造一個(gè)更美好的未來(lái)。
歡迎前往小宇宙APP搜索“晚點(diǎn)聊”,選擇第89集,即可收聽(tīng)本期完整版播客。
登場(chǎng)人物:
施澄秋 Searching,NVIDIA 中國(guó)區(qū)高級(jí)技術(shù)市場(chǎng)經(jīng)理
尹興良 Ethan,新片場(chǎng)的董事長(zhǎng)兼 CEO
程曼祺,《晚點(diǎn) LatePost》科技報(bào)道負(fù)責(zé)人(即刻:曼祺_火柴Q)
附錄:播客里提及的一些技術(shù)與產(chǎn)品術(shù)語(yǔ)
M&E:Media and Entertainment 的縮寫(xiě),指的是媒體與娛樂(lè)產(chǎn)業(yè)。
特效回插:在影視劇的生產(chǎn)鏈條中,特效鏡頭常常由協(xié)力公司單獨(dú)制作,后期制作階段會(huì)將這些特效鏡頭插入到影片中相應(yīng)的位置。
CG:計(jì)算機(jī)圖形學(xué)(Computer Graphics,簡(jiǎn)稱(chēng)CG)是一種使用數(shù)學(xué)算法將二維或三維圖形轉(zhuǎn)化為計(jì)算機(jī)顯示器的柵格形式的科學(xué)。
Diffusion模型:這是一種生成式模型,主要用于生成高質(zhì)量的圖像、文本和其他類(lèi)型的數(shù)據(jù)。
B-roll:是指在影視制作中用來(lái)補(bǔ)充主鏡頭(A-roll)的輔助視頻或圖像素材。通常,A-roll包含主要的敘事內(nèi)容,比如采訪、對(duì)話等直接涉及故事主線的畫(huà)面。而B(niǎo)-roll則是用來(lái)豐富視覺(jué)效果、提供背景信息或增強(qiáng)情感氛圍的額外鏡頭。
NVIDIA Omniverse :是一個(gè)提供 API、SDK 和服務(wù)的平臺(tái)。借助此平臺(tái),開(kāi)發(fā)者可以輕松地將通用場(chǎng)景描述 (OpenUSD) 和 RTX 渲染技術(shù)集成到現(xiàn)有軟件工具和仿真工作流中,以構(gòu)建 AI 系統(tǒng)。
NVIDIA ACE:即 Avatar Cloud Engine,是一套可幫助開(kāi)發(fā)者利用生成式 AI 創(chuàng)建栩栩如生的虛擬數(shù)字人物的技術(shù)。
SIGGRAPH:是由ACM SIGGRAPH(美國(guó)計(jì)算機(jī)協(xié)會(huì)計(jì)算機(jī)圖形專(zhuān)業(yè)組)組織的計(jì)算機(jī)圖形學(xué)頂級(jí)年度會(huì)議。
RAG:即檢索增強(qiáng)生成(Retrieval-augmented Generation),簡(jiǎn)稱(chēng)RAG。檢索增強(qiáng)生成是一種使用從外部來(lái)源獲取的事實(shí),來(lái)提高生成式 AI 模型準(zhǔn)確性和可靠性的技術(shù)。