展會(huì)信息港展會(huì)大全

用“我的世界”自動(dòng)生成“現(xiàn)實(shí)世界”:英偉達(dá)展示AI腦補(bǔ)新技術(shù)
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2021-04-18 20:40:23   瀏覽:11990次  

導(dǎo)讀:機(jī)器之心報(bào)道 編輯:澤南 Minecraft 里面自建像素風(fēng)世界不夠過(guò)癮?英偉達(dá):那就讓 AI 來(lái)腦補(bǔ)一個(gè)真實(shí)的世界。 在 4 月 12 日英偉達(dá) GTC 2021 大會(huì)的 Keynote 上,黃仁勛除了展示 Grace 等一系列硬件產(chǎn)品之外,還曾向我們介紹了一種使用神經(jīng)網(wǎng)絡(luò)讓《我的世界...

機(jī)器之心報(bào)道

編輯:澤南

Minecraft 里面自建像素風(fēng)世界不夠過(guò)癮?英偉達(dá):那就讓 AI 來(lái)腦補(bǔ)一個(gè)真實(shí)的世界。

在 4 月 12 日英偉達(dá) GTC 2021 大會(huì)的 Keynote 上,黃仁勛除了展示 Grace 等一系列硬件產(chǎn)品之外,還曾向我們介紹了一種使用神經(jīng)網(wǎng)絡(luò)讓《我的世界》(Minecraft)像素風(fēng) 3D 畫(huà)面自動(dòng)轉(zhuǎn)換為寫(xiě)實(shí)風(fēng)格精細(xì)畫(huà)面的技術(shù)(GANcraft)。最近,GANcraft 的論文被提交到了 arXiv 上,我們得以了解這項(xiàng)技術(shù)的細(xì)節(jié)。

最引人注意的是,GANcraft 的 AI 是在沒(méi)有現(xiàn)實(shí)世界與 Minecraft 世界之間對(duì)應(yīng)數(shù)據(jù)的情況下,完成學(xué)習(xí)并進(jìn)行渲染的。從演示視頻上看來(lái),它提升的效果可謂驚人。

此前,英偉達(dá)的 GPU 可以利用 Tensor Core 開(kāi)啟 DLSS(深度學(xué)習(xí)超級(jí)采樣)技術(shù),讓很多游戲的畫(huà)質(zhì)、幀數(shù)大幅提升。如果 GANcraft 的技術(shù)成熟,我們或許可以期待未來(lái)出現(xiàn)更加強(qiáng)大的 3D 圖像精細(xì)化技術(shù)。

由康奈爾大學(xué)、英偉達(dá)研究人員 Zekun Hao 等人提出的 GANcraft 是一種無(wú)監(jiān)督的神經(jīng)渲染框架,用于生成基于大型 3D 像素塊世界(如在《我的世界》中構(gòu)建的世界)的擬真圖像。其方法是將語(yǔ)義像素塊作為輸入,在每個(gè)塊中都分配一個(gè)標(biāo)簽,例如土、草、樹(shù)、沙或水。算法會(huì)將 3D 世界表示為連續(xù)的體積函數(shù),并訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型在沒(méi)有對(duì)應(yīng)像素真實(shí)圖像數(shù)據(jù)的情況下,從任意角度渲染與視圖一致的真實(shí)化圖像。除了攝像的視角外,GANcraft 還允許人們控制場(chǎng)景的語(yǔ)義和風(fēng)格。

讓每個(gè)玩家變身場(chǎng)景設(shè)計(jì)師

與以往的圖像超分辨率算法不同,GANcraft 希望解決的是「世界到世界轉(zhuǎn)換問(wèn)題」:給定一個(gè)帶有語(yǔ)義標(biāo)記的方塊世界,如流行游戲《我的世界》中的場(chǎng)景,GANcraft 能夠?qū)⑵滢D(zhuǎn)換為共享相同布局,但偏向真實(shí)感的新世界。人們可以從任意視角渲染新世界,以生成既具有視圖一致性又具有真實(shí)感的圖像和視頻。

GANcraft 技術(shù)大幅簡(jiǎn)化了復(fù)雜場(chǎng)景下的 3D 建模過(guò)程。要在以往,這需要多年的專(zhuān)業(yè)領(lǐng)域知識(shí),現(xiàn)在每個(gè)《我的世界》玩家都可以成為 3D 藝術(shù)家了。

通常,深度學(xué)習(xí)超分辨率算法需要原有真實(shí)圖像,并在對(duì)應(yīng)的情況下進(jìn)行監(jiān)督訓(xùn)練,但對(duì)于《我的世界》中大量的虛構(gòu)場(chǎng)景來(lái)說(shuō),這樣的要求顯然不太現(xiàn)實(shí)。在研究中,作者也將 GANcraft 與一些基于 2D 數(shù)據(jù)訓(xùn)練的模型(MUNIT、SPADE)、基于 2D 修補(bǔ)和 3D 變形生成圖像的方法 wc-vid2vid,以及從 3D 一致數(shù)據(jù)集中學(xué)習(xí)并進(jìn)行預(yù)測(cè)的 NeRF-W 進(jìn)行了比較。

相比之下,我們可以看到 im2im 的方法(MUNIT 和 SPADE)無(wú)法實(shí)現(xiàn)視角的一致性,因?yàn)樗鼈儾⒉粚W(xué)習(xí) 3D 結(jié)構(gòu),且每一幀都是獨(dú)立生成的;wc-vid2vid 可以產(chǎn)生視圖一致的視頻,但是由于塊狀幾何體和訓(xùn)練測(cè)試集差距引起的誤差累積,圖像質(zhì)量會(huì)隨著時(shí)間發(fā)展迅速惡化。NSVF-W 的效果看起來(lái)接近于 GANcraft,但缺少一些精細(xì)度。

在 GANcraft 生成的結(jié)果中,神經(jīng)渲染的使用保證了 3D 視圖的一致性,而模型架構(gòu)和訓(xùn)練方案的創(chuàng)新讓我們實(shí)現(xiàn)了前所未有的真實(shí)感。

如何讓 AI「腦補(bǔ)」出真實(shí)世界

假設(shè)我們已經(jīng)有了一個(gè)合適的體素條件神經(jīng)渲染模型,其能夠表示真實(shí)世界,我們?nèi)匀恍枰环N方法對(duì)其進(jìn)行特殊的訓(xùn)練,使其在沒(méi)有任何真實(shí)原圖的情況下生成圖像。

在沒(méi)有參照?qǐng)D像的情況下,生成對(duì)抗網(wǎng)絡(luò) GAN 已在小規(guī)模、無(wú)限制的神經(jīng)渲染任務(wù)中取得了一些成功。但對(duì)于 GANcraft 的應(yīng)用場(chǎng)景來(lái)說(shuō),問(wèn)題則更具挑戰(zhàn)性與真實(shí)世界相比,《我的世界》中的像素塊具有完全不同的標(biāo)簽分布。例如,某些場(chǎng)景被雪、沙漠或水完全覆蓋。也有在一個(gè)小區(qū)域內(nèi)跨越多種內(nèi)容的場(chǎng)景。此外,當(dāng)從神經(jīng)渲染模型隨機(jī)采樣視圖時(shí),我們不可能將采樣的視角分布與互聯(lián)網(wǎng)上可獲取的照片相匹配。

如上圖所示,由于任務(wù)的復(fù)雜性,使用互聯(lián)網(wǎng)上的公開(kāi)照片作為參照進(jìn)行對(duì)抗訓(xùn)練(第一行)會(huì)導(dǎo)致難看的結(jié)果。生產(chǎn)和使用偽真實(shí)情況進(jìn)行訓(xùn)練是 GANcraft 工作的主要貢獻(xiàn)之一,并且可以顯著提高生成效果(第二行)。

生成「?jìng)握鎴D」的方法是使用預(yù)訓(xùn)練的 SPADE 模型從分割蒙版生成真實(shí)感圖像。當(dāng)從方塊世界中采樣分割蒙版時(shí),偽真圖與從相同視圖生成的圖像共享相同的標(biāo)簽和相機(jī)視角。這不僅減少了標(biāo)簽和視角的不匹配,而且還使我們能夠使用更強(qiáng)的損失函數(shù)(例如 perceptual 和 L2 loss)來(lái)進(jìn)行更快、更穩(wěn)定的訓(xùn)練。

在 GANcraft 中,研究人員結(jié)合了 3D 體積渲染器和 2D 圖像空間渲染器來(lái)表示擬真場(chǎng)景。作者首先定義一個(gè)以體素為邊界的神經(jīng)輻射場(chǎng):給定一個(gè)方塊世界,為塊的每個(gè)角分配一個(gè)可學(xué)習(xí)的特征向量,并使用三線(xiàn)性插值法在體素內(nèi)的任意位置定義位置代碼。隨后我們就可以使用 MLP 來(lái)隱式定義輻射場(chǎng),其接收位置數(shù)據(jù),并用語(yǔ)義標(biāo)簽和共享的風(fēng)格內(nèi)容作為輸入,生成點(diǎn)特征及其體積密度。

這樣,只要再給定視角參數(shù),我們就可以渲染輻射場(chǎng)以獲得 2D 特征圖了,該特征圖最后通過(guò)卷積神經(jīng)網(wǎng)絡(luò) CNN 轉(zhuǎn)換為圖像。

由于輻射場(chǎng)可以使用更簡(jiǎn)單的 MLP 進(jìn)行建模,因此 GANcraft 的兩階段體系結(jié)構(gòu)可顯著提高圖像質(zhì)量,同時(shí)減少計(jì)算量和內(nèi)存占用量,這是基于隱式體積方法的計(jì)算瓶頸。GANcraft 所提出的體系結(jié)構(gòu)能夠處理非常復(fù)雜的虛擬世界。研究人員表示在實(shí)驗(yàn)中,人們可以使用尺寸為 512×512×256 網(wǎng)格的內(nèi)容,這相當(dāng)于現(xiàn)實(shí)世界中的 65 英畝或 32 個(gè)足球常

最后,天空怎么辦呢?以往基于體素的神經(jīng)渲染方法無(wú)法為距離為「無(wú)限遠(yuǎn)」的天空建模,但天空顯然是擬真圖像的重要部分。在 GANcraft 中,算法使用附加的 MLP 對(duì)天空進(jìn)行建模,MLP 將視角射線(xiàn)方向轉(zhuǎn)換為特征向量,其大小與輻射場(chǎng)中的點(diǎn)特征相同。然后,該特征向量會(huì)用作完全不透明的最終射線(xiàn)樣本,根據(jù)射線(xiàn)的殘留透射率混合到像素特征中。

GANcraft 的生成過(guò)程取決于風(fēng)格圖像。在訓(xùn)練過(guò)程中,我們需要使用擬真圖像作為風(fēng)格參考,這就是生成的圖像與其對(duì)應(yīng)的偽實(shí)況之間對(duì)于重建損失不一致的原因。在評(píng)估期間,我們可以通過(guò)為 GANcraft 提供不同風(fēng)格的圖像來(lái)控制輸出樣式。

GANcraft 的介紹視頻:

這就是游戲世界的未來(lái)嗎?或許在《我的世界》未來(lái)的版本中,我們就能看到這項(xiàng)新技術(shù)的應(yīng)用。

論文《 GANcraft: Unsupervised 3D Neural Rendering of Minecraft Worlds 》

論文鏈接:https://arxiv.org/abs/2104.07659

參考內(nèi)容:

https://nvlabs.github.io/GANcraft/

建新見(jiàn)智 2021亞馬遜云科技 AI在線(xiàn)大會(huì)

4月22日 14:00 - 18:00

為什么有那么多的機(jī)器學(xué)習(xí)負(fù)載選擇亞馬遜云科技?大規(guī)模機(jī)器學(xué)習(xí)、企業(yè)數(shù)字化轉(zhuǎn)型如何實(shí)現(xiàn)?

《建新 見(jiàn)智2021 亞馬遜云科技 AI 在線(xiàn)大會(huì)》由亞馬遜云科技全球人工智能技術(shù)副總裁及杰出科學(xué)家 Alex Smola、亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理顧凡領(lǐng)銜,40多位重磅嘉賓將在主題演講及6大分會(huì)場(chǎng)上為你深度剖析亞馬遜云科技創(chuàng)新文化,揭秘 AI/ML 如何幫助企業(yè)加速創(chuàng)新。

分會(huì)場(chǎng)一:亞馬遜機(jī)器學(xué)習(xí)實(shí)踐揭秘

分會(huì)場(chǎng)二:人工智能賦能企業(yè)數(shù)字化轉(zhuǎn)型

分會(huì)場(chǎng)三:大規(guī)模機(jī)器學(xué)習(xí)實(shí)現(xiàn)之道

分會(huì)場(chǎng)四:AI 服務(wù)助力互聯(lián)網(wǎng)快速創(chuàng)新

分會(huì)場(chǎng)五:開(kāi)源開(kāi)放與前沿趨

分會(huì)場(chǎng)六:合作共贏的智能生態(tài)

6大分會(huì)場(chǎng),你對(duì)哪個(gè)主題更感興趣?


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港