国内揄拍高清国内精品对白,亚洲国产欧美在线一区

用“我的世界”自動(dòng)生成“現(xiàn)實(shí)世界”：英偉達(dá)展示AI腦補(bǔ)新技術(shù)

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2021-04-18 20:40:23 瀏覽：11990次

導(dǎo)讀：機(jī)器之心報(bào)道編輯：澤南 Minecraft 里面自建像素風(fēng)世界不夠過(guò)癮？英偉達(dá)：那就讓 AI 來(lái)腦補(bǔ)一個(gè)真實(shí)的世界。在 4 月 12 日英偉達(dá) GTC 2021 大會(huì)的 Keynote 上，黃仁勛除了展示 Grace 等一系列硬件產(chǎn)品之外，還曾向我們介紹了一種使用神經(jīng)網(wǎng)絡(luò)讓《我的世界...

機(jī)器之心報(bào)道

編輯：澤南

Minecraft 里面自建像素風(fēng)世界不夠過(guò)癮？英偉達(dá)：那就讓 AI 來(lái)腦補(bǔ)一個(gè)真實(shí)的世界。

在 4 月 12 日英偉達(dá) GTC 2021 大會(huì)的 Keynote 上，黃仁勛除了展示 Grace 等一系列硬件產(chǎn)品之外，還曾向我們介紹了一種使用神經(jīng)網(wǎng)絡(luò)讓《我的世界》（Minecraft）像素風(fēng) 3D 畫(huà)面自動(dòng)轉(zhuǎn)換為寫(xiě)實(shí)風(fēng)格精細(xì)畫(huà)面的技術(shù)（GANcraft）。最近，GANcraft 的論文被提交到了 arXiv 上，我們得以了解這項(xiàng)技術(shù)的細(xì)節(jié)。

最引人注意的是，GANcraft 的 AI 是在沒(méi)有現(xiàn)實(shí)世界與 Minecraft 世界之間對(duì)應(yīng)數(shù)據(jù)的情況下，完成學(xué)習(xí)并進(jìn)行渲染的。從演示視頻上看來(lái)，它提升的效果可謂驚人。

此前，英偉達(dá)的 GPU 可以利用 Tensor Core 開(kāi)啟 DLSS（深度學(xué)習(xí)超級(jí)采樣）技術(shù)，讓很多游戲的畫(huà)質(zhì)、幀數(shù)大幅提升。如果 GANcraft 的技術(shù)成熟，我們或許可以期待未來(lái)出現(xiàn)更加強(qiáng)大的 3D 圖像精細(xì)化技術(shù)。

由康奈爾大學(xué)、英偉達(dá)研究人員 Zekun Hao 等人提出的 GANcraft 是一種無(wú)監(jiān)督的神經(jīng)渲染框架，用于生成基于大型 3D 像素塊世界（如在《我的世界》中構(gòu)建的世界）的擬真圖像。其方法是將語(yǔ)義像素塊作為輸入，在每個(gè)塊中都分配一個(gè)標(biāo)簽，例如土、草、樹(shù)、沙或水。算法會(huì)將 3D 世界表示為連續(xù)的體積函數(shù)，并訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型在沒(méi)有對(duì)應(yīng)像素真實(shí)圖像數(shù)據(jù)的情況下，從任意角度渲染與視圖一致的真實(shí)化圖像。除了攝像的視角外，GANcraft 還允許人們控制場(chǎng)景的語(yǔ)義和風(fēng)格。

讓每個(gè)玩家變身場(chǎng)景設(shè)計(jì)師

與以往的圖像超分辨率算法不同，GANcraft 希望解決的是「世界到世界轉(zhuǎn)換問(wèn)題」：給定一個(gè)帶有語(yǔ)義標(biāo)記的方塊世界，如流行游戲《我的世界》中的場(chǎng)景，GANcraft 能夠?qū)⑵滢D(zhuǎn)換為共享相同布局，但偏向真實(shí)感的新世界。人們可以從任意視角渲染新世界，以生成既具有視圖一致性又具有真實(shí)感的圖像和視頻。

GANcraft 技術(shù)大幅簡(jiǎn)化了復(fù)雜場(chǎng)景下的 3D 建模過(guò)程。要在以往，這需要多年的專(zhuān)業(yè)領(lǐng)域知識(shí)，現(xiàn)在每個(gè)《我的世界》玩家都可以成為 3D 藝術(shù)家了。

通常，深度學(xué)習(xí)超分辨率算法需要原有真實(shí)圖像，并在對(duì)應(yīng)的情況下進(jìn)行監(jiān)督訓(xùn)練，但對(duì)于《我的世界》中大量的虛構(gòu)場(chǎng)景來(lái)說(shuō)，這樣的要求顯然不太現(xiàn)實(shí)。在研究中，作者也將 GANcraft 與一些基于 2D 數(shù)據(jù)訓(xùn)練的模型（MUNIT、SPADE）、基于 2D 修補(bǔ)和 3D 變形生成圖像的方法 wc-vid2vid，以及從 3D 一致數(shù)據(jù)集中學(xué)習(xí)并進(jìn)行預(yù)測(cè)的 NeRF-W 進(jìn)行了比較。

相比之下，我們可以看到 im2im 的方法（MUNIT 和 SPADE）無(wú)法實(shí)現(xiàn)視角的一致性，因?yàn)樗鼈儾⒉粚W(xué)習(xí) 3D 結(jié)構(gòu)，且每一幀都是獨(dú)立生成的；wc-vid2vid 可以產(chǎn)生視圖一致的視頻，但是由于塊狀幾何體和訓(xùn)練測(cè)試集差距引起的誤差累積，圖像質(zhì)量會(huì)隨著時(shí)間發(fā)展迅速惡化。NSVF-W 的效果看起來(lái)接近于 GANcraft，但缺少一些精細(xì)度。

在 GANcraft 生成的結(jié)果中，神經(jīng)渲染的使用保證了 3D 視圖的一致性，而模型架構(gòu)和訓(xùn)練方案的創(chuàng)新讓我們實(shí)現(xiàn)了前所未有的真實(shí)感。

如何讓 AI「腦補(bǔ)」出真實(shí)世界

假設(shè)我們已經(jīng)有了一個(gè)合適的體素條件神經(jīng)渲染模型，其能夠表示真實(shí)世界，我們?nèi)匀恍枰环N方法對(duì)其進(jìn)行特殊的訓(xùn)練，使其在沒(méi)有任何真實(shí)原圖的情況下生成圖像。

在沒(méi)有參照?qǐng)D像的情況下，生成對(duì)抗網(wǎng)絡(luò) GAN 已在小規(guī)模、無(wú)限制的神經(jīng)渲染任務(wù)中取得了一些成功。但對(duì)于 GANcraft 的應(yīng)用場(chǎng)景來(lái)說(shuō)，問(wèn)題則更具挑戰(zhàn)性與真實(shí)世界相比，《我的世界》中的像素塊具有完全不同的標(biāo)簽分布。例如，某些場(chǎng)景被雪、沙漠或水完全覆蓋。也有在一個(gè)小區(qū)域內(nèi)跨越多種內(nèi)容的場(chǎng)景。此外，當(dāng)從神經(jīng)渲染模型隨機(jī)采樣視圖時(shí)，我們不可能將采樣的視角分布與互聯(lián)網(wǎng)上可獲取的照片相匹配。

如上圖所示，由于任務(wù)的復(fù)雜性，使用互聯(lián)網(wǎng)上的公開(kāi)照片作為參照進(jìn)行對(duì)抗訓(xùn)練（第一行）會(huì)導(dǎo)致難看的結(jié)果。生產(chǎn)和使用偽真實(shí)情況進(jìn)行訓(xùn)練是 GANcraft 工作的主要貢獻(xiàn)之一，并且可以顯著提高生成效果（第二行）。

生成「?jìng)握鎴D」的方法是使用預(yù)訓(xùn)練的 SPADE 模型從分割蒙版生成真實(shí)感圖像。當(dāng)從方塊世界中采樣分割蒙版時(shí)，偽真圖與從相同視圖生成的圖像共享相同的標(biāo)簽和相機(jī)視角。這不僅減少了標(biāo)簽和視角的不匹配，而且還使我們能夠使用更強(qiáng)的損失函數(shù)（例如 perceptual 和 L2 loss）來(lái)進(jìn)行更快、更穩(wěn)定的訓(xùn)練。

在 GANcraft 中，研究人員結(jié)合了 3D 體積渲染器和 2D 圖像空間渲染器來(lái)表示擬真場(chǎng)景。作者首先定義一個(gè)以體素為邊界的神經(jīng)輻射場(chǎng)：給定一個(gè)方塊世界，為塊的每個(gè)角分配一個(gè)可學(xué)習(xí)的特征向量，并使用三線(xiàn)性插值法在體素內(nèi)的任意位置定義位置代碼。隨后我們就可以使用 MLP 來(lái)隱式定義輻射場(chǎng)，其接收位置數(shù)據(jù)，并用語(yǔ)義標(biāo)簽和共享的風(fēng)格內(nèi)容作為輸入，生成點(diǎn)特征及其體積密度。

這樣，只要再給定視角參數(shù)，我們就可以渲染輻射場(chǎng)以獲得 2D 特征圖了，該特征圖最后通過(guò)卷積神經(jīng)網(wǎng)絡(luò) CNN 轉(zhuǎn)換為圖像。

由于輻射場(chǎng)可以使用更簡(jiǎn)單的 MLP 進(jìn)行建模，因此 GANcraft 的兩階段體系結(jié)構(gòu)可顯著提高圖像質(zhì)量，同時(shí)減少計(jì)算量和內(nèi)存占用量，這是基于隱式體積方法的計(jì)算瓶頸。GANcraft 所提出的體系結(jié)構(gòu)能夠處理非常復(fù)雜的虛擬世界。研究人員表示在實(shí)驗(yàn)中，人們可以使用尺寸為 512×512×256 網(wǎng)格的內(nèi)容，這相當(dāng)于現(xiàn)實(shí)世界中的 65 英畝或 32 個(gè)足球常

最后，天空怎么辦呢？以往基于體素的神經(jīng)渲染方法無(wú)法為距離為「無(wú)限遠(yuǎn)」的天空建模，但天空顯然是擬真圖像的重要部分。在 GANcraft 中，算法使用附加的 MLP 對(duì)天空進(jìn)行建模，MLP 將視角射線(xiàn)方向轉(zhuǎn)換為特征向量，其大小與輻射場(chǎng)中的點(diǎn)特征相同。然后，該特征向量會(huì)用作完全不透明的最終射線(xiàn)樣本，根據(jù)射線(xiàn)的殘留透射率混合到像素特征中。

GANcraft 的生成過(guò)程取決于風(fēng)格圖像。在訓(xùn)練過(guò)程中，我們需要使用擬真圖像作為風(fēng)格參考，這就是生成的圖像與其對(duì)應(yīng)的偽實(shí)況之間對(duì)于重建損失不一致的原因。在評(píng)估期間，我們可以通過(guò)為 GANcraft 提供不同風(fēng)格的圖像來(lái)控制輸出樣式。

GANcraft 的介紹視頻：

這就是游戲世界的未來(lái)嗎？或許在《我的世界》未來(lái)的版本中，我們就能看到這項(xiàng)新技術(shù)的應(yīng)用。

論文《 GANcraft: Unsupervised 3D Neural Rendering of Minecraft Worlds 》

論文鏈接：https://arxiv.org/abs/2104.07659

參考內(nèi)容：

https://nvlabs.github.io/GANcraft/

建新見(jiàn)智 2021亞馬遜云科技 AI在線(xiàn)大會(huì)

4月22日 14:00 - 18:00

為什么有那么多的機(jī)器學(xué)習(xí)負(fù)載選擇亞馬遜云科技？大規(guī)模機(jī)器學(xué)習(xí)、企業(yè)數(shù)字化轉(zhuǎn)型如何實(shí)現(xiàn)？

《建新見(jiàn)智2021 亞馬遜云科技 AI 在線(xiàn)大會(huì)》由亞馬遜云科技全球人工智能技術(shù)副總裁及杰出科學(xué)家 Alex Smola、亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理顧凡領(lǐng)銜，40多位重磅嘉賓將在主題演講及6大分會(huì)場(chǎng)上為你深度剖析亞馬遜云科技創(chuàng)新文化，揭秘 AI/ML 如何幫助企業(yè)加速創(chuàng)新。

分會(huì)場(chǎng)一：亞馬遜機(jī)器學(xué)習(xí)實(shí)踐揭秘

分會(huì)場(chǎng)二：人工智能賦能企業(yè)數(shù)字化轉(zhuǎn)型

分會(huì)場(chǎng)三：大規(guī)模機(jī)器學(xué)習(xí)實(shí)現(xiàn)之道

分會(huì)場(chǎng)四：AI 服務(wù)助力互聯(lián)網(wǎng)快速創(chuàng)新

分會(huì)場(chǎng)五：開(kāi)源開(kāi)放與前沿趨

分會(huì)場(chǎng)六：合作共贏的智能生態(tài)

6大分會(huì)場(chǎng)，你對(duì)哪個(gè)主題更感興趣？

用“我的世界”自動(dòng)生成“現(xiàn)實(shí)世界”：英偉達(dá)展示AI腦補(bǔ)新技術(shù)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2021-04-18 20:40:23 瀏覽：11990次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線(xiàn)客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明