展會(huì)信息港展會(huì)大全

2020最佳AI論文,都在這里了
來源:互聯(lián)網(wǎng)   發(fā)布日期:2021-01-02 19:43:09   瀏覽:16698次  

導(dǎo)讀:由于全球新冠疫情仍未結(jié)束,今年不少學(xué)術(shù)會(huì)議延期或取消,召開的也大多在線上舉行。盡管2020年發(fā)生了很多事情,研究者們?nèi)匀粸槿斯ぶ悄芗夹g(shù)的進(jìn)步做出了大量重要的貢獻(xiàn)。 位于蒙特利爾的 AI 內(nèi)容創(chuàng)作者 Louis Bouchard (他的 YouTube 賬號(hào)叫 Whats AI) 匯總...

由于全球新冠疫情仍未結(jié)束,今年不少學(xué)術(shù)會(huì)議延期或取消,召開的也大多在線上舉行。盡管2020年發(fā)生了很多事情,研究者們?nèi)匀粸槿斯ぶ悄芗夹g(shù)的進(jìn)步做出了大量重要的貢獻(xiàn)。

位于蒙特利爾的 AI 內(nèi)容創(chuàng)作者 Louis Bouchard (他的 YouTube 賬號(hào)叫 What's AI) 匯總了一份2020年最值得關(guān)注的AI 論文名單(https://github.com/louisfb01/Best_AI_paper_2020 )。除了在相關(guān)領(lǐng)域內(nèi)的各項(xiàng)指標(biāo)上創(chuàng)造了新紀(jì)錄,在應(yīng)用層面帶來了新的思路,這些論文也對(duì)偏見等 AI 道德方面的議題有所探討。

為了讀者的方便,Bouchard 還非常貼心地為入選的每篇論文,都提供了視頻、短文介紹、論文鏈接和代碼地址,幫助大家更快速理解論文的核心內(nèi)容,還能最快速度上手用起來。

但首先,Bouchard 用一條視頻匯總了這些論文的內(nèi)容,還加上了包括 Gary Marcus、李飛飛、Luis Lamb 等 AI 大牛在今年發(fā)表過的對(duì) AI 的展望:

以下是 Bouchard 整理的2020最佳AI論文列表,排名不分先后:

YOLOv4: Optimal Speed and Accuracy of Object Detection

簡介:全稱 You Only Look Once,YOLO 是一個(gè)超快速識(shí)別物體的計(jì)算機(jī)視覺算法,在今年4月已經(jīng)升級(jí)到了第四版,來自作者 Alexey Bochkovsky 等人。

這篇論文最大的進(jìn)步來自于研究者采用的數(shù)據(jù)增強(qiáng)方法,叫做"Mosaic and Self-adversarial training"(馬賽克和自我對(duì)抗訓(xùn)練),使得 YOLOv4 的實(shí)時(shí)物體識(shí)別速度依然驚人,并且這一次在識(shí)別準(zhǔn)確率上也有了非常大的提升。YOLOv4 在很多需要物體識(shí)別的場景都能排上用場,對(duì)于那些需要實(shí)時(shí)、高精度識(shí)別的場景更是十分關(guān)鍵。

論文鏈接:https://arxiv.org/abs/2004.10934

作者撰寫的介紹文章:https://bit.ly/3rM3ubJ

代碼:https://github.com/AlexeyAB/darknet

DeepFaceDrawing: Deep Generation of Face Images from Sketches

這篇論文提出的算法很有意思,正如上圖所示,給它一張隨筆肖像,它就能生成惟妙惟肖的“真”人頭像當(dāng)然,肯定是假的,但看起來足以亂真。

這個(gè) AI 也有很大用處,比如警察辦案查找疑犯,或者各種需要大量“真”人頭像填充的設(shè)計(jì)用途。但同時(shí)值得提及的是,不合理的使用這項(xiàng)技術(shù)可能會(huì)引發(fā)道德問題。

比如,今年就有一些海外媒體曾被爆出,一些評(píng)論員文章的作者其實(shí)都是假的,這些人有偽造的姓名、供職單位和教育經(jīng)歷,再配上一張頭像,創(chuàng)建一個(gè)社交網(wǎng)絡(luò)賬號(hào),迷惑性極強(qiáng)。

論文鏈接:https://bit.ly/37Y54za

What's AI 短文介紹:https://bit.ly/2JtvJdI

代碼:https://github.com/IGLICT/DeepFaceDrawing-Jittor

Learning to Simulate Dynamic Environments with GameGAN

這項(xiàng)研究由英偉達(dá)多倫多AI實(shí)驗(yàn)室和日本游戲大廠萬代南夢宮 *BANDAI NAMCO) 一同開發(fā),技術(shù)來自前者,數(shù)據(jù)來自后者。

簡單來說,僅對(duì)簡單的游戲錄像和玩家輸入進(jìn)行學(xué)習(xí),GameGAN 就能夠模擬出接近真實(shí)游戲的環(huán)境,還不需要游戲引擎和底層代碼。它的底層是在 AI 領(lǐng)域很有名的生成對(duì)抗網(wǎng)絡(luò) (GAN)。

正是因?yàn)樗膶W(xué)習(xí)方式很簡單,任何游戲它都能模擬出來,除了吃豆人這樣的2D游戲,連 DOOM 這種3D游戲都可以。英偉達(dá)指出,這項(xiàng)技術(shù)有助于游戲開發(fā)者為已有的游戲開發(fā)全新的關(guān)卡。

論文鏈接:https://arxiv.org/pdf/2005.12126.pdf

英偉達(dá)論文介紹:https://bit.ly/2WXLg8G

代碼:https://github.com/nv-tlabs/GameGAN_code

PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models

在歐美電影里,你一定見過特工們對(duì)著一個(gè)模糊的監(jiān)控錄像說“增強(qiáng)”,旁邊的技術(shù)員一通操作就真的做到了……這曾經(jīng)是個(gè)經(jīng)典熒幕梗,但隨著 AI 技術(shù)的進(jìn)步,竟然還就真的實(shí)現(xiàn)了。

PULSE 是一個(gè)所謂的“超級(jí)分辨率”算法,可以把一張最低16*16的照片增強(qiáng)到1080p的清晰度。當(dāng)然,出來的照片肯定還是假的,畢竟是計(jì)算計(jì)算出來的,但 PULSE 采用了自我監(jiān)督,用多張同一個(gè)人不同表情的高清照片進(jìn)行壓縮訓(xùn)練,結(jié)果是生成的高清假照片,其實(shí)和低清晰度照片的主人非常接近。

論文鏈接:https://arxiv.org/abs/2003.03808

論文介紹:https://bit.ly/2WXkPzX

代碼:https://github.com/adamian98/pulse

Unsupervised Translation of Programming Languages

在兩種編程語言之間互譯,需要“源代碼到源代碼編譯器”(transcompiler)。這類編譯器通常依賴大量人工鋪路搭橋,比如手寫規(guī)則,非常耗時(shí),而且效果不太好,翻譯出來的語法也經(jīng)常不對(duì),需要進(jìn)一步的人工編輯。

正如標(biāo)題,F(xiàn)acebook AI 開發(fā)的這個(gè) AI 結(jié)合了機(jī)器翻譯方面的一些最佳研究,采用非監(jiān)督學(xué)習(xí)技術(shù),能夠在 C++ 和 Python 兩種編程語言的函數(shù)之間進(jìn)行互譯,而且能夠理解不同語言的語法,能夠泛化到 Java 等其它語言。

論文鏈接:https://arxiv.org/abs/2006.03511

論文介紹:https://medium.com/what-is-artificial-intelligence/this-ai-translates-code-from-a-programming-language-to-another-facebook-transcoder-explained-3017d052f4fd

代碼:https://bit.ly/3aSrZO5

PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization

這篇論文我們寫過:G7領(lǐng)導(dǎo)人大跳神曲?這個(gè)三維生成AI要被網(wǎng)友玩壞了。它提出了一種全新的基于神經(jīng)網(wǎng)絡(luò)的算法:只用一張人物全身正面照片,幾分鐘的計(jì)算時(shí)間,就可以自動(dòng)重建高分辨率細(xì)節(jié)豐富的3D模型。

和已存在的類似技術(shù)相比,PIFuHD的長處是:1)對(duì)于來源照片里并不存在的身體部位,比如背部,它可以”猜“出一個(gè)大概的,符合常理的結(jié)果。2)能夠同時(shí)高精度還原照片中的人體模型和服裝細(xì)節(jié)。

網(wǎng)友用這個(gè)算法進(jìn)行了很多很搞笑的二次創(chuàng)作,比如把 G7 領(lǐng)導(dǎo)人復(fù)制成3D模型,強(qiáng)迫他們跳舞:

論文鏈接:https://arxiv.org/pdf/2004.00452.pdf

代碼:https://github.com/facebookresearch/pifuhd

High-Resolution Neural Face Swapping for Visual Effects

過去幾年,各種換臉工具我們都見過、玩過不少了。迪士尼也在研究這項(xiàng)技術(shù),他們的研究員在這片論文里提出了一個(gè)算法,能夠生成百萬像素分辨率的換臉視頻。換臉視頻往往會(huì)出現(xiàn)各種瑕疵讓人一看就知道是假的,不過迪士尼在這一點(diǎn)上想要做到盡善盡美。

這項(xiàng)技術(shù)在電影拍攝中很有用處。比方說,過去讓大牌演員演打戲,往往都要用到武替,一般都是不露面或者快速閃過側(cè)臉,盡量讓觀眾看不出來,但凡露面的,都需要大量的后期逐幀修改,F(xiàn)在有了這項(xiàng)技術(shù),就可以直接把演員的臉嵌套到原始素材上,極大地降低后期制作成本,提高電影制作的效率。

論文鏈接:https://bit.ly/2WRMnH0

論文介紹:https://bit.ly/2X8i7rL

GPT-3: Language Models are Few-Shot learners

GPT-3 我們已經(jīng)寫過很多次了,你可以通過此文了解這個(gè)史無前例版巨大的1750億參數(shù)量的文本生成模型。隨著 GPT-3 的發(fā)布,開發(fā)機(jī)構(gòu) OpenAI 也提供了可調(diào)用的 API 給開發(fā)者使用,而開發(fā)者用它做出了各種各樣的神奇 demo。

論文鏈接:https://arxiv.org/abs/2005.14165

代碼:https://github.com/openai/gpt-3

Learning Joint Spatial-Temporal Transformations for Video Inpainting

我們都知道摳圖這件事,也就是從一張照片中把背景去掉,摳出主題的人和物。但如果你想要把前臺(tái)的主題摳掉,保留一個(gè)完整的背景那就難了,畢竟主題把背景蓋住了。

這篇論文解決的就是摳背景的難題,而且還是在視頻上做。研究者設(shè)計(jì)了一個(gè)空間-時(shí)間 Transformer 神經(jīng)網(wǎng)絡(luò),同時(shí)對(duì)視頻的所有幀進(jìn)行填補(bǔ),效果優(yōu)于已知的類似技術(shù)。

論文鏈接:https://arxiv.org/abs/2007.10247

論文簡介:https://bit.ly/34VFbOr

Beyond the Nav-Graph: Vision-and-Language Navigation in Continuous Environments

操控機(jī)器人很容易,你只需要告訴它前進(jìn)、后退、左轉(zhuǎn)和右轉(zhuǎn)。用自然語言對(duì)一個(gè)基于計(jì)算機(jī)視覺的機(jī)器人進(jìn)行導(dǎo)航控制,難度則在另一個(gè)級(jí)別上了。正因?yàn)榇,過去幾年里有一些在此方面實(shí)現(xiàn)了重大突破的論文,在各大學(xué)術(shù)會(huì)議上都拿了獎(jiǎng)。

來自俄勒岡州立大學(xué)、佐治亞理工和 Facebook AI 實(shí)驗(yàn)室的研究員,共同開發(fā)了這樣一個(gè)自然語言導(dǎo)航模型,能夠讓機(jī)器人在完全未知的三維場景下,僅通過”前面過門往左轉(zhuǎn)“、”停在茶幾旁邊“諸如此類的自然語言命令來實(shí)現(xiàn)三維視覺導(dǎo)航。

論文地址:https://arxiv.org/abs/2004.02857

論文簡介:https://bit.ly/3pMfPLd

代碼:https://github.com/jacobkrantz/VLN-CE

以上就是我們從 Louis Bouchard 匯總的2020最佳AI論文里精選的十篇優(yōu)秀論文。你還可以訪問https://github.com/louisfb01/Best_AI_paper_2020繼續(xù)翻閱其它入選論文,比如老照片翻新、修改照片人物年齡、用計(jì)算機(jī)視覺算法取代綠幕等等都很值得一看。

本文內(nèi)容大部分來自 Bouchard 的匯總結(jié)果,硅星人僅提供部分中文翻譯和一些補(bǔ)充解讀。


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港