97无码精品二区在线视频,激情偷乱人伦小说视频在线,四虎影库亚洲精品无码在线观看

大數(shù)據(jù)過(guò)時(shí)了：這種方向或?qū)⒊蔀?AI 研究的領(lǐng)頭羊

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2021-11-16 08:18:52 瀏覽：56319次

導(dǎo)讀：來(lái)源 Scientific American 原作 Husanjot Chahal Helen Toner 翻譯董聿恒編輯魏瀟大多數(shù)人在聽(tīng)到人工智能這個(gè)詞時(shí)，都會(huì)聯(lián)想到大數(shù)據(jù)。這是有原因的：過(guò)去數(shù)十年間，AI 領(lǐng)域許多重要的突破都有賴(lài)于巨大的數(shù)據(jù)集。圖像分類(lèi)領(lǐng)域自 2010 年以來(lái)前進(jìn)了一大步...

大數(shù)據(jù)過(guò)時(shí)了：這種方向或?qū)⒊蔀?AI 研究的領(lǐng)頭羊

來(lái)源 Scientific American

原作 Husanjot Chahal & Helen Toner

翻譯董聿恒

編輯魏瀟

大多數(shù)人在聽(tīng)到“人工智能”這個(gè)詞時(shí)，都會(huì)聯(lián)想到“大數(shù)據(jù)”。這是有原因的：過(guò)去數(shù)十年間，AI 領(lǐng)域許多重要的突破都有賴(lài)于巨大的數(shù)據(jù)集。圖像分類(lèi)領(lǐng)域自 2010 年以來(lái)前進(jìn)了一大步，這很大程度要?dú)w功于含有數(shù)百萬(wàn)張，被人工分類(lèi)成上千個(gè)類(lèi)別的大型圖片數(shù)據(jù)集 ImageNet。近期發(fā)布的 GPT-3 語(yǔ)言模型可以使用深度學(xué)習(xí)來(lái)生成近似于人類(lèi)創(chuàng)作的文本，它受益于互聯(lián)網(wǎng)上數(shù)千億詞的文本訓(xùn)練。所以，在公眾的認(rèn)識(shí)中“AI”和“大數(shù)據(jù)”的聯(lián)系如此緊密也完全不足為奇了。然而，AI 并不是只和龐大的數(shù)據(jù)集相關(guān)，關(guān)于“小數(shù)據(jù)”的研究在過(guò)去十年間發(fā)展迅速，例如“遷移學(xué)習(xí)（transfer learning）”就是其中一種成效顯著的方法。

遷移學(xué)習(xí)也被稱(chēng)為“微調(diào)（fine-tuning）”，當(dāng)你手上針對(duì)目標(biāo)研究對(duì)象的數(shù)據(jù)較少，但相關(guān)的其他問(wèn)題數(shù)據(jù)較多時(shí)，這種方法尤為有效。它的原理是首先利用大數(shù)據(jù)集訓(xùn)練出一個(gè)模型，然后用和你要研究的特定問(wèn)題相關(guān)的小數(shù)據(jù)集再做一次輕度訓(xùn)練。舉幾個(gè)例子，來(lái)自印度班加羅爾的一個(gè)研究團(tuán)隊(duì)通過(guò)遷移學(xué)習(xí)的手段對(duì)一個(gè) ImageNet 分類(lèi)器進(jìn)行了微調(diào)，用了僅僅 45 個(gè)訓(xùn)練范例就完成了一個(gè)能從超聲圖片中定位腎臟的 AI 模型。而另一個(gè)研究德語(yǔ)語(yǔ)音識(shí)別的團(tuán)隊(duì)發(fā)現(xiàn)他們可以先找來(lái)一個(gè)用大數(shù)據(jù)訓(xùn)練出來(lái)的英語(yǔ)語(yǔ)音識(shí)別模型，然后用遷移學(xué)習(xí)對(duì)其進(jìn)行調(diào)整讓它可以識(shí)別德語(yǔ)音頻，最后得到的模型確實(shí)具備了更好的性能。

在過(guò)去十年間，對(duì)于遷移學(xué)習(xí)的研究取得了令人振奮的進(jìn)展。美國(guó)喬治城大學(xué)安全與新興技術(shù)中心（Georgetown University’s Center for Security and Emerging Technology）發(fā)布的一項(xiàng)新的分析報(bào)告將“小數(shù)據(jù)”方案大致上分成了五個(gè)門(mén)類(lèi)：遷移學(xué)習(xí)、數(shù)據(jù)分類(lèi)（data labeling）、人工數(shù)據(jù)生成（artificial data generation）、貝葉斯方法（Bayesian methods）和強(qiáng)化學(xué)習(xí)（reinforcement learning）。我們的分析發(fā)現(xiàn)遷移學(xué)習(xí)的發(fā)展格外矚目，在過(guò)去十年的增長(zhǎng)率最高也最為穩(wěn)定。它的增長(zhǎng)甚至超過(guò)了更加成熟范圍也更大的強(qiáng)化學(xué)習(xí)門(mén)類(lèi)，要知道后者在近些年已經(jīng)獲得了大量關(guān)注。

不止如此，遷移學(xué)習(xí)在不久的未來(lái)只會(huì)發(fā)展得更好。使用三年增長(zhǎng)率預(yù)測(cè)模型，我們分析：到 2023 年，整個(gè)小數(shù)據(jù)研究領(lǐng)域中遷移學(xué)習(xí)技術(shù)會(huì)成為增長(zhǎng)最快的門(mén)類(lèi)。事實(shí)上，我們預(yù)測(cè)出的遷移學(xué)習(xí)增長(zhǎng)速率會(huì)遠(yuǎn)遠(yuǎn)高于 AI 研究整體的增長(zhǎng)率。這表明遷移學(xué)習(xí)很可能會(huì)被應(yīng)用在更廣闊的領(lǐng)域中。

以遷移學(xué)習(xí)為代表的小數(shù)據(jù)方案，對(duì)數(shù)據(jù)密集型方案助益良多。通過(guò)用較少的數(shù)據(jù)來(lái)驅(qū)動(dòng) AI，小數(shù)據(jù)對(duì)那些只能收集到很少數(shù)據(jù)，甚至無(wú)法收集數(shù)據(jù)的研究領(lǐng)域尤其有利。比如預(yù)報(bào)那些相對(duì)來(lái)說(shuō)比較少見(jiàn)的自然災(zāi)害，或者預(yù)測(cè)特定疾病對(duì)于一些沒(méi)有數(shù)字健康記錄的人群的風(fēng)險(xiǎn)。一些研究者相信，目前為止，AI 在那些能收集到更多數(shù)據(jù)的領(lǐng)域更為成功。在這個(gè)基礎(chǔ)上，例如遷移學(xué)習(xí)會(huì)變得更加重要。因?yàn)樵絹?lái)越多的組織在嘗試拓寬 AI 的應(yīng)用范圍，開(kāi)拓更多的處女地。

另一個(gè)認(rèn)識(shí)遷移學(xué)習(xí)價(jià)值的角度是AI 的通用性。長(zhǎng)期以來(lái)，AI 的使用一直存在這樣一項(xiàng)挑戰(zhàn)：讓 AI 模型在它們的訓(xùn)練集之外更加“通用”。也就是說(shuō)，AI 模型在面對(duì)一個(gè)比特定的訓(xùn)練集更加寬泛的“問(wèn)題”（輸入）時(shí)，也能給出很好的“答案”（輸出）。因?yàn)檫w移學(xué)習(xí)的原理就是將針對(duì)一個(gè)問(wèn)題的知識(shí)遷移到另一個(gè)問(wèn)題上，所以這個(gè)方法對(duì)于提升模型對(duì)新任務(wù)的通用性大有幫助，哪怕只有極少的可用數(shù)據(jù)也可以成功工作。

進(jìn)一步來(lái)講，遷移學(xué)習(xí)可以利用預(yù)訓(xùn)練模型縮短訓(xùn)練時(shí)間，并且減少對(duì)訓(xùn)練所需的計(jì)算資源的需求。這種效率上的提升是非�？捎^的。要知道，訓(xùn)練每一個(gè)大型神經(jīng)網(wǎng)絡(luò)的過(guò)程都要消耗大量的能量，二氧化碳排放量相當(dāng)于大約五輛美國(guó)轎車(chē)的全壽命排放。

當(dāng)然，對(duì)于不同的情況，使用預(yù)訓(xùn)練模型去解決新任務(wù)的效果也不盡相同。如果初始問(wèn)題和目標(biāo)問(wèn)題的相似度不夠高，遷移學(xué)習(xí)的效率就會(huì)大打折扣。對(duì)于某些領(lǐng)域來(lái)說(shuō)，這個(gè)問(wèn)題尤其嚴(yán)重，例如醫(yī)學(xué)影像。在這個(gè)領(lǐng)域中，許多任務(wù)在數(shù)據(jù)大孝屬性和任務(wù)要求上和以自然圖片為主的數(shù)據(jù)集（例如 ImageNet）有著本質(zhì)的區(qū)別。目前研究者們還在致力于研究有用的信息是如何在模型之間遷移的，以及不同的模型結(jié)構(gòu)是如何阻礙或幫助這種遷移和微調(diào)的。希望對(duì)這些問(wèn)題進(jìn)一步的研究和實(shí)踐應(yīng)用能夠拓寬遷移學(xué)習(xí)的應(yīng)用范疇。

包括吳恩達(dá)（Andrew Ng）在內(nèi)的許多 AI 專(zhuān)家都強(qiáng)調(diào)了遷移學(xué)習(xí)的重要意義。他們甚至表示這種方法會(huì)是機(jī)器學(xué)習(xí)在工業(yè)界取得成功的新驅(qū)動(dòng)。目前為止遷移學(xué)習(xí)已經(jīng)有不少成功的應(yīng)用，癌癥分類(lèi)、電子游戲、垃圾郵件標(biāo)記等很多領(lǐng)域都有這一方法的參與。

不過(guò)，盡管相關(guān)研究與日俱增，遷移學(xué)習(xí)的曝光度相對(duì)來(lái)說(shuō)卻不是很高。如今，當(dāng)機(jī)器學(xué)習(xí)專(zhuān)家和數(shù)據(jù)科學(xué)家們對(duì)它們?cè)絹?lái)越熟悉的時(shí)候，那些在 AI 技術(shù)的采用和資金支持上有重要發(fā)言權(quán)的政策制定者們和商業(yè)領(lǐng)袖們，對(duì)包括遷移學(xué)習(xí)在內(nèi)的這些技術(shù)的關(guān)注度還不夠。

通過(guò)普及像遷移學(xué)習(xí)這樣的小數(shù)據(jù)技術(shù)所取得的成果，以及分配更多的資源去支持它們的廣泛應(yīng)用，我們可以修正一些人工智能領(lǐng)域中廣泛存在的、對(duì)于數(shù)據(jù)所扮演角色的誤解，在新方向上助力 AI 發(fā)展。

https://www.scientificamerican.com/article/small-data-are-also-crucial-for-machine-learning/

點(diǎn)擊在看，分享給更多小伙伴

大數(shù)據(jù)過(guò)時(shí)了：這種方向或?qū)⒊蔀?AI 研究的領(lǐng)頭羊
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2021-11-16 08:18:52 瀏覽：56319次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

大數(shù)據(jù)過(guò)時(shí)了：這種方向或?qū)⒊蔀?AI 研究的領(lǐng)頭羊 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2021-11-16 08:18:52 瀏覽：56319次