來(lái)源 Scientific American
原作 Husanjot Chahal & Helen Toner
翻譯 董聿恒
編輯 魏瀟
大多數(shù)人在聽(tīng)到“人工智能”這個(gè)詞時(shí),都會(huì)聯(lián)想到“大數(shù)據(jù)”。這是有原因的:過(guò)去數(shù)十年間,AI 領(lǐng)域許多重要的突破都有賴(lài)于巨大的數(shù)據(jù)集。圖像分類(lèi)領(lǐng)域自 2010 年以來(lái)前進(jìn)了一大步,這很大程度要?dú)w功于含有數(shù)百萬(wàn)張,被人工分類(lèi)成上千個(gè)類(lèi)別的大型圖片數(shù)據(jù)集 ImageNet。近期發(fā)布的 GPT-3 語(yǔ)言模型可以使用深度學(xué)習(xí)來(lái)生成近似于人類(lèi)創(chuàng)作的文本,它受益于互聯(lián)網(wǎng)上數(shù)千億詞的文本訓(xùn)練。所以,在公眾的認(rèn)識(shí)中“AI”和“大數(shù)據(jù)”的聯(lián)系如此緊密也完全不足為奇了。然而,AI 并不是只和龐大的數(shù)據(jù)集相關(guān),關(guān)于“小數(shù)據(jù)”的研究在過(guò)去十年間發(fā)展迅速,例如“遷移學(xué)習(xí)(transfer learning)”就是其中一種成效顯著的方法。
遷移學(xué)習(xí)也被稱(chēng)為“微調(diào)(fine-tuning)”,當(dāng)你手上針對(duì)目標(biāo)研究對(duì)象的數(shù)據(jù)較少,但相關(guān)的其他問(wèn)題數(shù)據(jù)較多時(shí),這種方法尤為有效。它的原理是首先利用大數(shù)據(jù)集訓(xùn)練出一個(gè)模型,然后用和你要研究的特定問(wèn)題相關(guān)的小數(shù)據(jù)集再做一次輕度訓(xùn)練。舉幾個(gè)例子,來(lái)自印度班加羅爾的一個(gè)研究團(tuán)隊(duì)通過(guò)遷移學(xué)習(xí)的手段對(duì)一個(gè) ImageNet 分類(lèi)器進(jìn)行了微調(diào),用了僅僅 45 個(gè)訓(xùn)練范例就完成了一個(gè)能從超聲圖片中定位腎臟的 AI 模型。而另一個(gè)研究德語(yǔ)語(yǔ)音識(shí)別的團(tuán)隊(duì)發(fā)現(xiàn)他們可以先找來(lái)一個(gè)用大數(shù)據(jù)訓(xùn)練出來(lái)的英語(yǔ)語(yǔ)音識(shí)別模型,然后用遷移學(xué)習(xí)對(duì)其進(jìn)行調(diào)整讓它可以識(shí)別德語(yǔ)音頻,最后得到的模型確實(shí)具備了更好的性能。
在過(guò)去十年間,對(duì)于遷移學(xué)習(xí)的研究取得了令人振奮的進(jìn)展。美國(guó)喬治城大學(xué)安全與新興技術(shù)中心(Georgetown University’s Center for Security and Emerging Technology)發(fā)布的一項(xiàng)新的分析報(bào)告將“小數(shù)據(jù)”方案大致上分成了五個(gè)門(mén)類(lèi):遷移學(xué)習(xí)、數(shù)據(jù)分類(lèi)(data labeling)、人工數(shù)據(jù)生成(artificial data generation)、貝葉斯方法(Bayesian methods)和強(qiáng)化學(xué)習(xí)(reinforcement learning)。我們的分析發(fā)現(xiàn)遷移學(xué)習(xí)的發(fā)展格外矚目,在過(guò)去十年的增長(zhǎng)率最高也最為穩(wěn)定。它的增長(zhǎng)甚至超過(guò)了更加成熟范圍也更大的強(qiáng)化學(xué)習(xí)門(mén)類(lèi),要知道后者在近些年已經(jīng)獲得了大量關(guān)注。
不止如此,遷移學(xué)習(xí)在不久的未來(lái)只會(huì)發(fā)展得更好。使用三年增長(zhǎng)率預(yù)測(cè)模型,我們分析:到 2023 年,整個(gè)小數(shù)據(jù)研究領(lǐng)域中遷移學(xué)習(xí)技術(shù)會(huì)成為增長(zhǎng)最快的門(mén)類(lèi)。事實(shí)上,我們預(yù)測(cè)出的遷移學(xué)習(xí)增長(zhǎng)速率會(huì)遠(yuǎn)遠(yuǎn)高于 AI 研究整體的增長(zhǎng)率。這表明遷移學(xué)習(xí)很可能會(huì)被應(yīng)用在更廣闊的領(lǐng)域中。
以遷移學(xué)習(xí)為代表的小數(shù)據(jù)方案,對(duì)數(shù)據(jù)密集型方案助益良多。通過(guò)用較少的數(shù)據(jù)來(lái)驅(qū)動(dòng) AI,小數(shù)據(jù)對(duì)那些只能收集到很少數(shù)據(jù),甚至無(wú)法收集數(shù)據(jù)的研究領(lǐng)域尤其有利。比如預(yù)報(bào)那些相對(duì)來(lái)說(shuō)比較少見(jiàn)的自然災(zāi)害,或者預(yù)測(cè)特定疾病對(duì)于一些沒(méi)有數(shù)字健康記錄的人群的風(fēng)險(xiǎn)。一些研究者相信,目前為止,AI 在那些能收集到更多數(shù)據(jù)的領(lǐng)域更為成功。在這個(gè)基礎(chǔ)上,例如遷移學(xué)習(xí)會(huì)變得更加重要。因?yàn)樵絹?lái)越多的組織在嘗試拓寬 AI 的應(yīng)用范圍,開(kāi)拓更多的處女地。
另一個(gè)認(rèn)識(shí)遷移學(xué)習(xí)價(jià)值的角度是AI 的通用性。長(zhǎng)期以來(lái),AI 的使用一直存在這樣一項(xiàng)挑戰(zhàn):讓 AI 模型在它們的訓(xùn)練集之外更加“通用”。也就是說(shuō),AI 模型在面對(duì)一個(gè)比特定的訓(xùn)練集更加寬泛的“問(wèn)題”(輸入)時(shí),也能給出很好的“答案”(輸出)。因?yàn)檫w移學(xué)習(xí)的原理就是將針對(duì)一個(gè)問(wèn)題的知識(shí)遷移到另一個(gè)問(wèn)題上,所以這個(gè)方法對(duì)于提升模型對(duì)新任務(wù)的通用性大有幫助,哪怕只有極少的可用數(shù)據(jù)也可以成功工作。
進(jìn)一步來(lái)講,遷移學(xué)習(xí)可以利用預(yù)訓(xùn)練模型縮短訓(xùn)練時(shí)間,并且減少對(duì)訓(xùn)練所需的計(jì)算資源的需求。這種效率上的提升是非?捎^的。要知道,訓(xùn)練每一個(gè)大型神經(jīng)網(wǎng)絡(luò)的過(guò)程都要消耗大量的能量,二氧化碳排放量相當(dāng)于大約五輛美國(guó)轎車(chē)的全壽命排放。
當(dāng)然,對(duì)于不同的情況,使用預(yù)訓(xùn)練模型去解決新任務(wù)的效果也不盡相同。如果初始問(wèn)題和目標(biāo)問(wèn)題的相似度不夠高,遷移學(xué)習(xí)的效率就會(huì)大打折扣。對(duì)于某些領(lǐng)域來(lái)說(shuō),這個(gè)問(wèn)題尤其嚴(yán)重,例如醫(yī)學(xué)影像。在這個(gè)領(lǐng)域中,許多任務(wù)在數(shù)據(jù)大孝屬性和任務(wù)要求上和以自然圖片為主的數(shù)據(jù)集(例如 ImageNet)有著本質(zhì)的區(qū)別。目前研究者們還在致力于研究有用的信息是如何在模型之間遷移的,以及不同的模型結(jié)構(gòu)是如何阻礙或幫助這種遷移和微調(diào)的。希望對(duì)這些問(wèn)題進(jìn)一步的研究和實(shí)踐應(yīng)用能夠拓寬遷移學(xué)習(xí)的應(yīng)用范疇。
包括吳恩達(dá)(Andrew Ng)在內(nèi)的許多 AI 專(zhuān)家都強(qiáng)調(diào)了遷移學(xué)習(xí)的重要意義。他們甚至表示這種方法會(huì)是機(jī)器學(xué)習(xí)在工業(yè)界取得成功的新驅(qū)動(dòng)。目前為止遷移學(xué)習(xí)已經(jīng)有不少成功的應(yīng)用,癌癥分類(lèi)、電子游戲、垃圾郵件標(biāo)記等很多領(lǐng)域都有這一方法的參與。
不過(guò),盡管相關(guān)研究與日俱增,遷移學(xué)習(xí)的曝光度相對(duì)來(lái)說(shuō)卻不是很高。如今,當(dāng)機(jī)器學(xué)習(xí)專(zhuān)家和數(shù)據(jù)科學(xué)家們對(duì)它們?cè)絹?lái)越熟悉的時(shí)候,那些在 AI 技術(shù)的采用和資金支持上有重要發(fā)言權(quán)的政策制定者們和商業(yè)領(lǐng)袖們,對(duì)包括遷移學(xué)習(xí)在內(nèi)的這些技術(shù)的關(guān)注度還不夠。
通過(guò)普及像遷移學(xué)習(xí)這樣的小數(shù)據(jù)技術(shù)所取得的成果,以及分配更多的資源去支持它們的廣泛應(yīng)用,我們可以修正一些人工智能領(lǐng)域中廣泛存在的、對(duì)于數(shù)據(jù)所扮演角色的誤解,在新方向上助力 AI 發(fā)展。
https://www.scientificamerican.com/article/small-data-are-also-crucial-for-machine-learning/
點(diǎn)擊在看,分享給更多小伙伴