展會(huì)信息港展會(huì)大全

螞蟻金服AAAI收錄論文曝光
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2020-02-13   瀏覽:237次  

導(dǎo)讀:來(lái)源:螞蟻金服,出品:AI 科技大本營(yíng)(ID:rgznai100) 一年一度在人工智能方向的頂級(jí)會(huì)議之一 AAAI 2020 于 2 月 7 日至 12 日在美國(guó)紐約舉行,旨在匯集世界各地的人工智能理論和領(lǐng)域應(yīng)用的最新成果。以下是螞蟻金服的技術(shù)專家對(duì)入選論文《基于 ......

來(lái)源:螞蟻金服,出品:AI 科技大本營(yíng)(ID:rgznai100)

一年一度在人工智能方向的頂級(jí)會(huì)議之一 AAAI 2020 于 2 月 7 日至 12 日在美國(guó)紐約舉行,旨在匯集世界各地的人工智能理論和領(lǐng)域應(yīng)用的最新成果。以下是螞蟻金服的技術(shù)專家對(duì)入選論文《基于可解釋性通道選擇的動(dòng)態(tài)網(wǎng)絡(luò)剪枝方法》與《無(wú)語(yǔ)預(yù)訓(xùn)練的網(wǎng)絡(luò)剪枝技術(shù)》做出的深度解讀。

讓我們先來(lái)看看《基于可解釋性通道選擇的動(dòng)態(tài)網(wǎng)絡(luò)剪枝方法》。

一、基于可解釋性通道選擇的動(dòng)態(tài)網(wǎng)絡(luò)剪枝方法

動(dòng)態(tài)剪枝網(wǎng)絡(luò)可以通過(guò)根據(jù)不同的輸入動(dòng)態(tài)決定推理路徑,實(shí)現(xiàn)實(shí)時(shí)線上加速目的。之前的方法大多直接對(duì)每個(gè)權(quán)重通道輸出連續(xù)重要值,來(lái)決定權(quán)重的使用情況,但缺乏清晰可理解的剪枝過(guò)程。

本文中我們提出顯式建模權(quán)重通道離散選擇過(guò)程,以便于實(shí)現(xiàn)各稀疏多樣的運(yùn)行時(shí)推理路徑。與此同時(shí),借助于可理解的逐層權(quán)重通道選擇過(guò)程,我們可以清晰地可視化出模型決策過(guò)程以供模型理解。同時(shí)我們還發(fā)現(xiàn)正常樣本和對(duì)抗樣本在動(dòng)態(tài)網(wǎng)絡(luò)中有著明顯不同的決策路徑;诖宋覀兲岢鲆环N高效的對(duì)抗樣本檢測(cè)方法。

動(dòng)態(tài)剪枝方法相比于靜態(tài)剪枝方法,可以在實(shí)時(shí)計(jì)算時(shí)進(jìn)行網(wǎng)絡(luò)計(jì)算路徑選擇,從而可以針對(duì)不同輸入進(jìn)行剪枝。相比于靜態(tài)剪枝方法只能使用單一壓縮網(wǎng)絡(luò),動(dòng)態(tài)剪枝方法可以在保留完整模型基礎(chǔ)上,選擇多樣的計(jì)算路徑。然而已有方法對(duì)于計(jì)算路徑,也即權(quán)重通道的選擇,是直接產(chǎn)生連續(xù)控制門值。這無(wú)法反映出清晰可理解的剪枝過(guò)程。而且所產(chǎn)生的剪枝決策趨于相同缺乏多樣性,而這也實(shí)際上退化成為靜態(tài)剪枝。

在本文中我們提出通過(guò)顯示建模離散權(quán)重通道決策來(lái)實(shí)現(xiàn)動(dòng)態(tài)剪枝算法。具體來(lái)說(shuō)我們針對(duì)每一個(gè)計(jì)算層(如 CNN 中的卷積層),附屬一個(gè)決策單元,用以輸出對(duì)應(yīng)于一組有限通道選擇掩碼的概率分布。該分布決定了哪一組通道選擇掩碼用了提取權(quán)重,進(jìn)行實(shí)際上的運(yùn)算過(guò)程。在實(shí)驗(yàn)中我們發(fā)現(xiàn)該方法可以提供明確且可理解的動(dòng)態(tài)模型決策過(guò)程。針對(duì)不同輸入,模型各層決策單元產(chǎn)生的決策特征與輸入類別語(yǔ)義高度相關(guān)。

同時(shí)我們也觀察到對(duì)于對(duì)抗樣本的決策路徑與正常樣本有顯著不同,這反映了模型針對(duì)這兩大類樣本不同的響應(yīng)特性。我們利用這一現(xiàn)象開(kāi)發(fā)了一種基于動(dòng)態(tài)決策特征的對(duì)抗樣本檢測(cè)算法。實(shí)驗(yàn)表明我們的動(dòng)態(tài)剪枝網(wǎng)絡(luò)不僅可以減少模型實(shí)時(shí)計(jì)算量,提高模型預(yù)測(cè)準(zhǔn)確性,同時(shí)還可以有效防御對(duì)抗樣本攻擊,構(gòu)建更為魯棒的模型。

二、解讀

動(dòng)態(tài)剪枝網(wǎng)絡(luò)中的核心部分為決策單元,其概覽總結(jié)如上圖所示。首先決策單元其接受輸入WAP-IMG::1::IMG-END(WAP-IMG::2::IMG-END為單元參數(shù)),產(chǎn)生一個(gè)概率分布WAP-IMG::3::IMG-END對(duì)應(yīng)于一組通道選擇掩碼WAP-IMG::4::IMG-END。而對(duì)應(yīng)于最大概率的選擇掩碼將被用來(lái)構(gòu)建實(shí)際用來(lái)運(yùn)算的權(quán)重。在訓(xùn)練階段,由于存在離散選擇輸出,在訓(xùn)練過(guò)程中為解決不可導(dǎo)問(wèn)題,我們采用了連續(xù)松弛技術(shù),將選擇指標(biāo)重參數(shù)化成為:

其中WAP-IMG::6::IMG-END為輸出概率,WAP-IMG::7::IMG-END為 Gumbel 隨機(jī)變量,WAP-IMG::8::IMG-END

為溫度參數(shù)控制概率聚集度。而對(duì)于選擇掩碼則采用端到端學(xué)習(xí),自動(dòng)調(diào)整權(quán)重通道重要值。為了使其產(chǎn)生盡量稀疏的通道掩碼,我們?cè)黾恿苏齽t項(xiàng):

目的是讓整體控制門變量稀疏度接近于目標(biāo)稀疏度r。

我們?cè)?CIFAR10 和 ImageNet 數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),下表示總結(jié)和其他靜態(tài)和動(dòng)態(tài)剪枝方法對(duì)比結(jié)果?梢钥闯鱿啾扔谄渌糁Ψ椒,我們的動(dòng)態(tài)剪枝策略可以達(dá)到更高的動(dòng)態(tài)剪枝率和預(yù)測(cè)性能。

除了帶來(lái)剪枝結(jié)果的提升,我們還發(fā)現(xiàn)將各層決策單元對(duì)每個(gè)樣本所產(chǎn)生的決策概率拼接在一起,作為一種新的依賴于樣本輸入的 決策特征 ,則此特征與樣本類別有強(qiáng)相關(guān)性。同時(shí)該特征對(duì)于正常樣本和對(duì)抗樣本有明顯的區(qū)分特性。

上圖展示了 CIFAR10 上 50000 個(gè)樣本共十類決策特征在三種對(duì)抗攻擊下 UMAP 可視化方法下的結(jié)果?梢钥闯,彩色點(diǎn)代表正常樣本點(diǎn),其相似類別的決策特征有明顯聚集特性;而灰色代表所有對(duì)抗樣本點(diǎn),會(huì)發(fā)現(xiàn)與所有正常樣本點(diǎn)均有區(qū)分。鑒于此,我們利用簡(jiǎn)單的二分類器,在此決策特征上進(jìn)行訓(xùn)練,實(shí)現(xiàn)對(duì)抗樣本檢測(cè)算法。下表展示了我們提出的對(duì)抗樣本算法和其他檢測(cè)算法的對(duì)比,我們的算法均取得了檢測(cè)性能的提升。

三、前景

在螞蟻金服中,對(duì)于異常樣本和對(duì)抗攻擊樣本的檢測(cè)防御至關(guān)重要,因?yàn)檫@影響著服務(wù)模型系統(tǒng)的安全性和穩(wěn)定性。上文從動(dòng)態(tài)剪枝網(wǎng)絡(luò)出發(fā),在減少模型實(shí)時(shí)運(yùn)算量同時(shí),利用其可理解的決策過(guò)程和決策特征,實(shí)現(xiàn)對(duì)抗樣本檢測(cè)算法,為構(gòu)建魯棒安全穩(wěn)定的機(jī)器學(xué)習(xí)系統(tǒng)提供基礎(chǔ)。

四、無(wú)語(yǔ)預(yù)訓(xùn)練的網(wǎng)絡(luò)剪枝技術(shù)

而說(shuō)到網(wǎng)絡(luò)剪枝,不可否認(rèn),網(wǎng)絡(luò)剪枝是一項(xiàng)重要的研究領(lǐng)域,其旨在通過(guò)減少神經(jīng)網(wǎng)絡(luò)中冗余參數(shù)和結(jié)構(gòu),達(dá)到加速推理目的。傳統(tǒng)方法遵循固定流程,即先訓(xùn)練一個(gè)冗余大網(wǎng)絡(luò),然和通過(guò)各種剪枝策略決定將不重要的權(quán)重通道進(jìn)行刪除,最后再進(jìn)行微調(diào)提升性能。

通過(guò)研究發(fā)現(xiàn),我們無(wú)需利用預(yù)訓(xùn)練及冗余參數(shù)即可得到有效的壓縮網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)際上我們完全可從隨機(jī)初始化權(quán)重即可得到剪枝結(jié)構(gòu)。因此我們提出全新的無(wú)預(yù)訓(xùn)練完全從頭開(kāi)始的剪枝流程,可以大大減少剪枝過(guò)程開(kāi)銷,并且得到網(wǎng)絡(luò)結(jié)構(gòu)在充分訓(xùn)練后可以達(dá)到更高的預(yù)測(cè)性能。

隨著深度學(xué)習(xí)網(wǎng)絡(luò)被廣泛應(yīng)用,減少模型大小和運(yùn)行延時(shí)也成為逐漸關(guān)注的需求,這對(duì)于部署于邊緣移動(dòng)端設(shè)備有實(shí)際應(yīng)用價(jià)值。網(wǎng)絡(luò)剪枝技術(shù)即通過(guò)去除模型中冗余參數(shù)結(jié)構(gòu),來(lái)達(dá)到模型壓縮和推理加速的目的。

傳統(tǒng)網(wǎng)絡(luò)剪枝方法基本采取三階段流程,即預(yù)訓(xùn)練,剪枝和微調(diào)。其中預(yù)訓(xùn)練提供冗余參數(shù)和結(jié)構(gòu),剪枝利用不同策略去除參數(shù),微調(diào)負(fù)責(zé)最后進(jìn)一步提升模型性能。但是這些環(huán)節(jié)引入了繁瑣耗時(shí)的網(wǎng)絡(luò)優(yōu)化過(guò)程,而且最終壓縮網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)和原始模型甚至無(wú)依賴關(guān)系。因此我們自然提出疑問(wèn):是否必需要從一個(gè)預(yù)訓(xùn)練好的模型中才可以得到剪枝模型結(jié)構(gòu)?

在本文中我們通過(guò)實(shí)證發(fā)現(xiàn),一個(gè)有效的剪枝結(jié)構(gòu)無(wú)需從預(yù)訓(xùn)練權(quán)重得到。實(shí)際上預(yù)訓(xùn)練權(quán)重得到的剪枝結(jié)構(gòu)往往是同質(zhì)缺乏多樣性的,這很有可能限制了更好性能結(jié)構(gòu)的探索。我們發(fā)現(xiàn)直接從隨機(jī)初始化權(quán)重即可以剪枝得到更多樣且最終性能更好的剪枝結(jié)構(gòu)。這不僅極大的加速了模型剪枝流程,減少費(fèi)時(shí)繁重的訓(xùn)練過(guò)程,同時(shí)也為模型剪枝領(lǐng)域提供了一個(gè)強(qiáng)有力的基準(zhǔn)結(jié)果。

五、解讀

對(duì)于一個(gè)神經(jīng)網(wǎng)絡(luò)f(x;W),其中為輸入樣本,為W模型參數(shù),為了高效的學(xué)習(xí)到關(guān)于各層權(quán)重通道重要性的系數(shù),我們對(duì)于每一層權(quán)重,按照其通道維度附屬一個(gè)控制門變量WAP-IMG::13::IMG-END。該變量將會(huì)直接與模型輸出逐通道相乘,調(diào)節(jié)每層實(shí)際輸出響應(yīng)。因此一個(gè)接近于 0 值的控制門代表對(duì)應(yīng)權(quán)重通道可以被刪除。對(duì)于所有控制門變量WAP-IMG::14::IMG-END

,整體優(yōu)化目標(biāo)為:

其中WAP-IMG::16::IMG-END為樣本對(duì)應(yīng)標(biāo)簽,WAP-IMG::17::IMG-END

為交叉熵?fù)p失函數(shù)。相比與傳統(tǒng)剪枝策略,此處我們有兩點(diǎn)不同。第一在優(yōu)化過(guò)程中,不更新模型權(quán)重。第二我們使用隨機(jī)初始化的權(quán)重而非來(lái)依賴于預(yù)訓(xùn)練模型。

在得到一組優(yōu)化后的控制門值,我們可以設(shè)置閾值去決定哪些通道被刪除。為此,我們通過(guò)一種簡(jiǎn)單的二分搜索策略來(lái)去搜索閾值,使得所對(duì)應(yīng)的剪枝結(jié)構(gòu)剛好滿足計(jì)算量約束。整體算法總結(jié)在此。

我們?cè)?CIFAR10 和 ImageNet 數(shù)據(jù)集上,針對(duì)各種模型進(jìn)行了廣泛的實(shí)驗(yàn)。在同樣計(jì)算量約束下,我們的剪枝方法流程所得到模型可以達(dá)到更高的預(yù)測(cè)性能,更小的模型參數(shù)和更少的計(jì)算延遲。

六、前景

在螞蟻金服中,我們存在著諸多移動(dòng)端設(shè)備深度學(xué)習(xí)模型的應(yīng)用。為了解決模型在滿足計(jì)算量和延時(shí)的約束下,需要經(jīng)過(guò)手工設(shè)計(jì)調(diào)整實(shí)現(xiàn)模型縮減。但這也導(dǎo)致整個(gè)流程重復(fù)且繁重。我們的研究指出,可以在給定計(jì)算約束下,直接從隨機(jī)網(wǎng)絡(luò)權(quán)重出發(fā),實(shí)現(xiàn)壓縮結(jié)構(gòu)的搜索。這不僅減少了大量人工調(diào)整的環(huán)節(jié),也取得了性能更好更高效的模型結(jié)構(gòu)。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港