來源:專知
本文約2000字,建議閱讀6分鐘
本文圍繞人工智能深度學(xué)習(xí)模型的數(shù)據(jù)安全與隱私保護(hù)領(lǐng)域中最前沿的研究成果,探討了人工智能深度學(xué)習(xí)模型的數(shù)據(jù)竊取和防御技術(shù)的理論基儲重要成果以及相關(guān)應(yīng)用。
人工智能和深度學(xué)習(xí)算法正在高速發(fā)展,這些新興技術(shù)在音視頻識別、自然語言處理等領(lǐng)域已經(jīng)得到了廣泛應(yīng)用。然而,近年來研究者發(fā)現(xiàn),當(dāng)前主流的人工智能模型中存在著諸多安全隱患,并且這些隱患會限制人工智能技術(shù)的進(jìn)一步發(fā)展。因此,研究了人工智能模型中的數(shù)據(jù)安全與隱私保護(hù)問題。對于數(shù)據(jù)與隱私泄露問題,主要研究了基于模型輸出的數(shù)據(jù)泄露問題和基于模型更新的數(shù)據(jù)泄露問題。在基于模型輸出的數(shù)據(jù)泄露問題中,主要探討了模型竊取攻擊、模型逆向攻擊、成員推斷攻擊的原理和研究現(xiàn)狀;在基于模型更新的數(shù)據(jù)泄露問題中,探討了在分布式訓(xùn)練過程中,攻擊者如何竊取隱私數(shù)據(jù)的相關(guān)研究。對于數(shù)據(jù)與隱私保護(hù)問題,主要研究了常用的3類防御方法,即模型結(jié)構(gòu)防御,信息混淆防御,查詢控制防御。綜上,圍繞人工智能深度學(xué)習(xí)模型的數(shù)據(jù)安全與隱私保護(hù)領(lǐng)域中最前沿的研究成果,探討了人工智能深度學(xué)習(xí)模型的數(shù)據(jù)竊取和防御技術(shù)的理論基儲重要成果以及相關(guān)應(yīng)用。
http://www.infocomm-journal.com/cjnis/article/2021/2096-109X/2096-109X-7-1-00001.shtml
人工智能(AI,artificial intelligence)技術(shù)正在加速崛起,它的崛起依托于3個關(guān)鍵因素:深度神經(jīng)網(wǎng)絡(luò)(DNN,deep neural network)在多個經(jīng)典機(jī)器學(xué)習(xí)任務(wù)中取得了突破性進(jìn)展; 大數(shù)據(jù)處理技術(shù)的成熟以及海量數(shù)據(jù)的積累; 硬件計算能力的顯著提高。在這3個因素的推動下, AI 技術(shù)已經(jīng)成功應(yīng)用于自動駕駛、圖像識別、語音識別等場景,加速了傳統(tǒng)行業(yè)的智能化變革。
AI技術(shù)在我國已經(jīng)得到了廣泛的應(yīng)用。在電商領(lǐng)域,AI技術(shù)可以被用于用戶行為分析、網(wǎng)絡(luò)流量分析等任務(wù),不僅使企業(yè)處理高并發(fā)業(yè)務(wù)更高效,而且提升了整體系統(tǒng)的魯棒性;在智能出行領(lǐng)域,AI技術(shù)可以被用于處理路徑規(guī)劃、司機(jī)乘客行為檢測等任務(wù);在金融領(lǐng)域,AI技術(shù)可以執(zhí)行高頻交易、欺詐檢測、異常檢測等任務(wù);在網(wǎng)絡(luò)安全領(lǐng)域,AI技術(shù)作為輔助工具被應(yīng)用于自動化測試等任務(wù)中,極大地提升了安全人員在海量的大數(shù)據(jù)信息中定位異常點的效率。2017年,我國政府工作報告首次提及人工智能相關(guān)內(nèi)容,人工智能的發(fā)展也逐漸被上升到國家發(fā)展戰(zhàn)略高度。
目前大多數(shù)現(xiàn)實世界的機(jī)器學(xué)習(xí)任務(wù)是資源密集型的,需要依靠大量的計算資源和存儲資源完成模型的訓(xùn)練或預(yù)測,因此,亞馬遜、谷歌、微軟等云服務(wù)商往往通過提供機(jī)器學(xué)習(xí)服務(wù)來抵消存儲和計算需求。機(jī)器學(xué)習(xí)服務(wù)商提供訓(xùn)練平臺和使用模型的查詢接口,而使用者可以通過這些接口來對一些實例進(jìn)行查詢。一般來說,服務(wù)商或者模型提供者會對使用者的查詢操作按次進(jìn)行收費。
但 AI 技術(shù)在高速發(fā)展的同時面臨著嚴(yán)峻的數(shù)據(jù)泄露風(fēng)險。AI模型的參數(shù)需要得到保護(hù),否則將對模型擁有者帶來巨大的經(jīng)濟(jì)損失。此外,AI技術(shù)所需要的樣本數(shù)據(jù)往往包含了個人的隱私數(shù)據(jù),這些隱私數(shù)據(jù)一旦被泄露,將會為模型擁有者帶來巨大的經(jīng)濟(jì)風(fēng)險和法律風(fēng)險。2017年,我國頒布的《中華人民共和國網(wǎng)絡(luò)安全法》也強(qiáng)調(diào)了對個人隱私信息的保護(hù)。因此,如何充分防范AI技術(shù)應(yīng)用中的數(shù)據(jù)泄露風(fēng)險,成為該技術(shù)進(jìn)一步發(fā)展與部署的阻礙之一。
為了保障人工智能模型相關(guān)信息的隱私性,云服務(wù)商會保證自身模型的隱秘性,僅提供一個接口來為使用者提供服務(wù),從而保證模型使用者無法接觸到模型數(shù)據(jù)。然而近年來,仍然出現(xiàn)了大量試圖破壞人工智能模型數(shù)據(jù)隱私性的攻擊。研究者發(fā)現(xiàn)深度學(xué)習(xí)模型使用過程中產(chǎn)生的相關(guān)計算數(shù)據(jù),包括輸出向量、模型參數(shù)、模型梯度等,可能會泄露訓(xùn)練數(shù)據(jù)的敏感信息或者模型自身的屬性參數(shù)[1]。更糟的是,這些數(shù)據(jù)往往又不可避免地會被泄露給攻擊者,尤其是某些模型的輸出結(jié)果向量。這使深度學(xué)習(xí)模型的數(shù)據(jù)泄露問題難以避免。例如,模型逆向攻擊,攻擊者可以在不接觸隱私數(shù)據(jù)的情況下利用模型輸出結(jié)果等信息來反向推導(dǎo)出用戶的隱私數(shù)據(jù);成員推斷攻擊,攻擊者可以根據(jù)模型的輸出判斷一個具體的數(shù)據(jù)是否存在于訓(xùn)練集中。而這類攻擊只需要與云服務(wù)的接口進(jìn)行交互。實際應(yīng)用中,這類信息竊取攻擊會導(dǎo)致嚴(yán)重的隱私泄露,如人臉識別模型返回的結(jié)果向量可以被用于恢復(fù)訓(xùn)練數(shù)據(jù)或者預(yù)測數(shù)據(jù)中的人臉圖像,這將導(dǎo)致用戶的肖像信息被泄露。攻擊者還可以通過模型輸出結(jié)果竊取相關(guān)模型的參數(shù),對模型擁有者造成嚴(yán)重的經(jīng)濟(jì)損失[2]。
此外,隨著聯(lián)邦學(xué)習(xí)[3]等分布式機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,攻擊者有可能成為模型訓(xùn)練過程中的參與方。一般而言,聯(lián)邦學(xué)習(xí)中的參與方無法獲知彼此的輸入數(shù)據(jù)等隱私信息,但由于攻擊者能夠獲得模型在訓(xùn)練過程中的輸出、模型參數(shù)和梯度等信息,這大大提升了攻擊者的能力,使攻擊者竊取其他參與方隱私數(shù)據(jù)成為可能。這將給分布式機(jī)器學(xué)習(xí)技術(shù)的發(fā)展帶來嚴(yán)重的阻礙。
近年來,許多研究者提出了各種機(jī)制來防御針對 AI 技術(shù)的隱私攻擊。通過對模型結(jié)構(gòu)的修改,為輸出向量添加特定噪聲,結(jié)合差分隱私等技術(shù),能夠有效防御特定的隱私泄露攻擊。
本文將介紹目前研究較多的數(shù)據(jù)推斷攻擊,包括模型竊取攻擊、模型逆向攻擊、成員推斷攻擊。并介紹針對上述不同攻擊的防御機(jī)制,其生成的具備隱私保護(hù)功能的模型能夠抵抗特定的數(shù)據(jù)推斷攻擊。
編輯:文婧