展會(huì)信息港展會(huì)大全

WAIC 2021|面向開放智能,螞蟻集團(tuán)揭秘隱私計(jì)算框架
來源:互聯(lián)網(wǎng)   發(fā)布日期:2021-08-05 08:18:10   瀏覽:17526次  

導(dǎo)讀:機(jī)器之心報(bào)道 機(jī)器之心編輯部 最近一段時(shí)間,隱私計(jì)算成為了眾多科技公司的研究方向,它或許將成為數(shù)據(jù)市場化的重要基礎(chǔ)設(shè)施。 眾所周知,數(shù)據(jù)的價(jià)值是在經(jīng)濟(jì)活動(dòng)中信息交互所產(chǎn)生的數(shù)據(jù)越流通,應(yīng)用的場景越豐富,其價(jià)值會(huì)得到不斷放大及提升。不過在數(shù)據(jù)流...

機(jī)器之心報(bào)道

機(jī)器之心編輯部

最近一段時(shí)間,隱私計(jì)算成為了眾多科技公司的研究方向,它或許將成為數(shù)據(jù)市場化的重要基礎(chǔ)設(shè)施。

眾所周知,數(shù)據(jù)的價(jià)值是在經(jīng)濟(jì)活動(dòng)中信息交互所產(chǎn)生的數(shù)據(jù)越流通,應(yīng)用的場景越豐富,其價(jià)值會(huì)得到不斷放大及提升。不過在數(shù)據(jù)流通過程中,我們必須時(shí)刻考慮數(shù)據(jù)安全與隱私保護(hù)問題。

不久之前,螞蟻集團(tuán)智能引擎與數(shù)據(jù)中臺技術(shù)部負(fù)責(zé)人、IEEE Fellow 周靖人博士在世界人工智能大會(huì) WAIC 2021「隱私計(jì)算學(xué)術(shù)交流會(huì)」上發(fā)表了題為《開放智能數(shù)據(jù)流通下的數(shù)據(jù)安全和數(shù)據(jù)隱私》的演講。

靖人從數(shù)據(jù)特性入手,對獨(dú)特?cái)?shù)據(jù)背景下如何做到數(shù)據(jù)安全、隱私保護(hù),并發(fā)揮大數(shù)據(jù)應(yīng)用的價(jià)值進(jìn)行了討論,同時(shí)也首次引入了「開放智能」概念,對于螞蟻集團(tuán)面向隱私計(jì)算的技術(shù)架構(gòu)進(jìn)行了一番介紹。

在活動(dòng)中,螞蟻集團(tuán)的技術(shù)專家為我們展示了業(yè)內(nèi)對于數(shù)據(jù)安全和隱私保護(hù)的最新思考。

數(shù)據(jù)特性與算法倫理

首先為什么需要數(shù)據(jù)流通,因?yàn)閿?shù)據(jù)產(chǎn)生的場景與應(yīng)用場景不盡相同你可能會(huì)因?yàn)橘I了一杯咖啡而產(chǎn)生了數(shù)據(jù),但這些行為數(shù)據(jù),包括購物習(xí)慣、生活習(xí)慣等會(huì)被應(yīng)用在其他的場景中。數(shù)據(jù)只有在更多的場景中實(shí)現(xiàn)應(yīng)用,其價(jià)值才能得到不斷擴(kuò)展。

在數(shù)據(jù)流通的過程中,我們免不了會(huì)思考兩個(gè)深層次的問題:數(shù)據(jù)權(quán)屬和算法倫理。

我們可以把數(shù)據(jù)分成兩類,一類是個(gè)人的基礎(chǔ)數(shù)據(jù),比如性別,年齡等,這些數(shù)據(jù)歸屬于個(gè)人是沒有太多異議的,另一類是行為數(shù)據(jù),這類數(shù)據(jù)的產(chǎn)生涉及到多個(gè)數(shù)據(jù)主體:消費(fèi)者是一個(gè)行為主體,同時(shí)商品、服務(wù)也是行為主體,還有一方涉及到平臺,后者通過觀察消費(fèi)者和商品之間的一系列關(guān)系,再基于平臺自身的知識,把相互的行為數(shù)據(jù)記錄下來。

可以看到,行為數(shù)據(jù)的產(chǎn)生涉及多個(gè)主體,我們很難把行為數(shù)據(jù)分割成服務(wù)信息或個(gè)體信息,同時(shí)行為數(shù)據(jù)的產(chǎn)生還涉及到平臺的知識產(chǎn)權(quán)和勞動(dòng)成果。在數(shù)據(jù)流通的過程中,我們需要合理分配和保護(hù)所有主體和數(shù)據(jù)參與者的權(quán)益。

站在消費(fèi)者角度,我們思考如何保護(hù)自己的隱私,并通過數(shù)據(jù)分享為自己帶來更多的方便。同時(shí)在平臺角度,基于大數(shù)據(jù)的算法需要大量技術(shù)投入,在數(shù)據(jù)流通的過程中,我們也希望能夠保護(hù)平臺方的知識產(chǎn)權(quán)和勞動(dòng)成果,當(dāng)然也需要平臺依法接受監(jiān)管。

還有一個(gè)非常具有挑戰(zhàn)性的問題,我們稱之為算法倫理:應(yīng)用數(shù)據(jù)后對算法產(chǎn)生的影響。這個(gè)范疇包括了可解釋性、公平性、以及一系列的隱私保護(hù)。

如今大量的應(yīng)用使用了基于人工智能的算法,我們需要思考如何把社會(huì)學(xué)、經(jīng)濟(jì)學(xué)的思考映射到數(shù)學(xué)模型和算法方面。

例如我們會(huì)發(fā)現(xiàn):可解釋性和隱私在某種程度上存在矛盾。AI 模型的可解釋性需求往往是把一些模型的決策點(diǎn)一定程度上暴露出來。但隨著模型決策點(diǎn)和邊界條件的可視化,人們的隱私信息也在某種程度上面臨著暴露。很多時(shí)候,從模型的推斷結(jié)果可以反推一些人的基本屬性所以如何權(quán)衡這個(gè)問題,也是當(dāng)下我們需要研究的重要課題。

不過,可解釋性和算法公平性又存在相互促進(jìn)的關(guān)系。隨著算法從一個(gè)黑盒變成白盒,慢慢引入可解釋能力,我們將逐步消除 AI 算法中的潛在歧視。

數(shù)據(jù)開放流通的三個(gè)層次

討論完數(shù)據(jù)權(quán)屬和算法倫理之后,我們來看看如何在數(shù)據(jù)流通中去解決上述問題。

數(shù)據(jù)的流通可以簡單歸納為三個(gè)層次:

第一層:僅涉及到個(gè)人數(shù)據(jù)的生產(chǎn)和融合,僅僅是一個(gè)個(gè)體或平臺,或平臺通過觀察的方式積累個(gè)人行為數(shù)據(jù)。今天人們在電商平臺,或聚合新聞平臺、短視頻應(yīng)用等,都屬于這樣的場景。

第二層:機(jī)構(gòu)之間數(shù)據(jù)的互相交流,比較典型的例子是銀行通過用戶信息的流通不斷提升風(fēng)控能力,避免系統(tǒng)性風(fēng)險(xiǎn)。

第三層:數(shù)據(jù)流通的生態(tài),在理想情況下應(yīng)該存在多個(gè)數(shù)據(jù)的提供方,以及多個(gè)數(shù)據(jù)的消費(fèi)者,這中間有一系列的機(jī)制來保證數(shù)據(jù)隱私與安全,同時(shí)也能提供更好的數(shù)據(jù)服務(wù)。

在現(xiàn)階段我們主要需要探討前兩個(gè)層次的技術(shù)。

首先是個(gè)人數(shù)據(jù)生成和融合。這類場景會(huì)涉及到數(shù)據(jù)采集、模型訓(xùn)練,技術(shù)人員需要思考如何從數(shù)據(jù)挖掘核心信息,產(chǎn)生個(gè)性化模型,模型推理的結(jié)果會(huì)影響決策。這是一個(gè)比較長的鏈路,需在整個(gè)過程中關(guān)注如何保護(hù)個(gè)人隱私。保護(hù)往往需要從產(chǎn)品設(shè)計(jì)就開始考慮,并貫穿在產(chǎn)品的全生命周期中去。采集過程需以最小集采集為原則,而不是隨意的、無明確范疇采集,這方面要引入差分隱私、數(shù)據(jù)脫敏等技術(shù)。在建立模型后,還需進(jìn)行驗(yàn)證,確保模型可信這方面有差分隱私可解釋性的技術(shù)。

當(dāng)前的互聯(lián)網(wǎng)正在進(jìn)入云端協(xié)同的新階段,消費(fèi)者的行為通過手機(jī)或電腦在端上發(fā)生,模型很多在云上進(jìn)行大規(guī)模機(jī)器學(xué)習(xí)訓(xùn)練產(chǎn)生,這樣的體系被我們稱為云端協(xié)同。

在這個(gè)過程中,我們?nèi)粝胱龅诫[私保護(hù),需要在端上實(shí)現(xiàn)理解用戶的行為的同時(shí),去做初步的數(shù)據(jù)篩癬數(shù)據(jù)清洗等等工作。清洗后的數(shù)據(jù)再到云端融合其他數(shù)據(jù),產(chǎn)生新的模型計(jì)算。整個(gè)過程當(dāng)中,云端系統(tǒng)并沒有存儲用戶的行為,這種模式的真正應(yīng)用能夠?yàn)橄M(fèi)者提供更好的權(quán)益。

最典型的形式是聯(lián)邦學(xué)習(xí),它可以說是一個(gè)分布式學(xué)習(xí)框架,在數(shù)據(jù)采集后采用不出域的原則,也就是我們今天可以把很多原型計(jì)算放到端側(cè)設(shè)備上,通過協(xié)同方式去創(chuàng)建聯(lián)合學(xué)習(xí)模型的方式。在這個(gè)過程中我們也可以通過差分隱私、可信執(zhí)行環(huán)境等技術(shù)去加強(qiáng)數(shù)據(jù)保護(hù)的能力。

機(jī)構(gòu)之間的數(shù)據(jù)開放互通,通過各機(jī)構(gòu)之間信任關(guān)系、網(wǎng)絡(luò)狀態(tài)、數(shù)據(jù)量以及模型復(fù)雜度等方式,可分為下面幾個(gè)類別:

最直接的是集中式模式,也就是數(shù)據(jù)各個(gè)機(jī)構(gòu)、參與方能夠把數(shù)據(jù)匯總到集中式環(huán)節(jié)里進(jìn)行模型訓(xùn)練,進(jìn)行整個(gè)認(rèn)知智能的探索。或使用一個(gè)特定的小集群來提供高效的數(shù)據(jù)融合,后者的好處是效率高,數(shù)據(jù)融合在一個(gè)主體,就可進(jìn)行非常復(fù)雜的計(jì)算,它面臨的挑戰(zhàn)是如何搭建起可信環(huán)境。所以在實(shí)踐中,我們經(jīng)常會(huì)采用中心化模式。

去中心化模式中,所有的模型訓(xùn)練是分布式執(zhí)行:數(shù)據(jù)提供方也是計(jì)算參與方。通過多方的協(xié)同來進(jìn)行聯(lián)合訓(xùn)練、聯(lián)合學(xué)習(xí)。技術(shù)就會(huì)涉及到多方安全計(jì)算、同態(tài)加密等。在計(jì)算過程中做加密雖然帶來了安全性保障,對性能也提出了很大挑戰(zhàn)。該模式可做到安全可證,但同時(shí)會(huì)為性能付出代價(jià)。

集中式模式和去中心化模式之間還有一種中間狀態(tài),即聯(lián)合計(jì)算模式。這個(gè)模式里,每方都會(huì)參與到模型計(jì)算,同時(shí)再引入中心化模塊概念,其可以協(xié)調(diào)計(jì)算、模型訓(xùn)練。這里具有代表性的是聯(lián)邦學(xué)習(xí),拆分學(xué)習(xí)等,都屬于聯(lián)合計(jì)算學(xué)習(xí)框架。在這個(gè)框架中,我們需要通過差分隱私來保護(hù)各個(gè)模塊與中心化模塊之間的通信。以信息論為基礎(chǔ),我們可以度量任何信息交互所可能帶來的個(gè)人隱私風(fēng)險(xiǎn),也就是說個(gè)人隱私在聯(lián)邦學(xué)習(xí)環(huán)境中計(jì)算所帶來的一系列風(fēng)險(xiǎn)是可度量的。

所以,我們可以把機(jī)構(gòu)之間信息的開放、流通,可歸納為可信、可證、可度量的環(huán)境。

開放智能技術(shù)

如何把上面討論的內(nèi)容形成體系化的技術(shù)框架,去解決數(shù)據(jù)流通過程中遇到的各種問題,保證在各種復(fù)雜場景中數(shù)據(jù)的安全及隱私保護(hù)呢?

這里引入一個(gè)新名詞:開放智能,指的是用于解決數(shù)據(jù)開放流通過程中所面臨的一系列問題的前沿技術(shù)的統(tǒng)稱。這個(gè)領(lǐng)域非常復(fù)雜,技術(shù)也非常具有挑戰(zhàn)性在開放智能中,我們會(huì)面臨多個(gè)數(shù)據(jù)主體,包括個(gè)人、企業(yè),甚至政府,每一類主體的意愿、訴求都各不相同。個(gè)人層面想做到隱私保護(hù),企業(yè)訴求是希望保護(hù)自己的知識產(chǎn)權(quán)和勞動(dòng)成果。政府首先關(guān)注社會(huì)利益。同時(shí)還會(huì)涉及到如何激勵(lì)開放的意愿,同時(shí)避免數(shù)據(jù)歧視、算法壟斷等。

我們可把開放智能的技術(shù)分為五部分:

首先是是底層的數(shù)據(jù)技術(shù),主要用于解決數(shù)據(jù)授權(quán)的問題。

其次是計(jì)算技術(shù),包括可信計(jì)算、可度量計(jì)算、可證計(jì)算,用于解決計(jì)算過程中的隱私保護(hù)問題。

第三層為算法層,解決合規(guī)合法、算法倫理、魯棒性等算法可信賴的問題。

在此之上還有市場構(gòu)建,需要思考如何通過激勵(lì)機(jī)制、定價(jià)等,促進(jìn)形成良好生態(tài),解決數(shù)據(jù)流通過程中的效率問題。

最后是可驗(yàn)證技術(shù),當(dāng)模型訓(xùn)練好之后,我們需要確保模型實(shí)現(xiàn)的的確是我們需要它做的事情。

螞蟻推出了隱私計(jì)算框架隱語,這是螞蟻集團(tuán)經(jīng)過多年獨(dú)立自主研發(fā)和業(yè)務(wù)應(yīng)用打磨而構(gòu)建的一套統(tǒng)一框架,旨在解決數(shù)據(jù)價(jià)值的安全流動(dòng)這一行業(yè)難題。

該框架有兩個(gè)層次,上面一層是編譯器,通過新的編譯器技術(shù),我們可以將整個(gè)執(zhí)行圖自動(dòng)編譯成密態(tài)計(jì)算圖,并對其進(jìn)行一系列的優(yōu)化。下面一層是分布在不同參與方的 PPU(Privacy Preserving Unit),每一個(gè) PPU 提供可信可證可度量的基礎(chǔ)計(jì)算能力。由編譯器生成的密態(tài)計(jì)算圖會(huì)被分發(fā)到 PPU 上進(jìn)行計(jì)算,最終產(chǎn)出用戶需要的計(jì)算結(jié)果。

螞蟻集團(tuán)的隱私計(jì)算技術(shù)架構(gòu)隱語,具有以下幾個(gè)特點(diǎn):

可擴(kuò)展性,支持當(dāng)前主流的機(jī)器學(xué)習(xí)的框架,上層可對接包括 TensorFlow、Pytorch、JAX 在內(nèi)的多種主流機(jī)器學(xué)習(xí)框架,以及 SQL 前端;下層可以鏈接包括 SS、HE、GC 在內(nèi)的多種安全協(xié)議。

隱私保護(hù)能力:支持包括可信安全、可度量安全和可證安全在內(nèi)的多種隱私計(jì)算能力。

計(jì)算效率:目前隱私計(jì)算最大的問題在于性能瓶頸,螞蟻集團(tuán)對框架做了多方面的優(yōu)化,包括 Platform + PPU 的雙層設(shè)計(jì)可以提供分層優(yōu)化能力,可以提供業(yè)界頂尖的計(jì)算性能和計(jì)算規(guī)模。

開放智能的應(yīng)用

這樣一套隱私計(jì)算體系目前已經(jīng)獲得了應(yīng)用,一個(gè)的典型的場景是在個(gè)人信貸上。

人們在銀行辦理貸款時(shí),銀行為了降低風(fēng)險(xiǎn),往往會(huì)參考用戶之前在銀行系統(tǒng)中進(jìn)行過的各類操作,包括購買的基金、金融產(chǎn)品,日常消費(fèi)流水等。系統(tǒng)完整的分析結(jié)果會(huì)幫助我們提供更好的數(shù)據(jù)的服務(wù),但這個(gè)過程需要全鏈路、健全機(jī)制的保障,需要在用戶授權(quán)的情況下進(jìn)行分析。

為實(shí)現(xiàn)上述效果,就會(huì)涉及到多方安全計(jì)算。在聯(lián)合計(jì)算之后還需進(jìn)行驗(yàn)證,以確保每個(gè)數(shù)據(jù)參與方真正完成了它所需要做的計(jì)算。當(dāng)訓(xùn)練好 AI 模型后,因?yàn)椴荒苁呛诤袪顟B(tài),需要實(shí)現(xiàn)可解釋,還要面向消費(fèi)者進(jìn)行告知:為什么今天可以貸這么多款。系統(tǒng)也不能因?yàn)榭蛻舻男詣e、年齡就對用戶區(qū)別對待,在這一環(huán)節(jié)也需確保算法是公平的。最后,還有非常重要的監(jiān)管環(huán)節(jié),要有存證、審計(jì)的能力。

開放智能是一個(gè)包含多領(lǐng)域知識的技術(shù)體系,涉及到了數(shù)據(jù)鑒權(quán)、隱私計(jì)算、可信賴 AI、市場機(jī)制等。這是一個(gè)嶄新的領(lǐng)域,還有很多技術(shù)有待研究和創(chuàng)新。隨著人們的不斷參與,未來我們還將看到越來越多的新進(jìn)展。

THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港