當(dāng)前位置：人工智能實(shí)驗(yàn)室> 企業(yè)新聞 > WAIC 2021｜面向開放智能，螞蟻集團(tuán)揭秘隱私計(jì)算框架

WAIC 2021｜面向開放智能，螞蟻集團(tuán)揭秘隱私計(jì)算框架
來源：互聯(lián)網(wǎng) 發(fā)布日期：2021-08-05 08:18:10 瀏覽：17526次

導(dǎo)讀：機(jī)器之心報(bào)道機(jī)器之心編輯部最近一段時(shí)間，隱私計(jì)算成為了眾多科技公司的研究方向，它或許將成為數(shù)據(jù)市場化的重要基礎(chǔ)設(shè)施。眾所周知，數(shù)據(jù)的價(jià)值是在經(jīng)濟(jì)活動(dòng)中信息交互所產(chǎn)生的數(shù)據(jù)越流通，應(yīng)用的場景越豐富，其價(jià)值會(huì)得到不斷放大及提升。不過在數(shù)據(jù)流...

機(jī)器之心報(bào)道

機(jī)器之心編輯部

最近一段時(shí)間，隱私計(jì)算成為了眾多科技公司的研究方向，它或許將成為數(shù)據(jù)市場化的重要基礎(chǔ)設(shè)施。

眾所周知，數(shù)據(jù)的價(jià)值是在經(jīng)濟(jì)活動(dòng)中信息交互所產(chǎn)生的數(shù)據(jù)越流通，應(yīng)用的場景越豐富，其價(jià)值會(huì)得到不斷放大及提升。不過在數(shù)據(jù)流通過程中，我們必須時(shí)刻考慮數(shù)據(jù)安全與隱私保護(hù)問題。

不久之前，螞蟻集團(tuán)智能引擎與數(shù)據(jù)中臺技術(shù)部負(fù)責(zé)人、IEEE Fellow 周靖人博士在世界人工智能大會(huì) WAIC 2021「隱私計(jì)算學(xué)術(shù)交流會(huì)」上發(fā)表了題為《開放智能數(shù)據(jù)流通下的數(shù)據(jù)安全和數(shù)據(jù)隱私》的演講。

靖人從數(shù)據(jù)特性入手，對獨(dú)特?cái)?shù)據(jù)背景下如何做到數(shù)據(jù)安全、隱私保護(hù)，并發(fā)揮大數(shù)據(jù)應(yīng)用的價(jià)值進(jìn)行了討論，同時(shí)也首次引入了「開放智能」概念，對于螞蟻集團(tuán)面向隱私計(jì)算的技術(shù)架構(gòu)進(jìn)行了一番介紹。

在活動(dòng)中，螞蟻集團(tuán)的技術(shù)專家為我們展示了業(yè)內(nèi)對于數(shù)據(jù)安全和隱私保護(hù)的最新思考。

數(shù)據(jù)特性與算法倫理

首先為什么需要數(shù)據(jù)流通，因?yàn)閿?shù)據(jù)產(chǎn)生的場景與應(yīng)用場景不盡相同你可能會(huì)因?yàn)橘I了一杯咖啡而產(chǎn)生了數(shù)據(jù)，但這些行為數(shù)據(jù)，包括購物習(xí)慣、生活習(xí)慣等會(huì)被應(yīng)用在其他的場景中。數(shù)據(jù)只有在更多的場景中實(shí)現(xiàn)應(yīng)用，其價(jià)值才能得到不斷擴(kuò)展。

在數(shù)據(jù)流通的過程中，我們免不了會(huì)思考兩個(gè)深層次的問題：數(shù)據(jù)權(quán)屬和算法倫理。

我們可以把數(shù)據(jù)分成兩類，一類是個(gè)人的基礎(chǔ)數(shù)據(jù)，比如性別，年齡等，這些數(shù)據(jù)歸屬于個(gè)人是沒有太多異議的，另一類是行為數(shù)據(jù)，這類數(shù)據(jù)的產(chǎn)生涉及到多個(gè)數(shù)據(jù)主體：消費(fèi)者是一個(gè)行為主體，同時(shí)商品、服務(wù)也是行為主體，還有一方涉及到平臺，后者通過觀察消費(fèi)者和商品之間的一系列關(guān)系，再基于平臺自身的知識，把相互的行為數(shù)據(jù)記錄下來。

可以看到，行為數(shù)據(jù)的產(chǎn)生涉及多個(gè)主體，我們很難把行為數(shù)據(jù)分割成服務(wù)信息或個(gè)體信息，同時(shí)行為數(shù)據(jù)的產(chǎn)生還涉及到平臺的知識產(chǎn)權(quán)和勞動(dòng)成果。在數(shù)據(jù)流通的過程中，我們需要合理分配和保護(hù)所有主體和數(shù)據(jù)參與者的權(quán)益。

站在消費(fèi)者角度，我們思考如何保護(hù)自己的隱私，并通過數(shù)據(jù)分享為自己帶來更多的方便。同時(shí)在平臺角度，基于大數(shù)據(jù)的算法需要大量技術(shù)投入，在數(shù)據(jù)流通的過程中，我們也希望能夠保護(hù)平臺方的知識產(chǎn)權(quán)和勞動(dòng)成果，當(dāng)然也需要平臺依法接受監(jiān)管。

還有一個(gè)非常具有挑戰(zhàn)性的問題，我們稱之為算法倫理：應(yīng)用數(shù)據(jù)后對算法產(chǎn)生的影響。這個(gè)范疇包括了可解釋性、公平性、以及一系列的隱私保護(hù)。

如今大量的應(yīng)用使用了基于人工智能的算法，我們需要思考如何把社會(huì)學(xué)、經(jīng)濟(jì)學(xué)的思考映射到數(shù)學(xué)模型和算法方面。

例如我們會(huì)發(fā)現(xiàn)：可解釋性和隱私在某種程度上存在矛盾。AI 模型的可解釋性需求往往是把一些模型的決策點(diǎn)一定程度上暴露出來。但隨著模型決策點(diǎn)和邊界條件的可視化，人們的隱私信息也在某種程度上面臨著暴露。很多時(shí)候，從模型的推斷結(jié)果可以反推一些人的基本屬性所以如何權(quán)衡這個(gè)問題，也是當(dāng)下我們需要研究的重要課題。

不過，可解釋性和算法公平性又存在相互促進(jìn)的關(guān)系。隨著算法從一個(gè)黑盒變成白盒，慢慢引入可解釋能力，我們將逐步消除 AI 算法中的潛在歧視。

數(shù)據(jù)開放流通的三個(gè)層次

討論完數(shù)據(jù)權(quán)屬和算法倫理之后，我們來看看如何在數(shù)據(jù)流通中去解決上述問題。

數(shù)據(jù)的流通可以簡單歸納為三個(gè)層次：

第一層：僅涉及到個(gè)人數(shù)據(jù)的生產(chǎn)和融合，僅僅是一個(gè)個(gè)體或平臺，或平臺通過觀察的方式積累個(gè)人行為數(shù)據(jù)。今天人們在電商平臺，或聚合新聞平臺、短視頻應(yīng)用等，都屬于這樣的場景。

第二層：機(jī)構(gòu)之間數(shù)據(jù)的互相交流，比較典型的例子是銀行通過用戶信息的流通不斷提升風(fēng)控能力，避免系統(tǒng)性風(fēng)險(xiǎn)。

第三層：數(shù)據(jù)流通的生態(tài)，在理想情況下應(yīng)該存在多個(gè)數(shù)據(jù)的提供方，以及多個(gè)數(shù)據(jù)的消費(fèi)者，這中間有一系列的機(jī)制來保證數(shù)據(jù)隱私與安全，同時(shí)也能提供更好的數(shù)據(jù)服務(wù)。

在現(xiàn)階段我們主要需要探討前兩個(gè)層次的技術(shù)。

首先是個(gè)人數(shù)據(jù)生成和融合。這類場景會(huì)涉及到數(shù)據(jù)采集、模型訓(xùn)練，技術(shù)人員需要思考如何從數(shù)據(jù)挖掘核心信息，產(chǎn)生個(gè)性化模型，模型推理的結(jié)果會(huì)影響決策。這是一個(gè)比較長的鏈路，需在整個(gè)過程中關(guān)注如何保護(hù)個(gè)人隱私。保護(hù)往往需要從產(chǎn)品設(shè)計(jì)就開始考慮，并貫穿在產(chǎn)品的全生命周期中去。采集過程需以最小集采集為原則，而不是隨意的、無明確范疇采集，這方面要引入差分隱私、數(shù)據(jù)脫敏等技術(shù)。在建立模型后，還需進(jìn)行驗(yàn)證，確保模型可信這方面有差分隱私可解釋性的技術(shù)。

當(dāng)前的互聯(lián)網(wǎng)正在進(jìn)入云端協(xié)同的新階段，消費(fèi)者的行為通過手機(jī)或電腦在端上發(fā)生，模型很多在云上進(jìn)行大規(guī)模機(jī)器學(xué)習(xí)訓(xùn)練產(chǎn)生，這樣的體系被我們稱為云端協(xié)同。

在這個(gè)過程中，我們?nèi)粝胱龅诫[私保護(hù)，需要在端上實(shí)現(xiàn)理解用戶的行為的同時(shí)，去做初步的數(shù)據(jù)篩癬數(shù)據(jù)清洗等等工作。清洗后的數(shù)據(jù)再到云端融合其他數(shù)據(jù)，產(chǎn)生新的模型計(jì)算。整個(gè)過程當(dāng)中，云端系統(tǒng)并沒有存儲用戶的行為，這種模式的真正應(yīng)用能夠?yàn)橄M(fèi)者提供更好的權(quán)益。

最典型的形式是聯(lián)邦學(xué)習(xí)，它可以說是一個(gè)分布式學(xué)習(xí)框架，在數(shù)據(jù)采集后采用不出域的原則，也就是我們今天可以把很多原型計(jì)算放到端側(cè)設(shè)備上，通過協(xié)同方式去創(chuàng)建聯(lián)合學(xué)習(xí)模型的方式。在這個(gè)過程中我們也可以通過差分隱私、可信執(zhí)行環(huán)境等技術(shù)去加強(qiáng)數(shù)據(jù)保護(hù)的能力。

機(jī)構(gòu)之間的數(shù)據(jù)開放互通，通過各機(jī)構(gòu)之間信任關(guān)系、網(wǎng)絡(luò)狀態(tài)、數(shù)據(jù)量以及模型復(fù)雜度等方式，可分為下面幾個(gè)類別：

最直接的是集中式模式，也就是數(shù)據(jù)各個(gè)機(jī)構(gòu)、參與方能夠把數(shù)據(jù)匯總到集中式環(huán)節(jié)里進(jìn)行模型訓(xùn)練，進(jìn)行整個(gè)認(rèn)知智能的探索。或使用一個(gè)特定的小集群來提供高效的數(shù)據(jù)融合，后者的好處是效率高，數(shù)據(jù)融合在一個(gè)主體，就可進(jìn)行非常復(fù)雜的計(jì)算，它面臨的挑戰(zhàn)是如何搭建起可信環(huán)境。所以在實(shí)踐中，我們經(jīng)常會(huì)采用中心化模式。

去中心化模式中，所有的模型訓(xùn)練是分布式執(zhí)行：數(shù)據(jù)提供方也是計(jì)算參與方。通過多方的協(xié)同來進(jìn)行聯(lián)合訓(xùn)練、聯(lián)合學(xué)習(xí)。技術(shù)就會(huì)涉及到多方安全計(jì)算、同態(tài)加密等。在計(jì)算過程中做加密雖然帶來了安全性保障，對性能也提出了很大挑戰(zhàn)。該模式可做到安全可證，但同時(shí)會(huì)為性能付出代價(jià)。

集中式模式和去中心化模式之間還有一種中間狀態(tài)，即聯(lián)合計(jì)算模式。這個(gè)模式里，每方都會(huì)參與到模型計(jì)算，同時(shí)再引入中心化模塊概念，其可以協(xié)調(diào)計(jì)算、模型訓(xùn)練。這里具有代表性的是聯(lián)邦學(xué)習(xí)，拆分學(xué)習(xí)等，都屬于聯(lián)合計(jì)算學(xué)習(xí)框架。在這個(gè)框架中，我們需要通過差分隱私來保護(hù)各個(gè)模塊與中心化模塊之間的通信。以信息論為基礎(chǔ)，我們可以度量任何信息交互所可能帶來的個(gè)人隱私風(fēng)險(xiǎn)，也就是說個(gè)人隱私在聯(lián)邦學(xué)習(xí)環(huán)境中計(jì)算所帶來的一系列風(fēng)險(xiǎn)是可度量的。

所以，我們可以把機(jī)構(gòu)之間信息的開放、流通，可歸納為可信、可證、可度量的環(huán)境。

開放智能技術(shù)

如何把上面討論的內(nèi)容形成體系化的技術(shù)框架，去解決數(shù)據(jù)流通過程中遇到的各種問題，保證在各種復(fù)雜場景中數(shù)據(jù)的安全及隱私保護(hù)呢？

這里引入一個(gè)新名詞：開放智能，指的是用于解決數(shù)據(jù)開放流通過程中所面臨的一系列問題的前沿技術(shù)的統(tǒng)稱。這個(gè)領(lǐng)域非常復(fù)雜，技術(shù)也非常具有挑戰(zhàn)性在開放智能中，我們會(huì)面臨多個(gè)數(shù)據(jù)主體，包括個(gè)人、企業(yè)，甚至政府，每一類主體的意愿、訴求都各不相同。個(gè)人層面想做到隱私保護(hù)，企業(yè)訴求是希望保護(hù)自己的知識產(chǎn)權(quán)和勞動(dòng)成果。政府首先關(guān)注社會(huì)利益。同時(shí)還會(huì)涉及到如何激勵(lì)開放的意愿，同時(shí)避免數(shù)據(jù)歧視、算法壟斷等。

我們可把開放智能的技術(shù)分為五部分：

首先是是底層的數(shù)據(jù)技術(shù)，主要用于解決數(shù)據(jù)授權(quán)的問題。

其次是計(jì)算技術(shù)，包括可信計(jì)算、可度量計(jì)算、可證計(jì)算，用于解決計(jì)算過程中的隱私保護(hù)問題。

第三層為算法層，解決合規(guī)合法、算法倫理、魯棒性等算法可信賴的問題。

在此之上還有市場構(gòu)建，需要思考如何通過激勵(lì)機(jī)制、定價(jià)等，促進(jìn)形成良好生態(tài)，解決數(shù)據(jù)流通過程中的效率問題。

最后是可驗(yàn)證技術(shù)，當(dāng)模型訓(xùn)練好之后，我們需要確保模型實(shí)現(xiàn)的的確是我們需要它做的事情。

螞蟻推出了隱私計(jì)算框架隱語，這是螞蟻集團(tuán)經(jīng)過多年獨(dú)立自主研發(fā)和業(yè)務(wù)應(yīng)用打磨而構(gòu)建的一套統(tǒng)一框架，旨在解決數(shù)據(jù)價(jià)值的安全流動(dòng)這一行業(yè)難題。

該框架有兩個(gè)層次，上面一層是編譯器，通過新的編譯器技術(shù)，我們可以將整個(gè)執(zhí)行圖自動(dòng)編譯成密態(tài)計(jì)算圖，并對其進(jìn)行一系列的優(yōu)化。下面一層是分布在不同參與方的 PPU（Privacy Preserving Unit），每一個(gè) PPU 提供可信可證可度量的基礎(chǔ)計(jì)算能力。由編譯器生成的密態(tài)計(jì)算圖會(huì)被分發(fā)到 PPU 上進(jìn)行計(jì)算，最終產(chǎn)出用戶需要的計(jì)算結(jié)果。

螞蟻集團(tuán)的隱私計(jì)算技術(shù)架構(gòu)隱語，具有以下幾個(gè)特點(diǎn)：

可擴(kuò)展性，支持當(dāng)前主流的機(jī)器學(xué)習(xí)的框架，上層可對接包括 TensorFlow、Pytorch、JAX 在內(nèi)的多種主流機(jī)器學(xué)習(xí)框架，以及 SQL 前端；下層可以鏈接包括 SS、HE、GC 在內(nèi)的多種安全協(xié)議。

隱私保護(hù)能力：支持包括可信安全、可度量安全和可證安全在內(nèi)的多種隱私計(jì)算能力。

計(jì)算效率：目前隱私計(jì)算最大的問題在于性能瓶頸，螞蟻集團(tuán)對框架做了多方面的優(yōu)化，包括 Platform + PPU 的雙層設(shè)計(jì)可以提供分層優(yōu)化能力，可以提供業(yè)界頂尖的計(jì)算性能和計(jì)算規(guī)模。

開放智能的應(yīng)用

這樣一套隱私計(jì)算體系目前已經(jīng)獲得了應(yīng)用，一個(gè)的典型的場景是在個(gè)人信貸上。

人們在銀行辦理貸款時(shí)，銀行為了降低風(fēng)險(xiǎn)，往往會(huì)參考用戶之前在銀行系統(tǒng)中進(jìn)行過的各類操作，包括購買的基金、金融產(chǎn)品，日常消費(fèi)流水等。系統(tǒng)完整的分析結(jié)果會(huì)幫助我們提供更好的數(shù)據(jù)的服務(wù)，但這個(gè)過程需要全鏈路、健全機(jī)制的保障，需要在用戶授權(quán)的情況下進(jìn)行分析。

為實(shí)現(xiàn)上述效果，就會(huì)涉及到多方安全計(jì)算。在聯(lián)合計(jì)算之后還需進(jìn)行驗(yàn)證，以確保每個(gè)數(shù)據(jù)參與方真正完成了它所需要做的計(jì)算。當(dāng)訓(xùn)練好 AI 模型后，因?yàn)椴荒苁呛诤袪顟B(tài)，需要實(shí)現(xiàn)可解釋，還要面向消費(fèi)者進(jìn)行告知：為什么今天可以貸這么多款。系統(tǒng)也不能因?yàn)榭蛻舻男詣e、年齡就對用戶區(qū)別對待，在這一環(huán)節(jié)也需確保算法是公平的。最后，還有非常重要的監(jiān)管環(huán)節(jié)，要有存證、審計(jì)的能力。

開放智能是一個(gè)包含多領(lǐng)域知識的技術(shù)體系，涉及到了數(shù)據(jù)鑒權(quán)、隱私計(jì)算、可信賴 AI、市場機(jī)制等。這是一個(gè)嶄新的領(lǐng)域，還有很多技術(shù)有待研究和創(chuàng)新。隨著人們的不斷參與，未來我們還將看到越來越多的新進(jìn)展。

THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

相關(guān)熱詞： WAIC 2021 面向開放智能螞蟻集團(tuán) 揭秘隱私