機器之心發(fā)布
機器之心編輯部
工業(yè)互聯(lián)網(wǎng)的發(fā)展帶來了龐大體量的數(shù)據(jù),且增速非?欤瑢(shù)據(jù)安全有強訴求,包括工業(yè)互聯(lián)網(wǎng)在內(nèi)的整個數(shù)據(jù)流通領(lǐng)域,都會告別數(shù)據(jù)明文時代,開啟數(shù)據(jù)密態(tài)時代新征程。
數(shù)據(jù)正成為新時代的石油。但與數(shù)據(jù)石油并存的還有采集、共享與流通障礙制造的孤島與各種風(fēng)險。
2021 年 9 月 1 日,歷經(jīng)三次審議,《數(shù)據(jù)安全法》正式實施。多部有關(guān)數(shù)據(jù)安全法律法規(guī),凸顯出數(shù)據(jù)領(lǐng)域合規(guī)發(fā)展的需求,也將原本小眾的隱私計算推到更多人的面前。
所謂隱私計算,是指在保證數(shù)據(jù)提供方不泄露原始數(shù)據(jù)的前提下,對數(shù)據(jù)進行分析計算的一系列信息技術(shù),保障數(shù)據(jù)在流通與融合過程中的“可用不可見”“可算不可識”。
隱私計算并非單一技術(shù),而是一套包含 AI、密碼學(xué)、數(shù)據(jù)科學(xué)等跨學(xué)科知識的技術(shù)體系。多方安全計算、聯(lián)邦學(xué)習(xí)、可信執(zhí)行環(huán)境等作為隱私計算的重要技術(shù)分支,理論基礎(chǔ)研究已開展多年。
這幾年,金融、醫(yī)療、政務(wù)等行業(yè)數(shù)據(jù)合規(guī)迫切需求,已經(jīng)使得實現(xiàn)數(shù)據(jù) “可用不可見”、“可算不可識” 成為普遍需求。隨著工業(yè)互聯(lián)網(wǎng)邁向數(shù)據(jù)密態(tài)時代,無論是工業(yè)數(shù)據(jù)價值保護、數(shù)據(jù)資產(chǎn)界定,還是工業(yè)互聯(lián)網(wǎng)價值的真正釋放,隱私計算都是一種非常好的解決方案。
“工業(yè)數(shù)據(jù)密態(tài)時代需要擁抱可信隱私計算。” 在 3 月 25 日舉行的工業(yè)互聯(lián)網(wǎng)安全講壇上,螞蟻集團副總裁韋韜發(fā)表了題為《迎接工業(yè)數(shù)據(jù)密態(tài)時代,擁抱可信隱私計算》的演講,詳細闡述了數(shù)據(jù)密態(tài)時代的技術(shù)特征,提出可信隱私計算技術(shù)將是工業(yè)數(shù)據(jù)密態(tài)時代的解決方案,可以支撐類如 “東數(shù)西算” 級別的大規(guī)模數(shù)據(jù)場景。
機器之心對韋韜演講內(nèi)容做了不改變原意的整理。
一、邁向數(shù)據(jù)密態(tài)時代的技術(shù)挑戰(zhàn)
工業(yè)互聯(lián)網(wǎng)概念由美國企業(yè) GE 提出,是新一代信息通信技術(shù)與工業(yè)經(jīng)濟深度融合的全新工業(yè)生態(tài)、關(guān)鍵基礎(chǔ)設(shè)施和新型應(yīng)用模式。
“這是一個非常宏大的行動計劃。”韋韜解釋道,以網(wǎng)絡(luò)為基儲平臺為中樞,以數(shù)據(jù)為要素,通過對人、機、物全面連接安全為保障的發(fā)展體系,變革傳統(tǒng)制造模式、生產(chǎn)組織方式和產(chǎn)業(yè)形態(tài),構(gòu)建起全要素、全產(chǎn)業(yè)鏈、全價值鏈、全面連接的新型工業(yè)生產(chǎn)制造和服務(wù)體系。
概念雖然源自美國,但中國對工業(yè)互聯(lián)網(wǎng)有著更加系統(tǒng)化和前瞻性的規(guī)劃。
例如,2021 年 2 月,工業(yè)互聯(lián)網(wǎng)專項工作組印發(fā)的《工業(yè)互聯(lián)網(wǎng)創(chuàng)新發(fā)展行動計劃(2021-2023 年)》(工信部信管〔2020〕197 號)提出了五方面、11 項重點行動和 10 大重點工程,著力解決工業(yè)互聯(lián)網(wǎng)發(fā)展中的深層次難點、痛點問題。其中,明確了數(shù)據(jù)是平臺應(yīng)用的關(guān)鍵資源,要推動數(shù)據(jù)匯聚、流轉(zhuǎn)、分析、應(yīng)用,進一步發(fā)揮數(shù)據(jù)在工業(yè)互聯(lián)網(wǎng)創(chuàng)新發(fā)展中的重要作用。
工業(yè)互聯(lián)網(wǎng)的發(fā)展對數(shù)據(jù)的訴求非常強,甚至有不少專家認為,只有把工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)流通的問題解決,工業(yè)互聯(lián)網(wǎng)的價值才能真正展現(xiàn)出來。
數(shù)據(jù)要素流通是工業(yè)互聯(lián)網(wǎng)產(chǎn)生價值的重要基礎(chǔ),韋韜稱;ヂ(lián)、數(shù)據(jù)采集是工業(yè)互聯(lián)網(wǎng)產(chǎn)生價值的基礎(chǔ),只有做到互聯(lián)與采集數(shù)據(jù),而不是止步于連通性(connectivity),分析與智能化才有價值。
在工業(yè)互聯(lián)網(wǎng)領(lǐng)域,數(shù)據(jù)要素流通至關(guān)重要的,是整個工業(yè)互聯(lián)網(wǎng)產(chǎn)生價值的重要基矗但同時,挑戰(zhàn)也顯而易見。
例如,工業(yè)互聯(lián)網(wǎng)以兆 PB 的方式來做計算,數(shù)據(jù)量級非常龐大,增速非常驚人。經(jīng)常有業(yè)界人士感慨,工業(yè)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)如此龐大,一些新興的數(shù)據(jù)庫技術(shù)如何做這種特殊的匹配,是非常難處理的一件事。
我們可以在一些高科技地區(qū)看到很多自動駕駛公司實驗車輛出沒,這些車上頂著各種各樣的探頭,各種各樣的傳感器,這種傳感器其實是把周圍的人和環(huán)境,和這些工業(yè)互聯(lián)網(wǎng)的數(shù)據(jù)耦合在一起。這些傳感器數(shù)據(jù)的重要性也逐漸被廣泛關(guān)注,如果缺乏相關(guān)安全管控,甚至可能引發(fā)國家安全相關(guān)問題。
工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)是網(wǎng)際空間(cyber space)和物理空間的一個強耦合點。“(數(shù)據(jù))處理挑戰(zhàn)非常大,(數(shù)據(jù))量級極其驚人,數(shù)據(jù)重要性也非常高,甚至涉及到國家安全層面,它的安全保障也非常的重要,這就是整個行業(yè)面前的一個嚴(yán)峻的挑戰(zhàn)。” 韋韜稱。
工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)傳統(tǒng)上以商業(yè)化數(shù)據(jù)為主,但也能看到越來越多的涉及到個人數(shù)據(jù)的融合。
國家十分重視數(shù)據(jù)安全的重要性。例如,習(xí)總書記明確指出“網(wǎng)絡(luò)安全和信息化是一體之兩翼、驅(qū)動之雙輪,必須統(tǒng)一謀劃、統(tǒng)一部署、統(tǒng)一推進、統(tǒng)一實施。”
國務(wù)院辦公廳的《要素市場化配置總和改革試點總體方案》第二十條建立健全數(shù)據(jù)流通交易規(guī)則中強調(diào)了“原始數(shù)據(jù)不出域。”
無論是政策法規(guī)要求,還是技術(shù)成熟度,整個數(shù)據(jù)流通領(lǐng)域,包括工業(yè)互聯(lián)網(wǎng)的數(shù)據(jù)要素流通,都會告別數(shù)據(jù)明文時代,開啟數(shù)據(jù)密態(tài)時代新征程。
二、技術(shù)挑戰(zhàn)與可信隱私計算
數(shù)據(jù)密態(tài)時代對技術(shù)提出了五大要求,亦即:性能高、穩(wěn)定性強、靈活適用、成本低、安全性強。
首先,作為實現(xiàn)數(shù)據(jù)安全的基礎(chǔ)設(shè)施技術(shù),最基本要求是性能要足夠高,要達到每小時訓(xùn)練億級樣本的量級。一旦上到多方安全計算、聯(lián)邦學(xué)習(xí),它的性能下降極其嚴(yán)重。因此,需要更加全面的技術(shù)框架,來支撐性能上的要求。
其次,作為一項關(guān)鍵基礎(chǔ)設(shè)施,對技術(shù)的穩(wěn)定性也有非常高的要求。服務(wù)國計民生的基礎(chǔ)設(shè)施可靠性至少要 4 個 9 以上,而行業(yè)靠前的服務(wù)提供者基本上都要向 5 個 9 的級別來努力,難度非常大,但也是關(guān)鍵基礎(chǔ)設(shè)施技術(shù)必須滿足的要求。
第三,作為關(guān)鍵基礎(chǔ)設(shè)施的技術(shù),成本要足夠低。只有讓其成為快消品而不是奢侈品,才能成為行業(yè)基石?傮w上,密態(tài)計算的成本增加,不應(yīng)該超過明文計算成本增加的一個數(shù)量級。
第四,技術(shù)在實際應(yīng)用中的適用性要強,算法和安全評估不能隨著場景或者參與方的增加而變動。
最后,作為上述所有特性的基礎(chǔ),技術(shù)的安全性要符合相關(guān)級別的要求,能夠達成行業(yè)共識。安全性是一個隱性要求,不能為了提高性能降低成本,損失安全性,這也違背了數(shù)據(jù)密態(tài)時代大的訴求方向。
不過,如何保障安全性面臨非常嚴(yán)峻的挑戰(zhàn)。從產(chǎn)品來看,融合和根據(jù)需求適配已經(jīng)成為趨勢。滿足數(shù)據(jù)密態(tài)時代的產(chǎn)業(yè)需求,僅靠單一技術(shù)是不夠的。
事實上,實現(xiàn)這樣的數(shù)據(jù)安全要求的隱私計算技術(shù)流派曾一度成為熱門話題。比如,可信計算環(huán)境 TEE 無需深入研究算法和密碼學(xué),依靠可信硬件實現(xiàn)數(shù)據(jù)保護,但也面臨著系統(tǒng)安全的諸多挑戰(zhàn);多方安全計算歷史悠久,提供大量底層安全技術(shù);聯(lián)邦學(xué)習(xí)則結(jié)合密碼學(xué)和分布式計算實現(xiàn)多方協(xié)作的機器學(xué)習(xí)。
“未來趨勢是將密碼技術(shù)、可信計算技術(shù)等多項技術(shù)融合形成可信隱私計算,”韋韜認為。
三、為什么是可信隱私計算技術(shù)
可信隱私計算的核心是,在隱私計算技術(shù)體系層面提供可信支撐,對個人信息和敏感數(shù)據(jù)提供高效的、全生命周期的安全合規(guī)保障。業(yè)界可以在可信隱私計算的框架下,有效解決當(dāng)下面臨的合規(guī)、業(yè)務(wù)支撐、安全保障等挑戰(zhàn)。
例如,可信隱私計算可以很好滿足企業(yè)合規(guī)要求。2021 年 11 月 1 日正式實施的《個人信息保護法》一共出現(xiàn)了 27 次同意。
“每一新應(yīng)用場景使用個人信息,都要獲得個人明確單獨授權(quán),數(shù)據(jù)不出域、可用不可見,都要先有授權(quán),概括授權(quán)已經(jīng)是明確違法違規(guī)。” 韋韜稱,27 個同意形成的“授權(quán)墻”,對隱私權(quán)保障提供了非常堅實的基礎(chǔ),同時也對行業(yè)數(shù)據(jù)應(yīng)用也提出了非常嚴(yán)峻的挑戰(zhàn)。
例如,AI 模型訓(xùn)練,如果每一個新應(yīng)用場景的 AI 模型訓(xùn)練,都需要每一條數(shù)據(jù)主體個人的重新授權(quán)。大多數(shù)場景因為這樣巨大的授權(quán)挑戰(zhàn)將難以獲得無偏見的訓(xùn)練數(shù)據(jù),從而導(dǎo)致 AI 技術(shù)的應(yīng)用效果受到嚴(yán)影響。對于風(fēng)控等與黑灰產(chǎn)對抗的領(lǐng)域,黑灰產(chǎn)所使用的賬號,更不可能給予相關(guān)授權(quán)。
在這樣的要求下,經(jīng)過立法方、監(jiān)管和從業(yè)者很多密切的溝通后,為行業(yè)發(fā)展留下核心切口是匿名化。
“匿名化是一個非常嚴(yán)格的要求,指個人信息經(jīng)過處理,無法識別特定自然人,而且不能復(fù)原的過程。” 韋韜表示,我們把這個法條歸納總結(jié)成“可算不可識”,其實是法律條款對技術(shù)要求的體現(xiàn)。
“它的關(guān)注點不是對于數(shù)據(jù)如何脫敏,而是數(shù)據(jù)處理、數(shù)據(jù)流動、價值提取的過程中間必須滿足匿名化的要求,嚴(yán)格保持特定個人身份不能被識別。‘可算不可識’是要在滿足匿名化要求的同時,提升數(shù)據(jù)要素應(yīng)用的能力。”
匿名化應(yīng)該是在安全受控環(huán)境內(nèi)的相對匿名化。韋韜稱,我們應(yīng)該把信息處理環(huán)境控制起來,并不是做了去標(biāo)識、脫敏,就可以堂而皇之地掛在互聯(lián)網(wǎng)上,讓任何人去分析,任何人去處理。“把環(huán)境控制住,保障個體顆粒度數(shù)據(jù)要素價值能夠持續(xù)。”
在這種情況之下,可信計算技術(shù)實際上是非常好的一個技術(shù),因為它能夠不依賴于個體人運維和審計能力,而是可以通過技術(shù)手段在網(wǎng)絡(luò)上進行遠程驗證,來保障這些數(shù)據(jù)不被濫用。
可信計算的關(guān)鍵技術(shù)支點包括:運行環(huán)境隔離,即數(shù)據(jù)的存儲、傳輸與處理環(huán)境與外部有效隔離;遠程驗證,數(shù)據(jù)處理和輸出的管控機制可以遠程驗證;TPM/TCM 支持的遠程審計,數(shù)據(jù)處理和輸出的過程和結(jié)果可以遠程審計,支持后繼上鏈。
除了相對匿名化領(lǐng)域,可信隱私計算的適用性和可靠性也有望解決工業(yè)互聯(lián)網(wǎng)領(lǐng)域的業(yè)務(wù)瓶頸。
例如,工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模極其龐大,而且增速非?。當(dāng)前隱私計算有一個比較嚴(yán)峻的瓶頸就是它的數(shù)據(jù)計算都是需要高頻度跨網(wǎng)的計算。
要跨網(wǎng)就無法回避公網(wǎng)或者專線帶寬、時延帶來的嚴(yán)重瓶頸。包括聯(lián)邦學(xué)習(xí)在內(nèi),做 30 萬數(shù)據(jù)的 GBDT 樹模型訓(xùn)練,在目前普通的公網(wǎng)或?qū)>條件之下,30 萬樣本(每個樣本 400 維屬性數(shù)據(jù))這樣普通的小規(guī)模數(shù)據(jù)集,需要 8 個小時。在大規(guī)模的行業(yè)應(yīng)用中非常受限,對于工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)來說,這個規(guī)模其實遠遠不夠用的。
另外,由于所有的計算都要很強地依賴于跨網(wǎng)絡(luò)交互,導(dǎo)致成本非常昂貴。即使在云計算環(huán)境里面,最貴的成本不是計算成本,也不是存儲成本,而是帶寬成本,而這恰恰是一個現(xiàn)在跨網(wǎng)絡(luò)隱私計算的一個核心依賴。
為此,螞蟻集團在可信隱私計算技術(shù)框架下首創(chuàng)可信密態(tài)計算技術(shù),(Trusted-Environment-based Cryptographic Computing,簡稱 TECC),將可信計算技術(shù) TPM、TEE 與多方安全計算技術(shù) MPC、聯(lián)邦學(xué)習(xí) FL 有機的結(jié)合起來,符合多方安全計算標(biāo)準(zhǔn)要求,有效抵抗困擾 TPM、TEE 的供應(yīng)鏈攻擊、側(cè)信道攻擊問題。
可信密態(tài)計算,是把所有的數(shù)據(jù)以密態(tài)分片的形式,跑在多個 TEE 群上,任何一個 TEE 集群,單獨的 TEE 集群上面所獲得的所有的分辨信息是不可能推出任何有效明人信息的,做這樣的保障非常好地抵御了困擾 TEE 的供應(yīng)鏈攻擊和磁性抗攻擊。
而且,由于它的計算上傳雖然還是由各參與方密態(tài)分辨以后上傳到 TEE 集群里面來,但是它計算是在一個匯聚點,TEE 可以遠程驗證做安全保障的匯聚點集群上來做計算。
可信密態(tài)計算技術(shù)滿足了可信隱私計算對技術(shù)能力要求最高的適用性和可靠性,不受制于帶寬的瓶頸,性能可靠性和成本上都有顯著,能夠滿足如 “東數(shù)西算” 這樣的大規(guī)模的數(shù)據(jù)場景。
四、落地挑戰(zhàn)需要行業(yè)共建
誕生幾十年的隱私計算技術(shù),如今再度火熱?傮w而言,行業(yè)目前還處在發(fā)展初期。
國內(nèi)涉足隱私計算的公司大致分為四類。一類是互聯(lián)網(wǎng)平臺企業(yè),比如螞蟻集團,一類是專注隱私計算的初創(chuàng)。還有其他從大數(shù)據(jù)公司轉(zhuǎn)型而來的玩家,以及一些區(qū)塊鏈公司。
產(chǎn)品層面,據(jù)中國信通院統(tǒng)計,截止 2021 年 7 月,依據(jù)中國通信標(biāo)準(zhǔn)化協(xié)會隱私計算相關(guān)標(biāo)準(zhǔn),通過中國通信院云計算與大數(shù)據(jù)研究所隱私計算產(chǎn)品測試的技術(shù),有 50 家公司的 67 個產(chǎn)品。
行業(yè)即將迎來整個數(shù)據(jù)密態(tài)時代,包括工業(yè)互聯(lián)網(wǎng)場景,整個全面的社會的數(shù)字化轉(zhuǎn)型。可信隱私計算的合規(guī)性,它的實用性、可靠性、安全性上面都能做出新的突破,能夠真正保護好數(shù)據(jù)安全。
2021 年,畢馬威與微眾銀行聯(lián)合發(fā)布隱私計算行業(yè)研究報告顯示,三年后,軟件銷售和服務(wù)收入潛在規(guī)模可達 100 億到 200 億元。
同時也要清醒認識到,隱私計算產(chǎn)品的成熟度與工程化水平還在提升過程中、性能與安全兼得的兩難以及技術(shù)信任等問題,仍然有待突破。而且,技術(shù)也并非萬能,諸如工業(yè)互聯(lián)網(wǎng)面臨的數(shù)據(jù)流通、共享仍需要各方,特別是監(jiān)管法律的完善與健全。
“隱私計算行業(yè)還處于起步階段,政策、法規(guī)、以及技術(shù)的發(fā)展,相關(guān)生態(tài)的互聯(lián)互通,都需要全行業(yè)的共同努力。” 韋韜表示。