隨著包括人臉識別在內(nèi)的生物識別被廣泛應(yīng)用,隱私泄露問題逐漸引起人們的廣泛關(guān)注。我們比以往更迫切地需要了解生物識別技術(shù)的原理是什么,以及如何構(gòu)造保護(hù)隱私的生物識別技術(shù),讓生物特征變得像密碼一樣可以修改,實現(xiàn)生物特征領(lǐng)域的公鑰簽名機(jī)制。
1生物識別的基本原理:為什么 1:N 識別難度遠(yuǎn)大于 1:1 驗證?
在日常生活中,身份認(rèn)證的場景隨處可見,比如門禁、考勤打卡、交易支付、公安刑偵等。通常身份認(rèn)定的方式基本上是三類:一是基于你知道的信息,例如密碼和口令;二是基于你擁有的東西,比如說U盾、身份證等;三是基于你的生物特征,包括指紋、人臉、虹膜、掌經(jīng)脈、聲紋、步態(tài)、足跡等身份特征。
生物特征比對方式,一般來說有兩種。一種是驗證,也稱之為 1:1 的比對。二是識別,也稱之為 1:N 的比對:
●驗證,是看這個人是不是他所宣稱的人,例如手機(jī)解鎖、去機(jī)場做身份證和人臉的核驗等,都是屬于 1:1 的驗證問題,這相對比較容易。
●識別,是 1:N 的問題,要回答的是這個人是誰。他可能沒有證件,或者你不相信他是他宣稱的人,只根據(jù)生物特征來進(jìn)行識別身份。在刑偵或者黑名單查詢等,這類應(yīng)用就是一個 1:N 識別的問題,而且隨著庫容增大,會變得更加困難。
生物識別系統(tǒng)是用相似度來進(jìn)行比對的,也就是衡量輸入的相似程度來取一個閾值,如果說相似度高于這個閾值就接受,如低于這個閾值就不通過。如果說把相似度分?jǐn)?shù)畫下來,一個真的比對分?jǐn)?shù)是比較高的,通常會在偏右的一方。如果說是錯誤比對,分?jǐn)?shù)會比較低,在左邊一方。但是他們可能有重疊。因為有重疊,所以系統(tǒng)會犯兩種錯誤:
●錯比(false match/false accept):把不同的人當(dāng)成同一個人。
●漏比(false nonmatch/false reject):把同一個人當(dāng)成不同的人。
1:N 的問題會比 1:1 的問題要困難很多。對于上面兩類錯誤,我們可以用下面這個公式估算 1:N 的系統(tǒng)和 1:1 的系統(tǒng)的錯誤率。
下標(biāo)N是指有 N 個人的 1:1 的識別,可以看到兩類系統(tǒng)漏比率基本相當(dāng),而錯比率 1:N 系統(tǒng)近似于是 1:1 系統(tǒng)的 N 倍。比如說 1 億人的庫的比對,和 1 萬人的庫的比對,可以說難度完全不同,幾乎不是同一個問題。
針對這一點,在實際的應(yīng)用中,參數(shù)選取是不同的。比如說有一些對安全性要求比較高的應(yīng)用,主要關(guān)心的不要放壞人進(jìn)來,所以對錯比的控制要求非常高,但是漏了一點不要緊。而在刑偵應(yīng)用當(dāng)中,因為需要給定的現(xiàn)場指紋,要給定一些候選人的列表,同時因為有指紋專家人工核驗,錯一點不要緊,反而不希望漏過壞人,所以漏比是比較重要的。大部分的應(yīng)用是在兩者之間的,具體是什么樣的參數(shù),在實際應(yīng)用當(dāng)中是根據(jù)具體應(yīng)用情況來確定的。
2從技術(shù)角度看,如何設(shè)計保護(hù)隱私的生物識別系統(tǒng)?
生物識別的隱私泄露比賬號密碼泄露的嚴(yán)重得多,和密碼不同,生物特征一旦泄露就永遠(yuǎn)泄露,所以對生物識別系統(tǒng)的安全的考量要比一般的賬號密碼要更高。
一般來講,無論是 1:1 系統(tǒng)還是 1:N 系統(tǒng),都要通過一個基本的流程:采集、特征提娶比對、輸出結(jié)果,給定是通過還是拒絕。而在這樣系統(tǒng)中每一個環(huán)節(jié),都有不同的攻擊方式如下:
那么,設(shè)計保護(hù)隱私的生物識別系統(tǒng)要滿足怎樣的性質(zhì)?這一點業(yè)界有很多的討論,并沒有一個完整的共識,但是以下三點需要被滿足:
第一,不可逆。用戶的原始特征和采集到的模板,都被認(rèn)為是用戶的隱私信息,都應(yīng)該被保護(hù),而我們用來比對的是變換的特征,并存在數(shù)據(jù)庫里。不可逆指的是,在指定比對特征的情況下,恢復(fù)原始的特征模板是非常困難的,最好是不能恢復(fù)的。
第二,可撤銷。這一點可以參照密碼的使用,比如說賬號密碼泄露后,我們是可以修改密碼的。在生物特征當(dāng)中,我們也希望可以做到這一點,一旦某一個模板泄露,我可以安全注銷,然后簽發(fā)一個新模板,這樣就使得使用生物識別的方式和我們使用密碼的方式一樣可撤銷。
第三,非關(guān)聯(lián)性。我們希望用戶有不同的生物識別應(yīng)用,彼此之間并不關(guān)聯(lián),比如說有小區(qū)門禁的應(yīng)用,支付的應(yīng)用等等,并不交叉認(rèn)證,這是非關(guān)聯(lián)性的一個最基本的要求。
因此可以看到,保護(hù)隱私的生物識別是比較困難的問題,而現(xiàn)有系統(tǒng)很難達(dá)到。那我們通過什么途徑去才能構(gòu)造保護(hù)隱私的生物識別技術(shù),才能達(dá)到上面的三個性質(zhì)呢?
核心的問題其實是對特征模板做保護(hù)。保護(hù)有兩類,一類是通過對特征做某種變換,從而達(dá)到保護(hù)的目的;另一類是與密碼系統(tǒng)相結(jié)合,可以構(gòu)建一種生物密鑰系統(tǒng)。構(gòu)造保護(hù)隱私的生物識別技術(shù)還是一項在進(jìn)行中的工作,目前有四個主要的方向:Salting,不可逆變換,Biometric Key,以及 Key-binding 生物密鑰系統(tǒng)。
這四類實現(xiàn)方式在安全性來源、存儲和比對精度的不同。
在安全性來源方面:第一種 Salting 的安全性來自于密鑰是秘密的;第二種不可逆變換的安全性來自于函數(shù)的不可逆性;第三種生成密鑰,它的安全性主要取決于多少信息被保留下來,放棄了多少信息;在第四種生物密鑰中,則取決于輔助信息設(shè)計等。
從存儲來看:在 Salting 的做法下,它是存了一個變換后的模板和一個 Key。在不可逆的變換下,它存儲這個變換后的模板也存了一個 Key。在密鑰生成模式下,沒有存這個 Key,只存了變換的值。在生物密鑰系統(tǒng)下,可以存一些輔助信息等等。后兩種情況下,原始模板都沒有被保存。在比對精度方面:在 Salting 做法下,可以變換到跟原來模板同樣的空間來做比對。在不可逆變換下,可能也是在原始變換空間內(nèi)做比對。在密鑰生成和密鑰綁定的系統(tǒng)下,都可以使用糾錯碼來實現(xiàn)一定的糾錯,然后再進(jìn)行對比。
這幾種方向都是值得探索的,特別是生物密鑰系統(tǒng)和生物密鑰綁定和生成這兩種方法,有天生不用存密鑰的優(yōu)勢,可以用來做一些真正保護(hù)隱私的識別。這是一個非常吸引人的方向,其中有很多問題都可以被轉(zhuǎn)化為應(yīng)用數(shù)學(xué)的問題,同時也是一個比較大的空白領(lǐng)域,有非常多激動人心的問題,需要業(yè)界共同努力進(jìn)一步解決。
3墨奇科技致力于為數(shù)十億人提供保護(hù)隱私的下一代身份認(rèn)證服務(wù)
保護(hù)隱私的生物識別,也正是墨奇科技持續(xù)努力的領(lǐng)域。墨奇科技致力于為數(shù)十億人提供保護(hù)隱私、安全可靠的下一代身份認(rèn)證服務(wù),研發(fā)先進(jìn)的人工智能技術(shù)來自動化地處理機(jī)器知識,最終增強(qiáng)人類處理信息的能力。
墨奇科技相信真正的技術(shù)突破來源于最底層的創(chuàng)新。經(jīng)過多年研發(fā),墨奇創(chuàng)造了新型的 AI 底層數(shù)據(jù)庫技術(shù),第一次能夠以統(tǒng)一的框架來處理非結(jié)構(gòu)化數(shù)據(jù)。作為數(shù)據(jù)庫技術(shù)的一個行業(yè)應(yīng)用,墨奇建造了新一代生物特征識別平臺,累計管理超過 40 億枚指紋和掌紋數(shù)據(jù),包括兩個 10 億級的國家級指紋中心,為生物識別領(lǐng)域帶來了跨越式的發(fā)展,引領(lǐng)著生物識別的未來。