金磊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
人臉識(shí)別領(lǐng)域,中國(guó)隊(duì)再次傳來(lái)捷報(bào)。
全球最大規(guī)模人臉數(shù)據(jù)集發(fā)布。
首次包含數(shù)百萬(wàn)ID和數(shù)億圖片。
這就是由芯翌科技與清華大學(xué)自動(dòng)化系智能視覺(jué)實(shí)驗(yàn)室合作,所推出的 WebFace 260M,相關(guān)研究已被CVPR 2021接收。
并且,基于其所清洗的數(shù)據(jù)集 WebFace42M,在最具挑戰(zhàn)IJBC測(cè)試集上,也已經(jīng)達(dá)到了SOTA水平。
而它所帶來(lái)的“全球之最”還不止于此。
以這項(xiàng)數(shù)據(jù)集為基礎(chǔ),芯翌科技在最新一期的NIST-FRVT榜單上,戴口罩人臉識(shí)別評(píng)測(cè)中斬獲世界第一。
全球之最的人臉數(shù)據(jù)集,長(zhǎng)什么樣?
WebFace260M這個(gè)數(shù)據(jù)集,是完全基于全球互聯(lián)網(wǎng)公開(kāi)人臉數(shù)據(jù)。
它的問(wèn)世,一舉打破了此前人臉數(shù)據(jù)集的規(guī)模:
不僅規(guī)模最大,也是首次在人臉I(yè)D數(shù)目和圖片數(shù),分別達(dá)到了400萬(wàn)和2.6億的規(guī)模。
此外,研究人員還提出了基于自訓(xùn)練全自動(dòng)迭代的清洗流程 (Cleaning Automatically by Self-Training, CAST)。這種方法的靈感來(lái)自于對(duì)互聯(lián)網(wǎng)人臉數(shù)據(jù)的觀察和分析。
WebFace260M數(shù)據(jù)提供了粗糙的分類,可以基于此作為清洗算法的初始結(jié)構(gòu)。另外,研究人員發(fā)現(xiàn),在大規(guī)模含噪聲人臉數(shù)據(jù)清洗中,嵌入特征顯得十分重要,而這個(gè)特征可以通過(guò)同時(shí)迭代數(shù)據(jù)和模型得到增強(qiáng)。因此,整個(gè)清洗流程如下圖所示:
首先,利用名為MS1M的公開(kāi)數(shù)據(jù)集訓(xùn)練一個(gè)“教師模型”,并對(duì)原始WebFace260M進(jìn)行清洗。
其次,利用一個(gè)“學(xué)生模型”,在上一步清洗過(guò)的圖像上進(jìn)行訓(xùn)練。
最后,讓“學(xué)生模型”切換為“教師模型”,并進(jìn)行迭代,直到獲得高質(zhì)量的WebFace42M。
通過(guò)這種方式,在對(duì)WebFace260M進(jìn)行清洗操作后,便得到了WebFace42M。
據(jù)介紹,它是目前全球規(guī)模最大、可直接用于訓(xùn)練的干凈人臉數(shù)據(jù)集:
包含200萬(wàn)ID、4200萬(wàn)圖片。
關(guān)于WebFace260M和WebFace42M的“世界之最”,一張表格的數(shù)據(jù)對(duì)比,便可一目了然:
同時(shí),針對(duì)目前人臉識(shí)別的評(píng)測(cè)問(wèn)題,研究人員發(fā)布了更貼近實(shí)際應(yīng)用的“時(shí)間受限人臉識(shí)別評(píng)測(cè)準(zhǔn)則”-FRUITS (Face Recognition Under Inference Time conStraint),和分布更廣泛、更具挑戰(zhàn)性、分類更細(xì)致的人臉測(cè)試集,這將推動(dòng)人臉識(shí)別評(píng)測(cè)更靠近真實(shí)場(chǎng)景。
同時(shí),研究人員將持續(xù)維護(hù)、迭代和升級(jí)該測(cè)試集以及評(píng)測(cè)系統(tǒng),持續(xù)助力行業(yè)技術(shù)發(fā)展。
這樣的數(shù)據(jù)集,好用嗎?
對(duì)于這個(gè)問(wèn)題,答案是肯定,而且是得到了非常專業(yè)的實(shí)踐和認(rèn)可的那種。
以WebFace42M為例,它能夠在目前公開(kāi)的、最具挑戰(zhàn)性的IJBC測(cè)試集上,達(dá)到新的SOTA,相對(duì)錯(cuò)誤率還降低了40%。
除此之外,有一個(gè)叫做NIST-FRVT的比賽,是由美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院主辦,素來(lái)有著“人臉識(shí)別黃金賽事”的別稱。
因?yàn)樗哂袦y(cè)評(píng)集非對(duì)外公開(kāi)、提交頻率嚴(yán)格限制、計(jì)算時(shí)間嚴(yán)格限制等諸多嚴(yán)苛要求,所以可以稱得上是全球標(biāo)準(zhǔn)最嚴(yán)、最具權(quán)威的人臉識(shí)別算法評(píng)測(cè)。
那么當(dāng)WebFace42M的數(shù)據(jù),遇到如此棘手的賽事,又會(huì)擦出怎樣的火花呢?
早在去年10月份,僅用WebFace42M的數(shù)據(jù),芯翌科技便在NIST-FRVT的榜單上取得了前三名的成績(jī)。
而在剛剛最新一期的NIST-FRVT榜單上,以WebFace42M為基礎(chǔ),在“戴口罩人臉識(shí)別評(píng)測(cè)”中又一次創(chuàng)造了“世界之最”奪得比賽冠軍。
而且從數(shù)據(jù)中不難看出,與第二名的成績(jī)可以說(shuō)是兩個(gè)量級(jí)。
除此之外,在1:1人臉識(shí)別評(píng)測(cè)中,也取得了綜合排名世界前三的成績(jī)。
為什么要做這樣的數(shù)據(jù)集?
人臉識(shí)別,這項(xiàng)技術(shù)可以說(shuō)是真的火。
火到已經(jīng)步入人們?nèi)粘I睿蚩、開(kāi)門禁、解鎖手機(jī)等等,都成了它大展拳腳的地方。
也正因如此,學(xué)術(shù)、工業(yè)界的科研工作者,在人臉識(shí)別的精度和速度上,形成了競(jìng)相追逐的狀態(tài)。
而據(jù)研究表明,人臉數(shù)據(jù)集對(duì)于上述的影響是最大的。特別是在目前以深度學(xué)習(xí)為核心的人工智能研發(fā)模式下,軟件開(kāi)發(fā)會(huì)逐漸從傳統(tǒng)的軟件1.0,過(guò)渡到以數(shù)據(jù)為核心的“數(shù)據(jù)即代碼,模型即軟件”的軟件2.0時(shí)代。
然而在數(shù)據(jù)集這塊,目前的現(xiàn)狀卻是:
公開(kāi)數(shù)據(jù)規(guī)模和實(shí)際人臉識(shí)別系統(tǒng)所需數(shù)據(jù)規(guī)模,差距過(guò)大。
怎么說(shuō)?
例如在WebFace260M發(fā)布之前,公開(kāi)的數(shù)據(jù)規(guī)模都是較小,此前規(guī)模最大的就是MegaFace2和MS1M。
MegaFace2擁有67.2萬(wàn)ID和470萬(wàn)圖片,MS1M擁有10萬(wàn) ID和1000萬(wàn)圖片。
如此規(guī)模的公開(kāi)數(shù)據(jù),對(duì)于科研人員來(lái)說(shuō),是遠(yuǎn)遠(yuǎn)無(wú)法滿足實(shí)際人臉識(shí)別系統(tǒng)的數(shù)據(jù)需求。
同時(shí)這也只是限制人臉識(shí)別技術(shù)發(fā)展的瓶頸之一,評(píng)測(cè)準(zhǔn)則和測(cè)試集也是重要因素。
目前公開(kāi)的人臉識(shí)別評(píng)測(cè)集,包括LFW、CFP、AgeDB、RFW、MegaFace、IJB系列等,在精度上基本已經(jīng)比較飽和。
同時(shí),還存在不同場(chǎng)景下表現(xiàn)不夠細(xì)致的情況。
因此,WebFace260M和WebFace42M以及相關(guān)Benchmark的推出,在一定程度上可以說(shuō)是拉近了公開(kāi)數(shù)據(jù)集規(guī)模與實(shí)際應(yīng)用產(chǎn)業(yè)界的這條鴻溝,進(jìn)一步推動(dòng)以深度學(xué)習(xí)為核心的人臉識(shí)別相關(guān)技術(shù)的進(jìn)步,促進(jìn)智能化行業(yè)的繁榮發(fā)展。
而比起規(guī)模的上突破,更大的意義應(yīng)該在于“科技向善”、“數(shù)據(jù)生態(tài)”。
經(jīng)過(guò)過(guò)去幾年的發(fā)展,人臉識(shí)別以及人工智能技術(shù)取得了巨大的進(jìn)步,也產(chǎn)生了顯著的社會(huì)經(jīng)濟(jì)價(jià)值,但是也出現(xiàn)了很多由于技術(shù)發(fā)展帶來(lái)的社會(huì)問(wèn)題。
團(tuán)隊(duì)希望通過(guò)這個(gè)數(shù)據(jù)集的建立和相關(guān)工作,和產(chǎn)業(yè)界以及社會(huì)各界一起,構(gòu)建人臉識(shí)別測(cè)試和應(yīng)用標(biāo)準(zhǔn),規(guī)范人臉識(shí)別應(yīng)用市場(chǎng),治理人臉識(shí)別應(yīng)用亂象,科技向善,凸顯人工智能技術(shù)的價(jià)值和溫度。
更進(jìn)一步來(lái)講,在現(xiàn)今數(shù)字經(jīng)濟(jì)和智能化高速發(fā)展的當(dāng)下,數(shù)字資源已然成為像水、電一樣的必需品;同時(shí)又像石油一般的寶貴,需要有規(guī)劃地去生產(chǎn)、使用、分享和交易等。
但現(xiàn)在目前的狀況是,國(guó)內(nèi)外普遍對(duì)此的重視程度不夠,具體而言包括行業(yè)規(guī)范不標(biāo)準(zhǔn)、分享程度不足,也沒(méi)有長(zhǎng)期的規(guī)劃,由此便反過(guò)來(lái)抑制了數(shù)字經(jīng)濟(jì)和智能化的發(fā)展進(jìn)程。
目前國(guó)家層面非常鼓勵(lì)和重視數(shù)據(jù)集的創(chuàng)新和規(guī)范,清華大學(xué)和芯翌科技的研究人員也積極響應(yīng)國(guó)家的號(hào)召和政策的要求,希望和國(guó)家、政府機(jī)構(gòu)、學(xué)術(shù)界以及產(chǎn)業(yè)界一起,打造智能化時(shí)代開(kāi)放、共享、安全的數(shù)據(jù)生態(tài)。