當(dāng)前位置：人工智能實(shí)驗(yàn)室> 模式識(shí)別 > 全球最大的公開(kāi)人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

全球最大的公開(kāi)人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2021-03-16 14:16:48 瀏覽：101374次

導(dǎo)讀：金磊發(fā)自凹非寺量子位報(bào)道 | 公眾號(hào) QbitAI 人臉識(shí)別領(lǐng)域，中國(guó)隊(duì)再次傳來(lái)捷報(bào)。全球最大規(guī)模人臉數(shù)據(jù)集發(fā)布。首次包含數(shù)百萬(wàn)ID和數(shù)億圖片。這就是由芯翌科技與清華大學(xué)自動(dòng)化系智能視覺(jué)實(shí)驗(yàn)室合作，所推出的 WebFace 260M，相關(guān)研究已被CVPR 2021接...

金磊發(fā)自凹非寺

量子位報(bào)道 | 公眾號(hào) QbitAI

人臉識(shí)別領(lǐng)域，中國(guó)隊(duì)再次傳來(lái)捷報(bào)。

全球最大規(guī)模人臉數(shù)據(jù)集發(fā)布。

首次包含數(shù)百萬(wàn)ID和數(shù)億圖片。

全球最大的公開(kāi)人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

這就是由芯翌科技與清華大學(xué)自動(dòng)化系智能視覺(jué)實(shí)驗(yàn)室合作，所推出的 WebFace 260M，相關(guān)研究已被CVPR 2021接收。

并且，基于其所清洗的數(shù)據(jù)集 WebFace42M，在最具挑戰(zhàn)IJBC測(cè)試集上，也已經(jīng)達(dá)到了SOTA水平。

而它所帶來(lái)的“全球之最”還不止于此。

以這項(xiàng)數(shù)據(jù)集為基礎(chǔ)，芯翌科技在最新一期的NIST-FRVT榜單上，戴口罩人臉識(shí)別評(píng)測(cè)中斬獲世界第一。

全球之最的人臉數(shù)據(jù)集，長(zhǎng)什么樣？

WebFace260M這個(gè)數(shù)據(jù)集，是完全基于全球互聯(lián)網(wǎng)公開(kāi)人臉數(shù)據(jù)。

它的問(wèn)世，一舉打破了此前人臉數(shù)據(jù)集的規(guī)模：

不僅規(guī)模最大，也是首次在人臉I(yè)D數(shù)目和圖片數(shù)，分別達(dá)到了400萬(wàn)和2.6億的規(guī)模。

全球最大的公開(kāi)人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

此外，研究人員還提出了基于自訓(xùn)練全自動(dòng)迭代的清洗流程（Cleaning Automatically by Self-Training, CAST）。這種方法的靈感來(lái)自于對(duì)互聯(lián)網(wǎng)人臉數(shù)據(jù)的觀察和分析。

WebFace260M數(shù)據(jù)提供了粗糙的分類，可以基于此作為清洗算法的初始結(jié)構(gòu)。另外，研究人員發(fā)現(xiàn)，在大規(guī)模含噪聲人臉數(shù)據(jù)清洗中，嵌入特征顯得十分重要，而這個(gè)特征可以通過(guò)同時(shí)迭代數(shù)據(jù)和模型得到增強(qiáng)。因此，整個(gè)清洗流程如下圖所示：

全球最大的公開(kāi)人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

首先，利用名為MS1M的公開(kāi)數(shù)據(jù)集訓(xùn)練一個(gè)“教師模型”，并對(duì)原始WebFace260M進(jìn)行清洗。

其次，利用一個(gè)“學(xué)生模型”，在上一步清洗過(guò)的圖像上進(jìn)行訓(xùn)練。

最后，讓“學(xué)生模型”切換為“教師模型”，并進(jìn)行迭代，直到獲得高質(zhì)量的WebFace42M。

通過(guò)這種方式，在對(duì)WebFace260M進(jìn)行清洗操作后，便得到了WebFace42M。

據(jù)介紹，它是目前全球規(guī)模最大、可直接用于訓(xùn)練的干凈人臉數(shù)據(jù)集：

包含200萬(wàn)ID、4200萬(wàn)圖片。

關(guān)于WebFace260M和WebFace42M的“世界之最”，一張表格的數(shù)據(jù)對(duì)比，便可一目了然：

全球最大的公開(kāi)人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

同時(shí)，針對(duì)目前人臉識(shí)別的評(píng)測(cè)問(wèn)題，研究人員發(fā)布了更貼近實(shí)際應(yīng)用的“時(shí)間受限人臉識(shí)別評(píng)測(cè)準(zhǔn)則”-FRUITS (Face Recognition Under Inference Time conStraint)，和分布更廣泛、更具挑戰(zhàn)性、分類更細(xì)致的人臉測(cè)試集，這將推動(dòng)人臉識(shí)別評(píng)測(cè)更靠近真實(shí)場(chǎng)景。

同時(shí)，研究人員將持續(xù)維護(hù)、迭代和升級(jí)該測(cè)試集以及評(píng)測(cè)系統(tǒng)，持續(xù)助力行業(yè)技術(shù)發(fā)展。

全球最大的公開(kāi)人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

這樣的數(shù)據(jù)集，好用嗎？

對(duì)于這個(gè)問(wèn)題，答案是肯定，而且是得到了非常專業(yè)的實(shí)踐和認(rèn)可的那種。

以WebFace42M為例，它能夠在目前公開(kāi)的、最具挑戰(zhàn)性的IJBC測(cè)試集上，達(dá)到新的SOTA，相對(duì)錯(cuò)誤率還降低了40%。

全球最大的公開(kāi)人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

除此之外，有一個(gè)叫做NIST-FRVT的比賽，是由美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院主辦，素來(lái)有著“人臉識(shí)別黃金賽事”的別稱。

因?yàn)樗哂袦y(cè)評(píng)集非對(duì)外公開(kāi)、提交頻率嚴(yán)格限制、計(jì)算時(shí)間嚴(yán)格限制等諸多嚴(yán)苛要求，所以可以稱得上是全球標(biāo)準(zhǔn)最嚴(yán)、最具權(quán)威的人臉識(shí)別算法評(píng)測(cè)。

那么當(dāng)WebFace42M的數(shù)據(jù)，遇到如此棘手的賽事，又會(huì)擦出怎樣的火花呢？

早在去年10月份，僅用WebFace42M的數(shù)據(jù)，芯翌科技便在NIST-FRVT的榜單上取得了前三名的成績(jī)。

全球最大的公開(kāi)人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

而在剛剛最新一期的NIST-FRVT榜單上，以WebFace42M為基礎(chǔ)，在“戴口罩人臉識(shí)別評(píng)測(cè)”中又一次創(chuàng)造了“世界之最”奪得比賽冠軍。

而且從數(shù)據(jù)中不難看出，與第二名的成績(jī)可以說(shuō)是兩個(gè)量級(jí)。

全球最大的公開(kāi)人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

除此之外，在1:1人臉識(shí)別評(píng)測(cè)中，也取得了綜合排名世界前三的成績(jī)。

為什么要做這樣的數(shù)據(jù)集？

人臉識(shí)別，這項(xiàng)技術(shù)可以說(shuō)是真的火。

火到已經(jīng)步入人們?nèi)粘Ｉ睿蚩�、開(kāi)門禁、解鎖手機(jī)等等，都成了它大展拳腳的地方。

也正因如此，學(xué)術(shù)、工業(yè)界的科研工作者，在人臉識(shí)別的精度和速度上，形成了競(jìng)相追逐的狀態(tài)。

而據(jù)研究表明，人臉數(shù)據(jù)集對(duì)于上述的影響是最大的。特別是在目前以深度學(xué)習(xí)為核心的人工智能研發(fā)模式下，軟件開(kāi)發(fā)會(huì)逐漸從傳統(tǒng)的軟件1.0，過(guò)渡到以數(shù)據(jù)為核心的“數(shù)據(jù)即代碼，模型即軟件”的軟件2.0時(shí)代。

全球最大的公開(kāi)人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

然而在數(shù)據(jù)集這塊，目前的現(xiàn)狀卻是：

公開(kāi)數(shù)據(jù)規(guī)模和實(shí)際人臉識(shí)別系統(tǒng)所需數(shù)據(jù)規(guī)模，差距過(guò)大。

怎么說(shuō)？

例如在WebFace260M發(fā)布之前，公開(kāi)的數(shù)據(jù)規(guī)模都是較小，此前規(guī)模最大的就是MegaFace2和MS1M。

MegaFace2擁有67.2萬(wàn)ID和470萬(wàn)圖片，MS1M擁有10萬(wàn) ID和1000萬(wàn)圖片。

如此規(guī)模的公開(kāi)數(shù)據(jù)，對(duì)于科研人員來(lái)說(shuō)，是遠(yuǎn)遠(yuǎn)無(wú)法滿足實(shí)際人臉識(shí)別系統(tǒng)的數(shù)據(jù)需求。

同時(shí)這也只是限制人臉識(shí)別技術(shù)發(fā)展的瓶頸之一，評(píng)測(cè)準(zhǔn)則和測(cè)試集也是重要因素。

目前公開(kāi)的人臉識(shí)別評(píng)測(cè)集，包括LFW、CFP、AgeDB、RFW、MegaFace、IJB系列等，在精度上基本已經(jīng)比較飽和。

同時(shí)，還存在不同場(chǎng)景下表現(xiàn)不夠細(xì)致的情況。

因此，WebFace260M和WebFace42M以及相關(guān)Benchmark的推出，在一定程度上可以說(shuō)是拉近了公開(kāi)數(shù)據(jù)集規(guī)模與實(shí)際應(yīng)用產(chǎn)業(yè)界的這條鴻溝，進(jìn)一步推動(dòng)以深度學(xué)習(xí)為核心的人臉識(shí)別相關(guān)技術(shù)的進(jìn)步，促進(jìn)智能化行業(yè)的繁榮發(fā)展。

而比起規(guī)模的上突破，更大的意義應(yīng)該在于“科技向善”、“數(shù)據(jù)生態(tài)”。

經(jīng)過(guò)過(guò)去幾年的發(fā)展，人臉識(shí)別以及人工智能技術(shù)取得了巨大的進(jìn)步，也產(chǎn)生了顯著的社會(huì)經(jīng)濟(jì)價(jià)值，但是也出現(xiàn)了很多由于技術(shù)發(fā)展帶來(lái)的社會(huì)問(wèn)題。

團(tuán)隊(duì)希望通過(guò)這個(gè)數(shù)據(jù)集的建立和相關(guān)工作，和產(chǎn)業(yè)界以及社會(huì)各界一起，構(gòu)建人臉識(shí)別測(cè)試和應(yīng)用標(biāo)準(zhǔn)，規(guī)范人臉識(shí)別應(yīng)用市場(chǎng)，治理人臉識(shí)別應(yīng)用亂象，科技向善，凸顯人工智能技術(shù)的價(jià)值和溫度。

全球最大的公開(kāi)人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布

更進(jìn)一步來(lái)講，在現(xiàn)今數(shù)字經(jīng)濟(jì)和智能化高速發(fā)展的當(dāng)下，數(shù)字資源已然成為像水、電一樣的必需品；同時(shí)又像石油一般的寶貴，需要有規(guī)劃地去生產(chǎn)、使用、分享和交易等。

但現(xiàn)在目前的狀況是，國(guó)內(nèi)外普遍對(duì)此的重視程度不夠，具體而言包括行業(yè)規(guī)范不標(biāo)準(zhǔn)、分享程度不足，也沒(méi)有長(zhǎng)期的規(guī)劃，由此便反過(guò)來(lái)抑制了數(shù)字經(jīng)濟(jì)和智能化的發(fā)展進(jìn)程。

目前國(guó)家層面非常鼓勵(lì)和重視數(shù)據(jù)集的創(chuàng)新和規(guī)范，清華大學(xué)和芯翌科技的研究人員也積極響應(yīng)國(guó)家的號(hào)召和政策的要求，希望和國(guó)家、政府機(jī)構(gòu)、學(xué)術(shù)界以及產(chǎn)業(yè)界一起，打造智能化時(shí)代開(kāi)放、共享、安全的數(shù)據(jù)生態(tài)。

上一篇：科勒回應(yīng)人臉識(shí)別攝像頭：僅作到店人數(shù)統(tǒng)計(jì)，已連夜拆除

下一篇：清潔大作戰(zhàn)：掃地擦地齊上陣，清潔機(jī)器人幫你解放雙手

全球最大的公開(kāi)人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2021-03-16 14:16:48 瀏覽：101374次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

全球最大的公開(kāi)人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2021-03-16 14:16:48 瀏覽：101374次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

全球最大的公開(kāi)人臉數(shù)據(jù)集｜清華大學(xué)＆芯翌科技聯(lián)合發(fā)布
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2021-03-16 14:16:48 瀏覽：101374次