FDDB和LFW數據集淺析及刷分心得

LFW與FDDB就像一張試卷,在答案固定的情況下被一波又一波的人反覆研究,早已變得透明。但是時至今日,除了宣傳炒作目的外還有人用LFW成績作為演算法好壞的評價標準,這是不客觀的。

剛好在整理去年測試LFW與FDDB的資料,現在分享給大家,讓初學者更清楚的了解LFW與FDDB。

當時雲從科技研究院用一台GPU伺服器花了一個月的時間刷到了99.5%,此後便沒有投入精力去刷分。

---------------------------------------------------------------------------------------------------------------------------

2014年,隨著人工神經網路的重大突破,Hinton發明的深度學習卷積神經網路的問世,人工智慧領域以迅猛的姿態爆發,成為了科研和科技創業的熱門領域。其中人臉識別成為了人工智慧領域的風口浪尖。

作為人臉識別全世界最權威的兩個資料庫FDDB(Face Detection Data Set and Benchmark)和LFW(LabelednFaces in the Wild Home),分別對人臉識別中最基本的兩個問題:檢測和識別,給出了詳細的測試要求與評分標準。

LFW(人臉比對數據集)

無約束自然場景人臉識別數據集,該數據集由13000多張全世界知名人士互聯網自然場景不同朝向、表情和光照環境人臉圖片組成,共有5000多人,其中有1680人有2張或2張以上人臉圖片。每張人臉圖片都有其唯一的姓名ID和序號加以區分。

LFW數據集主要測試人臉識別的準確率,該資料庫從中隨機選擇了6000對人臉組成了人臉辨識圖片對,其中3000對屬於同一個人2張人臉照片,3000對屬於不同的人每人1張人臉照片。測試過程LFW給出一對照片,詢問測試中的系統兩張照片是不是同一個人,系統給出「是」或「否」的答案。通過6000對人臉測試結果的系統答案與真實答案的比值可以得到人臉識別準確率。

FDDB(人臉檢測數據集)

無約束自然場景人臉檢測數據集,該數據集包含在從各個不同自然場景不面孔拍攝的2845幅圖像中的5171個人臉。每個人臉都有其規定的坐標位置。

FDDB數據集主要測試人臉檢測的準確率,人臉識別演算法需要在該數據集每張圖像上進行人臉檢測,對檢測到的人臉進行位置標定。然後根據數據集本身給出的正確答案計算正確檢出人臉數與誤檢人臉數而評判人臉檢測演算法的好壞。

FDDB和LFW測試說明

1、對於FDDB的人臉檢出率能夠超過90%,LFW的人臉識別準確率能夠超過99%的公司和研究機構,僅表明具有一定的人臉識別演算法基礎,但完全不能體現出演算法的真實水平;

2、隨著深度學習技術與人臉識別技術的進一步結合,資料庫測試的成績完全可以通過對應數據針對性學習與超算集群硬體堆砌,反覆驗證,達到滿分。(LFW已經在2015年被刷到滿分99.77%)

3、即使在FDDB與LFW資料庫上將識別率都刷到滿分,也並不能證明該人臉識別技術能夠在實際應用場景中使用,實際應用場景與資料庫數據有天差地壤的區別,就像是紙上談兵與打仗的區別;

FDDB和LFW測試與實際應用的差異

FDDB和LFW圖片示例:

公安實戰圖片示例:

FDDB和LFW刷分心得

1、依靠超大規模的互聯網人臉數據(FDDB和LFW的資料庫圖片源來自互聯網);

2、依靠超高性能的超算集群與GPU集群訓練深度網路(減小人臉識別深度演算法訓練時間和經驗錯誤);

3、依靠不同深度、複雜度的深度學習模型疊加。(對某些深度演算法的錯誤數據用另一類深度演算法彌補糾錯)。

4、在已知測試數據和標準答案的情況下,針對性學習與訓練;(反覆針對性優化)

最後,再強調一遍,LFW與FDDB是題庫性質的測試,最主要的作用是測試一套系統能不能達到基本的人臉識別能力。也就是說,如果所有的人臉識別系統都是3歲小孩,LFW就是用來測試這些小孩夠不夠上幼兒園的智力水平測試。為什麼說它是題庫,就是因為這6000組網路樣本——6000張照片,是固定的。任何一個系統都可以對這6000組樣本進行有針對性的優化,從而達到刷高分的效果。

推薦閱讀:

ImageNet冠軍領隊帶你入門計算機視覺:監督學習與神經網路的簡單實現
生成式對抗網路(GAN)基礎
計算機視覺涉及基礎總結與相關書目推薦
看AI產品經理如何介紹「計算機視覺」(基於實戰經驗和案例)

TAG:人脸识别 | 计算机视觉 | 深度学习DeepLearning |