商湯科技:圖片雜訊才是人臉識別背後的惡魔

商湯科技:圖片雜訊才是人臉識別背後的惡魔

來自專欄論智87 人贊了文章

編譯:Bing

論文:arxiv.org/abs/1807.11649

編者按:作為目前人工智慧界著名的獨角獸,商湯科技在圖像處理和人臉識別技術領域處在世界前沿的位置。近日,該公司在arXiv上發表論文The Devil of Face Recognition is in the Noise,從圖像數據角度為人臉識別準確率的提高提出了建議。

在進行人臉識別的任務時,數據集是其中的關鍵。從早期的FERET數據集到最近的LFW、MegaFace和MS-Celeb-1M,數據集在新技術的發展上有著不可或缺的作用。這些數據集不僅僅提供了更加豐富的資源,而且數據規模也有了非常大的提高例如,MS-Celeb-1M包含大約1000萬張圖片,其中有10萬個人物,遠遠超過只有14126張圖像、1199個人的FERET數據集。大型數據集,再加上深度學習技術,讓人臉識別在這幾年取得了巨大的成功。

然而,大型數據集不可避免地會受到標籤雜訊的影響。這一問題很普遍,因為經過良好標註的大型數據集得來的成本非常高昂,所以這也促使科學家們尋找便宜但並不完美的替代方法。一種常見的方法是根據人名在網路上查找他們的照片,再用自動或半自動方法對標籤進行清理。另外還有些方法會在社交網站上手機照片。上述方法都是擴大訓練樣本的簡便方法,但同時也會帶來標籤雜訊,給訓練和模型帶來負面效果。圖一就是含有標籤雜訊的一些樣本:

可以看到,MegaFace和MS-Celeb-1M都含有相當多的錯誤標籤,有些雜訊標籤可以輕易消除,但是大部分想要消除還是很困難的。在MegaFace中還有很多重複的圖像(最後一行)。

所以,本文的首要目標是探究標籤雜訊的來源,以及在深度卷積神經網路中,這些雜訊會給人臉識別造成何種後果。我們主要考慮的問題有:想要達到清理數據的目的,需要多少雜訊樣本?雜訊和最終的模型性能之間有何種關係?標註人臉的最佳策略是什麼?對這些問題的理解將有助於我們設計更好的數據收集和清理方法,同時防止在訓練過程中造成危險,以形成能應對現實問題的強大演算法。

其次,本文的第二目標是為社區建立一個乾淨的人臉識別數據集。該數據集能幫助研究人員訓練更好的模型,並且進一步了解雜訊和人臉識別性能之間的關係。

現存數據有多少噪音?

這一部分中我們會介紹幾種流行的數據集,之後會分析他們各自的信噪比。目前用於人臉識別研究的數據集大致如下表所示:

了解各數據集所含數據後,我們想大概估計每個數據集中的雜訊分布。但由於數據集體積過大,想計算確切的數字不那麼容易,所以我們隨機選擇了數據集的子集,然後手動將它們分為三個類別:「正確識別」、「待定」和「錯誤識別」。

從各數據集中抽取一部分數據後,大概情況如圖2a所示:

圖2a

可以看出,數據規模越大,信噪比越大。

之後,我們又對兩個最大的數據集——MS-Celeb-1M和MegaFace進行雜訊分布分析。我們首先根據圖片數量對數據集中人物進行分類,最終生成了6個類別,通過下圖可以看出每個類別的信噪比。

可以看出,大多數目標只有很少的圖像與之對應,這一情況在MegaFace上更明顯,因為它是用自動方法收集的數據。與MS-Celeb-1M相比,MegaFace的雜訊似乎更少,但是我們發現在MegaFace乾淨的數據集中,有很多重複圖像。

打造自己的清潔數據集

通過分析我們得出,一個含有超過一百萬張圖片的數據集,信噪比通常高達30%。為了創建一個乾淨的數據集,我們不僅在收集人臉數據時找尋更乾淨、更多樣的來源,更重要的是找到一種高效的數據標記方法。

從IMDb中搜集人臉圖像

被大家廣泛使用的ImageNet是直接從谷歌圖片中搜索來圖像的,其他數據集也大多如此,但這樣做的壞處是存在數據偏見。從圖3中我們可以看出,從搜索引擎中搜到的圖片背景都很簡單,光線充足,大都是圖片的前景。而在實際的視頻中,人臉圖像並沒有這麼清晰。另外,從搜索引擎中得到的圖片通常查全率很低,經過研究我們發現,在200張照片中,平均查全率只有40%。

在這項研究中,我們從IMDb網站搜集圖像,因為該網站結構化程度更高,每個人物的照片種類也比較多,包括官方照片、生活照、電影劇照等等。另外,這裡的查全率更高達90%。最終我們收集了170萬張名人的照片,其中有5900位明星。

標記處理

我們對數據進行了清洗,但是清洗的方法有以下三種:

第一種,志願者們在圖片中圈出目標人物;第二步,在三個候選圖像中,志願者們要選擇對應目標圖像的那張圖片;第三步,直接進行判斷,Yes or No。

最終,三種方法的ROC曲線如圖:

可以看到第一種方法的F1分數最高,誤報率不超過10%。第三種方法的效果最差。另外,我們還發現一個有趣的現象,即當志願者標註的時間越長,標註的準確性越高。

實驗過程

實驗分為四個部分。首先,我們在提出的數據集上添加模擬雜訊,進行控制變數研究。這有助於我們觀察在由噪音的情況下性能的下降。

之後,我們會在兩個現有數據集上進一步實驗,探索噪音的影響。

第三,將我們的數據集和其他傳統數據集進行對比,驗證其有效性。

最後,將在我們數據集上訓練的模型和其他模型進行對比。最終結果如下表:

我們的模型IMDb-Face得到了目前的最高分數。

結語

與目前流行的專註於複雜損失和CNN結構的研究不同,我們從數據的角度來研究人臉識別問題,尤其是對標記雜訊的來源有了一定認識。最終我們新建的IMDb-Face數據集也成為了打造大型乾淨數據集的重要基礎。


推薦閱讀:

CVPR 2018 |基於孿生區域推薦網路的高性能單目標跟蹤
觀點 | 深度學習遭遇瓶頸,未來之路需要新的思考
商湯科技44篇論文入選CVPR 2018

TAG:人臉識別 | 計算機視覺 | SenseTime |