複雜環境下的目標視覺檢測 | 人工場景與實際場景平行研究三部曲 | 新損失函數與組歸一化
研究簡析
為解決複雜環境下的目標視覺檢測,人工場景與實際場景平行研究三部曲:
1) 場景構建 為模擬實際場景中可能出現的環境條件, 參照實景構建色彩逼真的人工場景,自動得到精確的目標位置、尺寸和類型等標註信息, 生成大量可有效利用的數據集。 人工場景具有可重複性和調整性,為了有效逼近實際場景,得到可利用的基礎場景數據,可調整人工場景中的布置,間接對所形成得物理模型和參數逼近修正,定製圖像生成要素, 以便從各種角度評價視覺演算法。人工場景可通過不斷調整和修正,預見未來的實際場景,為視覺演算法設計與評估提供超前信息。
2)實驗對比 針對人工場景和實際場景數據集對比, 進行全面充分的計算實驗,把計算機變成視覺計算實驗室,設計和評價視覺演算法,提高其在複雜環境下的性能。與基於實際場景的實驗相比,在人工場景中實驗過程可控、可觀、可重複,並且可以真正地產生實驗大數據,用於知識提取和演算法優化。 計算實驗包含兩種操作模式, 即學習與訓練、實驗與評估。學習與訓
練是針對視覺演算法設計而言,實驗與評估是針對視覺演算法評價而言。兩種操作模式都需要對人工場景數據集和實際場景數據集的對比分析,從而增加實驗的深度和廣度。
3) 平行執行 將視覺演算法在實際場景與人工場景中平行執行,使模型訓練和評估在線化、長期化, 通過實際與人工之間的虛實互動,持續優化視覺系統。由於應用環境的複雜性、挑戰性和變化性,不存在一勞永逸的解決方案,只能接受這些困難,在系統運行過程中不斷調節和改善。平行執行基於物理和網路空間的大數據,以人工場景的在線構建和利用為主要手段,通過
在線bootstrapping(Online bootstrapping) 或困難實例挖掘(Hard example mining),自動挖掘導致視覺演算法失敗或性能不佳的實例,利用它們重新調節視覺演算法和系統,提高對動態變化環境的自適應能力。
前沿引領
案例一:CVPR 2018 | 騰訊AI Lab提出新型損失函數LMCL:可顯著增強人臉識別模型的判別能力 騰訊AI Lab通過對特徵向量和權重向量的 L2 歸一化,把 softmax 損失函數轉化為餘弦損失函數,從而消除了半徑方向上的變化,並在此基礎上引入了一個餘弦邊緣值 m 來進一步最大化所學習的特徵在餘弦角度空間中的決策邊界。具體而言,騰訊AI Lab發明了一種巧妙的演算法,稱為增強邊緣餘弦損失函數 (LMCL),其以歸一化後的特徵為輸入,可通過最大化類間餘弦邊緣來學習高度判別性的特徵。
圖 1:提出的 CosFace 框架。在訓練階段,使用不同類之間的增強邊緣學習判別性的人臉特徵。在測試階段,首先將測試數據輸入 CosFace 來提取人臉特徵,然後再將這些特徵用於計算餘弦相似度分數以執行人臉驗證和人臉辨識。
基於 LMCL,騰訊AI Lab開發了一種精巧的深度模型 CosFace,如圖 1 所示。在訓練階段,LMCL 引導卷積網路使用增強餘弦邊緣來學習特徵。在測試階段,卷積網路提取出人臉特徵,用以執行人臉驗證或人臉辨識。其貢獻如下:
1、騰訊AI Lab接受了最大化類間差異和最小化類內差異的思想,提出了一種全新的損失函數 LMCL,可用於為人臉識別學習高度判別性的深度特徵。
2、根據 LMCL 所帶來的超球面特徵分布,我們提供了一個合理的理論分析。
3、在 LFW、YTF 和 Megaface 等流行的人臉資料庫上,騰訊AI Lab提出的方法在大多數基準上都優於之前的最佳表現。
案例二:何愷明、吳育昕最新成果:用組歸一化替代批歸一化 組歸一化介紹:視覺表徵的通道並不是完全獨立的。SIFT、HOG 和 GIST 的經典特徵是符合分組特徵的,其中每組信道由某種直方圖(histogram)構成。這些特徵通常通過在每個直方圖或每個方向上執行分組歸一化來處理。諸如 VLAD 和 Fisher Vectors (FV) 等高級特徵也是分組特徵,其中每一組可以被認為是關於集群計算的子向量。
類似地,我們不需要將深層神經網路特徵視為非結構化向量。例如,對於網路的第一個卷基層 conv1 ,我們可以預期,濾波器(filter)及其水平翻轉在自然圖像上呈現類似的濾波器響應分布是合理的。如果 conv1 碰巧近似地學習到這對濾波器,或者通過將水平翻轉設計到架構中,則這些濾波器的相應通道可以一起歸一化。
神經網路中的更高層級更加抽象,它們的行為也不那麼直觀。然而,除了方向之外,還有許多因素可以導致分組,例如頻率、形狀、照明、紋理等,它們的係數可以是相互依賴的。
事實上,神經科學中一個廣為接受的計算模型就是對細胞反應進行歸一化,「具有各種感受野(receptive-field)中心(覆蓋視野)和各種時空頻率調諧」,這不僅可以發生在初級視覺皮層,而且可以發生在「整個視覺系統」中。受此啟發,我們提出了一種新的深度神經網路的泛組歸一化(generic group-wise normalization)方法。
組歸一化公式:
只需要幾行代碼,GN 就可以在 iPyTorch 和 TensorFlow 實現。
微信群&商業合作
- 加入微信群:不定期分享資料,拓展行業人脈請在公眾號留言:「微信號+名字+研究領域/專業/學校/公司」,我們將很快與您聯繫。
- 投稿(無稿費)、商業合作請留言聯繫。
http://weixin.qq.com/r/AC91bd-EloLprZsO93oS (二維碼自動識別)
推薦閱讀:
※零基礎小白,如何入門計算機視覺?
※【小林的OpenCV基礎課 15】剪刀手/分水嶺分割法
※CycleGAN:圖片風格,想換就換 | ICCV 2017論文解讀
※KNN和CNN
※車輛識別(特徵提取+svm分類器)