1. 深度學習發展史

1.1 人工神經網路的歷史

深度學習,更具體來說,深度神經網路是源於人工神經網路(ANN)的研究。人工神經網路的發展初期可以分為4個階段:人工神經網路的啟蒙時期始於1890年美國著名心理學家W.James關於人腦結構與功能的研究,1943年McCulloch和Pitts[1]創建了「M-P神經元模型」,該模型用激活函數的形式對神經元進行了簡單表示。然而,Minsky[2]在1969年出版的《感知機》一書中用詳細的數學證明此方法對於異或這樣的簡單分類任務都無法解決,由於其巨大的影響力與書中所呈現的悲觀態度使神經網路的研究陷入低潮期。低潮期直到1982年,J.J.Hopefield發表的《神經網路和物理系統》這一突破性研究論文提出單層反饋神經網路(Hopfield Net)並與1985年用模擬電子線路成功實現了該網路使神經網路進入了復興時期。1986年D.E.Rumelhart和J.L McCelland領導的研究小組論文《並行分散式處理》[3]將整個神經網路研究推向了高潮,並在1987年開展了首屆國際人工神經網路學術會議,至此,人工神經網路的研究進入了高潮時期。

1.2 深度學習的黎明

2000年左右,SVM、決策樹等淺層學習演算法取得了成果,人人都棄暗投明,改做其他機器學習研究,人工神經網路被打入冷宮。2006年,Geoffrey Hinton 發表論文[4]將神經網路用用於降維提出自編碼網路,並於同年在《自然》雜誌發表論文《A fast learning algorithm for deep belief nets》[5]提出將反向傳播演算法應用於神經網路,並提出一種深度神經網路的模型:深度置信網路(DBN),並在著名的手寫字數據集MNIST中達到錯誤率1.25%的驚人成績(SVM:1.4%,ANN:2.95%)。至此,深度學習開始登上舞台。

1.3 深度學習的現狀

2012年和2013年,Alex分別使用深度卷積神經網路(DCNN)和深度循環神經網路(DRNN)應用於圖像識別方面和語音識別方面獲得成功[6][7],創建了圖像和語音處理的新方法。2012年開始,對於深度學習演算法的研究工作如雨後春筍一般的冒了出來,Hinton在2012年[8]與2014年[9]提出Dropout方法來防止因數據集太小帶來的過擬合問題;2015年Ioffe,Sergey[10]提出批正則化(batch normalization, BN)的方法防止模型在訓練過程中「梯度彌散」,該論文榮獲2015年傑出研究;2016年Hitton小組發文[11]提出層正則化(layer normalization)更新了BN研究方法。在梯度下降優化方面,Sutskever,Ilya[12]提出基於動量的優化方法;Kingma等[13]提出Adam梯度下降方式,該方式是目前應用最廣的梯度下降優化方式。


2. 深度學習的應用前景

視覺追蹤:視覺追蹤是指對圖像序列中的運動目標進行檢測、提取、識別和跟蹤,獲得運動目標的運動參數,如位置、速度、加速度和運動軌跡等,從而進行下一步的處理與分析,實現對運動目標的行為理解,以完成更高一級的檢測任務。2013年,第一篇使用深度學習做視覺追蹤的論文[22]被發表,論文設計並實現了DLT Tracker用於完成對圖像序列中的目標檢測;2015年他們又在上一篇文章的基礎上改進設計了SO-DLT追蹤器[23];同年,使用全卷積神經網路(FCNT)來實現視覺追蹤問題也被提出[24];2016年出現了SiameseFC[25]實時物體追蹤領域的最新前沿技術;值得一提的是TCNN[26]成為了VOT2016獲獎論文。

物體檢測:物體檢測是指探尋圖像中某種物體是否存在的檢測任務。2013年Szegedy、Christian等[27]首次提出是用深度學習做物體檢測任務;2014年出現了頗具影響力的RCNN[28]與SPPNet[29],並在2015年將RCNN模型進一步提高為Fast R-CNN[30]與Faster R-CNN[31];同年提出的傑出研究YOLO模型[32]在物體檢測任務上非常具有使用價值。




