論文精讀| 附源代碼及數據集 | LeCun的CNN經典之作 | Gradient-Based Learning…

05-06

更多AI資訊，關注微信公眾號：九三智能控

論文介紹

作者：Yann LeCun, Leon Bottou, Yoshua Bengio, and Partrick Haffner

全文和源代碼下載，公眾號回復：20180423

作者簡介

Yann LeCun，生於1960年，是一位機器學習、計算機視覺、機器人、計算神經科學領域的計算機科學家。他被大家所熟知的是在非光學字元識別和利用卷積神經網路（CNN）實現計算視覺方面的工作，是CNN之父。他也是DjVu圖像壓縮技術的主要創造者之一。他與Léon Bottou.共同開發了Lush編程語言。

（from Wikipedia）

特別說明這篇文章非常具有代表意義，是LeCun在1998年發布的大名鼎鼎的LeNet，在這裡LeCun發了一篇46頁的論文，第一次喊出了卷積網(Convolutional network)的口號，並且把結果同各種方法做了一個比較，基本唯一能抗衡的就是V-SVM poly9,結果祭出大殺器Boost，Boosted LeNet-4，以0.1%的優勢幹掉了SVM。

摘要 利用反向傳播演算法訓練的多層神經網路成為了基於梯度學習技術的應用非常成功的最佳案例。給出一個比較合適的網路結構，基於梯度的學習演算法可以用來形成一個複雜的決策曲面，可以基於很少的預處理實現對手寫字體識別這樣的高維模式進行分類。這篇文章綜述了識別手寫字體的各種不同方法，並在一個標準的數據集上進行了對比。卷積神經網路經過特定設計後，在處理各種2D圖形時跑贏了其他方法。

真實的文檔識別同是由多種模塊組成的，包括欄位抽取、分割、識別和語言建模。以各種學習範式叫做圖像轉換網路（GTN），可以讓這樣的多模塊系統通過基於梯度的方法進行全局訓練，從而實現綜合性能指標的最優化。

以上描述的兩個在線手寫體識別系統，通過試驗證明了全局訓練的好處，以及GTN的靈活性。

文中介紹了一種用於識別銀行支票的GTN方法。它使用了CNN字體識別聯合全局訓練技術，實現商業和個人支票的記錄精度。這套方法已經實現了商業部署，每天處理幾百萬張支票。

文章結構本次精讀重點關心的是LeNet部分的內容，涉及1-3章，其餘部分不做介紹，感興趣的小夥伴可以自行閱讀。

精華內容知識點1：自動學習可以實現比手工設計啟發方式更好的模式識別系統。 這是作者在整篇文章中方法的核心理念，這種方式也是隨著機器學習方法和計算機技術的發展而變得可行的。

知識點2：從數據中學習的路徑 數值方法或者叫基於梯度的學習方法是神經網路社區在90年代最為流行、最成功的方法，正是這個方法使得從數據中進行學習成為可能。即使今日，主流學習方法仍然是基於梯度學習的演化方法。更加高效的學習方法仍在探索之中。

該方法的核心是將訓練誤差和測試誤差的最小化。

知識點3：梯度學習 計算機科學很多問題的根源是如何對一個函數中參數集合最優化的問題。梯度學習方式使得對連續平滑函數的最優化變得更加容易。

知識點4：梯度反向傳播 該方法在1950年就已經提出來，但真正廣為使用源於三個重要事件的發生。

1.損失函數的局部極值問題在實踐中並沒有造成真正的困擾

2.一個簡單有效計算非線性系統中多層結構中梯度的方法的流行，該方法由Rumelhart, Hinton和Williams等人提出

3.反向傳播過程在帶有sigmoidal單元的多層神經網路的複雜學習任務中的有效性得到證明

知識點5：全局訓練方法 不同於當時傳統的多模塊系統，提出了基於偏微分方程的全局訓練方法。

知識點6：卷積網路 卷積網路結構的三個核心思想保證了數據在變換、縮放和扭曲情況下的一致性。基於此思想，提出了LeNet-5的網路結構，包括卷積層、池化層、全連接層、損失函數等內容。在此不對網路進行詳細闡述，感興趣可以參見文章P7-9頁。

1.局部感知場

2.權重共享（或者叫權重複制）

3.空間或時間上的二次採樣

知識點7：各種方法之間的對比 最終結果之中對比了當時各種主流分類器的精度。特定設計的Boosted LeNet-4以0.7的錯誤率優於V-SVM poly 9方法的0.8錯誤率。各個方法的詳細說明參見文章P10-14頁。

知識點8：對於雜訊的抗干擾能力 特別討論了在實際場景中，CNN網路對於圖像變形、縮放、扭曲等情況下的高度抗干擾能力，大大由於傳統方法。使得圖像識別方法的實際應用變得更加可行。

微信群&交流合作

加入微信群：不定期分享資料，拓展行業人脈請在公眾號留言：「微信號+名字+研究領域/專業/學校/公司」，我們將很快與您聯繫。
投稿、交流合作請留言聯繫。

http://weixin.qq.com/r/AC91bd-EloLprZsO93oS (二維碼自動識別)