深度學習CNN,用卷積和下採樣,為什麼就有效?全連接的物理意義又是什麼?

小菜鳥一枚,求大神們指教


我能簡單的說全連接就是在做線性變換嗎?


全連接是傳統神經網路里的吧,現在不是深度學習都放棄全連接了嗎?參數太多,會overfitting。本人深度學習也在學習中,我的感覺是卷積和下採樣也不是深度學習特有的啊,這兩個方法廣泛存在於其他學習方法,一般都挺有用的。


以下一家之言。

當我們說「從一副圖像中提取特徵」時,這些特徵其實指的是圖像在一些紋理以及它們組合方式上的響應。什麼是響應呢?從卷積運算的操作上來看,響應就是一個對應位置元素積的和,即向量點乘。顯然,當兩個向量方向越接近時,其點乘積越大;對於圖像來說,如果其在某個位置通過卷積核的響應值越大,說明它在這個位置的紋理和卷積核所參數化的紋理越像。從這個角度上,特徵圖標註著每一種紋理在原圖中出現的位置;而對於深層特徵圖,其標註的是紋理的深層組合在原圖中出現的位置,這就是卷積運算提取圖像特徵的物理解釋。

剛才我們提到說深層特徵圖標註了組合紋理在原圖中出現的位置。而在這些紋理被組合的過程中,元紋理間的相對位置關係無法在全圖高度精確地一致。換言之,網路需要了解的是在某一個區域里是否存在「元紋理1在元紋理2左邊」這種組合紋理,而非「元紋理1在元紋理2左邊間隔7個像素位置」。所以採用下採樣在一定範圍內弱化響應出現位置的精確性,實則增加了對特徵幾何變化的容忍。

最後說全連接層。在層層卷積對紋理層層組合後,深層組合紋理已經有語義意義了,我們稱其為屬性。通過對網路的訓練,我們可以找到這樣的一組屬性:它可以描述樣本集中的每一個樣本,但不同語義標籤的樣本在這組屬性上的係數差別很大,同種語義標籤的又差別很小。fc層的作用是根據樣本用這組屬性來描述時的係數,來預測樣本的語義內容。和卷積層的局部相關不同,fc的哲學是「存在即意義」,它體現的是神經網路設計者的一種認識:對於每一個樣本,我們需要用一套完整的屬性集才可以對它進行不混淆的描述。


根據我極度有限的(生物)神經科學的知識,個人理解為和感受野(receptive field)是等價的。

https://www.youtube.com/watch?v=RSNofraG8ZE (某不存在的網站,花樣虐貓)

感受野主要表現為神經細胞(具體哪一部分也不記得了)被視網膜上某一特定位置的特定形狀和特定方向的視覺改變激發。到CNN中,卷積的效果應該也是提取了這樣的邊緣信息或者角點信息。

視神經細胞的短時可塑性被CNN中的卷積操作所「代表」,那麼長時可塑性應該對應了網路權值。

為什麼會有效?個人理解為CNN這種構造更加細緻地模擬了大腦的工作原理。

聲明:非CV,非神經學領域的閑雜人等,以上為口胡,如果被帶到溝里去了不要怪我。


全連接就是原始的神經網路,認為下一層的輸出與上一層所有輸入都有關,這樣網路參數過多會導致overfitting,而卷積的意義在於共享了網路的參數,避免overfitting,當選擇的濾波器大小與圖片的size一樣大,這時卷積層就相當於全連接


題主應該是想知道CNN的直觀意義吧?大概是這樣的:以圖像處理為例,卷積過程能抽取原始圖像在局部的關鍵信息,然後將這個信息通過訓練處理後傳遞給下一層,以達到對一個量級的圖像特徵的提取處理。重複上述過程可以將信息處理精度、量級不斷提升。打比方就是一組800x800的圖像,先以100x100為單位進行圖案分析,到了下一層精度就就變成50x50,以此類推。


全鏈接不是被lecun批評過了么


推薦閱讀:

caffe 在Ubuntu下如何用已訓練出來的模型測試一張圖片?
有了AWS,不需要自己配GPUs?做深度學習。?
關於這些用於深度學習的機器配置,合理嗎,哪個好?
如何評價微軟亞洲研究院提出的LightRNN?
如何理解空洞卷積(dilated convolution)?

TAG:神經網路 | 深度學習DeepLearning | Caffe深度學習框架 |