Hinton提出逐層貪婪訓練的方式來解決梯度彌散和局部極值的問題,caffe是如何做到的?

這是第二次在知乎上提問,以前多半是瀏覽,有人回答還是很高興的,但是覺得回答對我沒什麼幫助,或許是提問太過於簡單了。下班的路上我做了些思考,可能讓回答者認為題目很簡單的原因是他有非常厚的理論基礎,對cnn非常了解,而我是站在一個實用者,一個入門級選手的角度看問題的。我只知道如果老闆給我了半年時間讓我做ocr,結果我只是用了一張紙告訴他我可以把準確率達到100%,除此之外沒有任何可以部署上線,解決問題的系統,同時,由於新廣告法的實施,商品詳情圖片中出現了各種違規詞,公司被罰款幾萬甚至幾十萬,幾百萬,我想老闆肯定會好不猶豫的炒了我。我更關心的是這個東西能給我帶來一個什麼樣的結果,至於理論固然重要,可以幫我更好的應用到實際,但這裡有一個主次的關係,我的主要目的就是提高實際應用的效果,至於理論,如果實踐已經完美了,我可以毫不關心。

另外一點感慨就是,不論是在學習還是工作中,總是有些人拿著矬子里的大個的優越感,對菜鳥嗤之以鼻。這些人理論搞得沒發什麼自然科學,實踐也沒搞出hadoop,caffe,但是當你向他請教的時候,會給你藐視的一笑,或許問題太過於菜鳥了吧,這也是我來知乎提問的原因,希望會得到一個滿意的答案。當然這只是個別現象,還是會有很多人會幫助你的


給題主做個科普吧。深度學習雖然時間不久,但也是分了兩個階段。

第一個階段就是題主所說的2006年開始的逐層預訓練,雖然也解決了一些問題,但並沒有特別火。

第二個階段開始的標誌就是2012年imagenet比賽中,cnn以壓倒性優勢取得勝利,自此開始深度學習才真正引人關注起來。

雖然都叫深度學習,但其側重點完全不同,通過一些手段,比如relu, dropout等小技巧,第二波深度學習演算法已經完全拋棄了預訓練的做法。

caffe也是第二波深度學習的產物,所以裡面沒有逐層預訓練這種東西。


你這一副伸手拿來的態度。知乎的人再閑也沒興趣手把手教一個不謙遜的人吧。

你主次分明,你強調實踐,都OK的,但是你對理論的態度,我表示沒興趣跟你交流。你做不好工作會被炒,那是你的能力問題,不要一副要求別人要站在你的角度為你服務的態度。


題主提出這個問題說明三點:

1 沒有仔細閱讀caffe文檔

2 沒有觀察過 caffe訓練過程 甚至沒有用過 caffe

3 並不理解什麼是逐層貪婪訓練,並且在可預見的未來也不會理解


實際上caffe是支持hinton 2006年提出的逐層訓練結構的

舉個栗子,就是caffe examples中mnist autoencoder模型

實際上caffe作為一個神經網路的框架,提供了構建複雜神經網路的基礎模塊,如果只限制於cnn,就太浪費caffe了,就像最近比較火的LSTM也是可以通過caffe實現的


推薦閱讀:

如何評價 Squeeze-and-Excitation Networks ?
Weight Normalization 相比batch Normalization 有什麼優點呢?
有沒有好理解的關於神經網路的書推薦?
機器學習怎麼系統的入門?
為何總感覺人工智慧和神經科學(神經網路)被綁在一起?

TAG:神經網路 | Caffe深度學習框架 |