深度學習與字典學習(稀疏表示)的區別與聯繫有哪些?

RT,字典學習是一種稀疏表示的方法,而深度學習也通過一些tricks來希望學習到稀疏的特徵,那麼兩者間有無更深層次的聯繫與區別?


這個問題可以從兩個角度來看。

先從數據的角度看,這裡拿圖像做例子。我們人類看每一幅圖像都能夠把圖像的樣子記下來,但我們記憶的方式並不是把每一個像素都機械地記錄在腦子裡,而是採用記憶圖像高層語義的方式,比如圖像上是個什麼人或者什麼地方之類的,這其實是一個將圖像從像素向量轉化為語義向量的過程。由於一幅圖像的語義數量往往很有限,轉化得到的語義向量一般而言是個稀疏向量,只有很少的非零元,因此,所有有意義的圖像實際上都內在地蘊含著某種稀疏表示,所有的圖像識別、圖像理解演算法,不管是字典學習也好,深度學習也好,都是為了找到這種稀疏表示。

再從演算法的角度看。這幾年,深度學習在應用領域出盡風頭之後,越來越多的人開始從理論的角度對它進行研究。研究了一段時間之後,人們慢慢發現,兩個流派的演算法中,從思想到具體的運算元,相通的東西太多:CNN中的卷積操作所具有的局部性(約束更強的稀疏性);字典學習中的軟閾值函數和ReLU函數形狀的相似性;Autoencoder尋找數據的低秩表示的核心思想,等等等等,以至於現在的研究者已經開始認為,兩個流派就是同一種東西的不同表現形式而已。

嗯,大概就是這樣。如果答主對更多數學上的細節感興趣的話,這裡有兩個不錯的資源可供參考:

今日頭條AI技術沙龍馬毅:低維模型與深度模型的殊途同歸 上科大馬毅教授(研究稀疏表示的大牛,曾是UIUC EECS最年輕的副教授,在MSRA視覺組當過負責人,現在在上海科技大學任教)最近在清華的講座,上面的回答有不少參考了講座里的內容

https://arxiv.org/pdf/1607.08194.pdf 這篇paper對卷積稀疏表示(Convolutional Sparse Coding)與卷積神經網路進行了詳盡的分析和比較,出自以色列理工學院Michael Elad(也是研究稀疏表示的大牛)組


推薦閱讀:

TAG:機器學習 | 稀疏矩陣 | 深度學習DeepLearning |