Weekly Reading 170726
1【embedding】YJango的Word Embedding--介紹 - 知乎專欄
比較簡單的解釋了為什麼Distributed representation會work,以及如何train。但詳細具體的train的方式,還需要看skip-gram model 和CBOW的論文。(2.5)
2【Tesorflow】Learn TensorFlow and deep learning, without a Ph.D.
google官方發布的,以手寫數字識別作為例子,簡述了深度學習模型的知識,並不斷引入各種tricks不斷的優化效果,同時展示相應的TF代碼,非常簡單易懂。
但個人感覺雖然將主線串了起來,但由於粒度過粗,對於完全新人而言或許還會是一頭霧水。。。(4.5)
它對應的詳細點的文檔:TF手寫識別文檔
3【RNN】循環神經網路(Recurrent)--介紹 - 知乎專欄
主要內容:介紹遞歸網路和前饋網路的差別和優劣,梯度消失和梯度爆炸問題,及解決問題的LSTM和GRU,然後用用tensorflow實際演示一個任務的訓練和使用。
並解答了以下幾個問題:
用前饋神經網路來做時序信號預測有什麼問題?遞歸神經網路是在時間結構上存在共享特性,為什麼可以共享?
部分摘錄:
前饋網路是利用窗處理將不同時刻的向量並接成一個更大的向量。以此利用前後發生的事情預測當前所發生的情況。但其所能考慮到的前後依賴受限於將多少個向量(window size)並接在一起。
給出前饋神經網路和遞歸神經網路的動態圖演示,這個非常的贊。
RNN數學式子:,concat表示將向量並接成一個更大維度的向量。
遞歸網路不再有window size的概念,而是time step。
所有時刻的權重矩陣都是共享的。這是遞歸網路相對於前饋網路而言最為突出的優勢。遞歸神經網路是在時間結構上存在共享特性的神經網路變體。時間結構共享是遞歸網路的核心中的核心。
作者以捏陶瓷為例,解釋了時間結構上的共享為什麼work。(雖然個人質疑這個例子,但這幾個例子的角度還是很有意思的,並且動態圖的形式非常好。)
- 若用前饋網路:網路訓練過程相當於不用轉盤,而是徒手將各個角度捏成想要的形狀。不僅工作量大,效果也難以保證。
- 若用遞歸網路:網路訓練過程相當於在不斷旋轉的轉盤上,以一種手勢捏造所有角度。工作量降低,效果也可保證。
遞歸網路的特點:時間長短可變,顧及時間依賴,未來信息依賴(具有反向遞歸層)。
遞歸網路的的問題,梯度消失(vanishinggradient)和梯度爆炸(exploding gradient)。由此引出Long Short Term Memory(LSTM)和Gated Recurrent Unit(GRU)。(4)
推薦閱讀:
※不習慣雲筆記和活頁手帳的人如何進行知識的收集和積累?
※還有沒有描寫愛情的短詩或句子?既震撼又平淡,既文藝又普通。
※如何增加自己的知識儲備?
TAG:知识积累 |