標籤:

Weekly Reading 170726

1【embedding】YJango的Word Embedding--介紹 - 知乎專欄

比較簡單的解釋了為什麼Distributed representation會work,以及如何train。但詳細具體的train的方式,還需要看skip-gram model 和CBOW的論文。(2.5)

2【Tesorflow】Learn TensorFlow and deep learning, without a Ph.D.

google官方發布的,以手寫數字識別作為例子,簡述了深度學習模型的知識,並不斷引入各種tricks不斷的優化效果,同時展示相應的TF代碼,非常簡單易懂。

但個人感覺雖然將主線串了起來,但由於粒度過粗,對於完全新人而言或許還會是一頭霧水。。。(4.5)

它對應的詳細點的文檔:TF手寫識別文檔

3【RNN】循環神經網路(Recurrent)--介紹 - 知乎專欄

主要內容:介紹遞歸網路和前饋網路的差別和優劣,梯度消失和梯度爆炸問題,及解決問題的LSTM和GRU,然後用用tensorflow實際演示一個任務的訓練和使用。

並解答了以下幾個問題

用前饋神經網路來做時序信號預測有什麼問題?遞歸神經網路是在時間結構上存在共享特性,為什麼可以共享?

部分摘錄:

前饋網路是利用窗處理將不同時刻的向量並接成一個更大的向量。以此利用前後發生的事情預測當前所發生的情況。但其所能考慮到的前後依賴受限於將多少個向量(window size)並接在一起。

給出前饋神經網路和遞歸神經網路的動態圖演示,這個非常的贊。

RNN數學式子:h_t= phi(W_{xh} cdot concat(x_{t-1}, x_t, x_{t+1}) + {b}),concat表示將向量並接成一個更大維度的向量。

遞歸網路不再有window size的概念,而是time step。

所有時刻的權重矩陣都是共享的。這是遞歸網路相對於前饋網路而言最為突出的優勢。遞歸神經網路是在時間結構上存在共享特性的神經網路變體。時間結構共享是遞歸網路的核心中的核心。

作者以捏陶瓷為例,解釋了時間結構上的共享為什麼work。(雖然個人質疑這個例子,但這幾個例子的角度還是很有意思的,並且動態圖的形式非常好。)

  • 若用前饋網路:網路訓練過程相當於不用轉盤,而是徒手將各個角度捏成想要的形狀。不僅工作量大,效果也難以保證。
  • 若用遞歸網路:網路訓練過程相當於在不斷旋轉的轉盤上,以一種手勢捏造所有角度。工作量降低,效果也可保證。

遞歸網路的特點:時間長短可變,顧及時間依賴,未來信息依賴(具有反向遞歸層)。

遞歸網路的的問題,梯度消失(vanishinggradient)和梯度爆炸(exploding gradient)。由此引出Long Short Term Memory(LSTM)和Gated Recurrent Unit(GRU)。(4)


推薦閱讀:

不習慣雲筆記和活頁手帳的人如何進行知識的收集和積累?
還有沒有描寫愛情的短詩或句子?既震撼又平淡,既文藝又普通。
如何增加自己的知識儲備?

TAG:知识积累 |