BAT1000題精選 | RNN是怎麼從單層網路一步步構造的

02-01

從單層網路談起

在學習RNN之前，首先要了解一下最基本的單層網路，它的結構如圖：

輸入是x，經過變換Wx+b和激活函數f得到輸出y。相信大家對這個已經非常熟悉了。

如：

序列形的數據就不太好用原始的神經網路處理了。為了建模序列問題，RNN引入了隱狀態h（hidden state）的概念，h可以對序列形的數據提取特徵，接著再轉換為輸出。先從h1的計算開始看：

圖示中記號的含義是：

在很多論文中也會出現類似的記號，初學的時候很容易搞亂，但只要把握住以上兩點，就可以比較輕鬆地理解圖示背後的含義。

h2的計算和h1類似。要注意的是，在計算時，每一步使用的參數U、W、b都是一樣的，也就是說每個步驟的參數都是共享的，這是RNN的重要特點，一定要牢記。

依次計算剩下來的（使用相同的參數U、W、b）：

我們這裡為了方便起見，只畫出序列長度為4的情況，實際上，這個計算過程可以無限地持續下去。

我們目前的RNN還沒有輸出，得到輸出值的方法就是直接通過h進行計算：

正如之前所說，一個箭頭就表示對對應的向量做一次類似於f(Wx+b)的變換，這裡的這個箭頭就表示對h1進行一次變換，得到輸出y1。

剩下的輸出類似進行（使用和y1同樣的參數V和c）：

OK！大功告成！這就是最經典的RNN結構，我們像搭積木一樣把它搭好了。它的輸入是x1, x2, .....xn，輸出為y1, y2, ...yn，也就是說，輸入和輸出序列必須要是等長的。

由於這個限制的存在，經典RNN的適用範圍比較小，但也有一些問題適合用經典的RNN結構建模，如：

計算視頻中每一幀的分類標籤。因為要對每一幀進行計算，因此輸入和輸出序列等長。
輸入為字元，輸出為下一個字元的概率。這就是著名的Char RNN（詳細介紹請參考：The Unreasonable Effectiveness of Recurrent Neural Networks，Char RNN可以用來生成文章、詩歌，甚至是代碼。此篇博客里有自動生成歌詞的實驗教程《基於torch學汪峰寫歌詞、聊天機器人、圖像著色/生成、看圖說話、字幕生成》http://blog.csdn.net/v_july_v/article/details/52796239）。