cs20si: tensorflow for research學習筆記4

01-31

在第三篇學習筆記中，我們實現了兩個簡單的模型，線性回歸和logistic回歸，對於模型結構簡單的網路，我們不需要去處理他們的結構關係，但是在複雜的模型中，我們需要更好的安排模型的結構，這樣方便我們debug和良好的可視化，接下來，我們就討論一下如何結構化我們的模型。

TensorFlow中結構化模型

一般我們的模型都是由一下的兩步構成，第一步是構建計算圖，第二步是執行計算圖，下面我們就來依次看看這兩步操作中如何結構化模型。

構建計算圖

在構建計算圖中，一般分為下面5個步驟:

1. 定義輸入和輸出的佔位符(placeholder)

2. 定義模型中需要用到的權重

3. 定義推斷模型，構建網路

4. 定義損失函數作為優化對象

5. 定義優化器進行優化

執行計算圖

定義好了計算圖之後，我們就可以構建session去進行運算，一般也分為下面5個步驟:

1. 第一次進行運算的時候，初始化模型的所有參數

2. 傳入訓練數據，可以打亂順序

3. 網路前向傳播，計算出當前參數下的網路輸出

4. 根據網路輸出和目標計算出loss

5. 通過loss方向傳播更新網路中的參數

下面是一個可視化的示意圖

實例介紹

上面是一個基本的一般性描述，下面我們使用詞向量和skip-gram這個具體的例子來介紹一下如何結構化模型，如果對詞向量不熟悉的同學，可以查看一下我的這篇文章的簡單介紹，更加詳細的介紹可以閱讀這篇博文或者是cs224n的課件。

詞向量的簡單介紹

詞向量簡單來說就是用一個向量去表示一個詞語，但是這個向量並不是隨機的，因為這樣並沒有任何意義，所以我們需要對每個詞有一個特定的向量去表示他們，而有一些詞的詞性是相近的，比如"(love)喜歡"和"(like)愛"，對於這種詞性相近的詞，我們需要他們的向量表示也能夠相近，如何去度量和定義向量之間的相近呢？非常簡單，就是使用兩個向量的夾角，夾角越小，越相近，這樣就有了一個完備的定義。

雖然我們知道了如何定義詞向量的相似性，但是我們仍然不知道如何得到詞向量，因為這顯然不可能人為去賦值，為了得到詞向量，需要介紹skip-gram模型。

skip-gram模型的簡單介紹

skip-gram模型簡單來講就是在一大段話中，我們給定其中一個詞語，希望預測它周圍的詞語，將詞向量作為參數，通過這種方式來訓練詞向量，最後能夠得到滿足要求的詞向量。而一般來講，skip-gram模型都是比較簡單的線性模型。另外cs224n中還介紹了Noise Contrastive Estimation(不知道怎麼翻譯)的方法，這裡就不再詳細介紹了，這只是一種負樣本的取樣方法。

TensorFlow實現

下面使用tensorflow的實現來具體講解一下如何結構化模型，首先我們會實現一個非結構化版本，看看他的局限性和不足性，然後講解一下如何結構化模型。

數據集

這裡使用的是text8數據集，這是一個大約100 MB的清理過的數據集，當然這個數據集非常小並不足以訓練詞向量，但是我們可以得到一些有趣的結果。

構建計算圖

首先定義好一些超參數。

VOCAB_SIZE = 50000nBATCH_SIZE = 128nEMBED_SIZE = 128 # dimension of the word embedding vectorsnSKIP_WINDOW = 1 # the context windownNUM_SAMPLED = 64 # Number of negative examples to sample.nLEARNING_RATE = 1.0nNUM_TRAIN_STEPS = 20000nSKIP_STEP = 2000 # how many steps to skip before reporting the lossn

1. 建立輸入和輸出的佔位符(placeholder)

首先，我們將數據集中的所有語句按順序排在一起，那麼我們輸入的是其中一個詞語，比如說是第300個，那麼要預測的就是他周圍的詞，比如第301個詞，或者299個詞，當然這個範圍並不一定是1，一般來講可以預測左邊3個詞和右邊3個詞中的任何一個，所以輸入和輸出的佔位符定義如下。

center_word = tf.placeholder(tf.int32, [BATCH_SIZE], name=center_words)ny = tf.placeholder(tf.int32, [BATCH_SIZE, SKIP_WINDOW], name=target_words)n

這裡SKIP_WINDOW表示預測周圍詞的數目，超參數裡面取值為1。

2. 定義詞向量矩陣

接下來需要定義詞向量，使用下面的代碼。

embed_matrix = tf.get_variable(n "WordEmbedding", [VOCAB_SIZE, EMBED_SIZE],n tf.float32,n initializer=tf.random_uniform_initializer(-1.0, 1.0))n

這裡相當於新建一個Variable，維數分別是總的詞數x詞向量的維度。

3. 構建網路模型

我們可以通過下面的操作取到詞向量矩陣中所需要的每一個詞的詞向量。

embed = tf.nn.embedding_lookup(embed_matrix, center_word, name=embed)n

這裡embed_matrix和center_word分別表示詞向量矩陣和需要提取詞向量的單詞，我們都已經定義過了。

4. 定義loss函數

NCE已經被集成進了tensorflow，所以我們可以非常方便地進行使用，下面就是具體的api。

tf.nn.nce_loss(weights, biases, labels, inputs, num_sampled,n num_classes, num_true=1, sampled_values=None, n remove_accidental_hits=False, partition_strategy=mod, n name=nce_loss)n

labels和inputs分別是target和輸入的詞向量，前面有兩個參數分別時weights和biases，因為詞向量的維度一般不等於分類的維度，需要將詞向量通過一個線性變換映射到分類下的維度。有了這個定義之後，我們就能夠簡單地進行實現了。

nce_weight = tf.get_variable(nce_weight, [VOCAB_SIZE, EMBED_SIZE],n initializer=tf.truncated_normal_initializer(n stddev=1.0 / (EMBED_SIZE**0.5)))nnnce_bias = tf.get_variable(nce_bias, [VOCAB_SIZE], n initializer=tf.zeros_initializer())nnnce_loss = tf.nn.nce_loss(nce_weight, nce_bias, y, embed,n NUM_SAMPLED,n VOCAB_SIZE)nloss = tf.reduce_mean(nce_loss, 0)n

5. 定義優化函數

接下來我們就可以定義優化函數了，非常簡單，我們使用隨機梯度下降法。

optimizer = tf.train.GradientDescentOptimizer(LEARNING_RATE).minimize(loss)n

執行計算圖

構建完成計算圖之後，我們就開始執行計算圖了，下面就不分開講了，直接放上整段session裡面的內容。

with tf.Session() as sess:n sess.run(tf.global_variables_initializer())nn total_loss = 0.0 n # we use this to calculate the average loss in the last SKIP_STEP steps0n writer = tf.summary.FileWriter(./graphs/no_frills/, sess.graph)n for index in range(NUM_TRAIN_STEPS):n centers, targets = next(batch_gen)n train_dict = {center_word: centers, y: targets}n _, loss_batch = sess.run([optimizer, loss], feed_dict=train_dict)n total_loss += loss_batchn if (index + 1) % SKIP_STEP == 0:n print(Average loss at step {}: {:5.1f}.format(n index, total_loss / SKIP_STEP))n total_loss = 0.0n writer.close()n

通過閱讀代碼，也能看到非常清晰的結構，一步一步去運行結果。

最後放上tensorboard中網路結構的示意圖。

可以發現整體的網路結構是非常混亂的，所以我們需要結構化我們的模型。

結構化網路

結構化網路非常簡單，只需要加入Name Scope，下面是一個簡單的事例。

with tf.name_scope(name_of_taht_scope):n# declare op_1n# declare op_2n# ...n

舉一個例子，比如我們定義輸入輸出的佔位符的時候，可以如下方式定義

with tf.name_scope(data):n center_word = tf.placeholder(n tf.int32, [BATCH_SIZE], name=center_words)n y = tf.placeholder(n tf.int32, [BATCH_SIZE, SKIP_WINDOW], name=target_words)n

然後我們運行相同的代碼，就能夠在tensorboard裡面得到下面的結果。

是不是結構非常的清楚，所以我們平時需要結構化我們的模型，以便於更好的可視化和debug。

詞向量可視化

最後在介紹一下詞向量的可視化，現在tensorboraad也支持詞向量的可視化了，進行一系列複雜的操作，就能夠在tensorboard中得到下面的結果。

輸入每個詞，都能夠在右邊看到與之詞性相近的詞語分別是什麼，特別方便，這個可視化的代碼在這個文件中。

本文的全部代碼都在github上

歡迎訪問我的博客

歡迎查看我的知乎專欄，深度煉丹