PaperWeekly 第53期 | 更別緻的詞向量模型：Simpler GloVe - Part 2

01-26

作者丨蘇劍林

學校丨中山大學碩士生

研究方向丨NLP，神經網路

個人主頁丨kexue.fm

前言

本文作者在更別緻的詞向量模型：Simpler GloVe - Part 1一文中提出了一個新的類似 GloVe 的詞向量模型 — Simpler GloVe。

本期我們將帶來該系列的後半部分，包括對該詞向量模型的詳細求解、結果展示，以及代碼和語料分享。

模型的求解

損失函數

現在，我們來定義 loss，以便把各個詞向量求解出來。用 P? 表示 P 的頻率估計值，那麼我們可以直接以下式為 loss：

相比之下，無論在參數量還是模型形式上，這個做法都比 GloVe 要簡單，因此稱之為 Simpler GloVe。GloVe模型是：

在 GloVe 模型中，對中心詞向量和上下文向量做了區分，然後最後模型建議輸出的是兩套詞向量的求和，據說這效果會更好，這是一個比較勉強的 trick，但也不是什麼毛病。最大的問題是參數 bi,b?j 也是可訓練的，這使得模型是嚴重不適定的。我們有：

這就是說，如果你有了一組解，那麼你將所有詞向量加上任意一個常數向量後，它還是一組解。這個問題就嚴重了，我們無法預估得到的是哪組解，一旦加上的是一個非常大的常向量，那麼各種度量都沒意義了（比如任意兩個詞的 cos 值都接近1）。

事實上，對 GloVe 生成的詞向量進行驗算就可以發現，GloVe 生成的詞向量，停用詞的模長遠大於一般詞的模長，也就是說一堆詞放在一起時，停用詞的作用還明顯些，這顯然是不利用後續模型的優化的。（雖然從目前的關於 GloVe 的實驗結果來看，是我強迫症了一些。）

互信息估算

為了求解模型，首先要解決的第一個問題就是 P(wi,wj),P(wi),P(wj) 該怎麼算呢？P(wi),P(wj) 簡單，直接統計估計就行了，但 P(wi,wj) 呢？怎樣的兩個詞才算是共現了？

當然，事實上不同的用途可以有不同的方案，比如我們可以認為同出現在一篇文章的兩個詞就是碰過一次面了，這種方案通常會對主題分類很有幫助，不過這種方案計算量太大。更常用的方案是選定一個固定的整數，記為 window，每個詞前後的 window 個詞，都認為是跟這個詞碰過面的。

一個值得留意的細節是：中心詞與自身的共現要不要算進去？窗口的定義應該是跟中心詞距離不超過 window 的詞，那麼應該要把它算上的，但如果算上，那沒什麼預測意義，因為這一項總是存在，如果不算上，那麼會降低了詞與自身的互信息。

所以我們採用了一個小 trick：不算入相同的共現項，讓模型自己把這個學出來。也就是說，哪怕上下文（除中心詞外）也出現了中心詞，也不算進 loss中，因為數據量本身是遠遠大於參數量的，所以這一項總可以學習出來。

權重和降採樣

GloVe 模型定義了如下的權重公式：

其中 Xij 代表詞對 (wi,wj) 的共現頻數，Xmax,α 是固定的常數，通常取 Xmax=100,α=3/4，也就是說，要對共現頻數低的詞對降權，它們更有可能是噪音，所以最後 GloVe 的 loss 是：

在本文的模型中，繼續沿用這一權重，但有所選擇。首先，對頻數作 α 次冪，相當於提高了低頻項的權重，這跟 word2vec 的做法基本一致。值得思考的是 min 這個截斷操作，如果進行這個截斷，那麼相當於大大降低了高頻詞的權重，有點像 word2vec 中的對高頻詞進行降採樣，能夠提升低頻詞的學習效果。

但可能帶來的後果是：高頻詞的模長沒學好。我們可以在《模長的含義》這一小節中看到這一點。總的來說，不同的場景有不同的需求，因此我們在最後發布的源碼中，允許用戶自定義是否截斷這個權重。

Adagrad

跟 GloVe 一樣，我們同樣使用 Adagrad 演算法進行優化，使用 Adagrad 的原因是因為它大概是目前最簡單的自適應學習率的演算法。

但是，我發現 GloVe 源碼中的 Adagrad 演算法寫法是錯的。我不知道 GloVe 那樣寫是刻意的改進，還是筆誤（感覺也不大可能筆誤吧？）。

總之，如果我毫不改動它的迭代過程，照搬到本文的 Simpler GloVe 模型中，很容易就出現各種無解的 nan，如果寫成標準的 Adagrad，nan 就不會出現了。

選定一個詞對 wi,wj 我們得到 loss：

它的梯度是：

然後根據 Adagrad 演算法的公式進行更新即可，默認的初始學習率選為 η=0.1，迭代公式為：

根據公式可以看出，Adagrad 演算法基本上是對 loss 的縮放不敏感的，換句話說，將 loss 乘上 10 倍，最終的優化效果基本沒什麼變化，但如果在隨機梯度下降中，將 loss 乘上 10 倍，就等價於將學習率乘以 10 了。

有趣的結果

最後，我們來看一下詞向量模型（15）會有什麼性質，或者說，如此煞費苦心去構造一個新的詞向量模型，會得到什麼回報呢？

模長的含義

似乎所有的詞向量模型中，都很少會關心詞向量的模長。有趣的是，我們上述詞向量模型得到的詞向量，其模長還能在一定程度上代表著詞的重要程度。我們可以從兩個角度理解這個事實。

在一個窗口內的上下文，中心詞重複出現概率其實是不大的，是一個比較隨機的事件，因此可以粗略地認為：

所以根據我們的模型，就有：

所以：

可見，詞語越高頻（越有可能就是停用詞、虛詞等），對應的詞向量模長就越小，這就表明了這種詞向量的模長確實可以代表詞的重要性。事實上，?logP(w) 這個量類似 IDF，有個專門的名稱叫 ICF，請參考論文《TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams》。

然後我們也可以從另一個角度來理解它，先把每個向量分解成模長和方向：

其中 |v| 模長是一個獨立參數，方向向量 v/‖v‖ 是 n?1 個獨立參數，n 是詞向量維度。由於參數量差別較大，因此在求解詞向量的時候，如果通過調整模長就能達到的，模型自然會選擇調整模長而不是拼死拼活調整方向。因此，我們有：

對於像「的」、「了」這些幾乎沒有意義的詞語，詞向量會往哪個方向發展呢？前面已經說了，它們的出現頻率很高，但本身幾乎沒有跟誰是固定搭配的，基本上就是自己周圍逛，所以可以認為對於任意詞 wi，都有

為了達到這個目的，最便捷的方法自然就是 ‖v的‖≈0 了，調整一個參數就可以達到，模型肯定樂意。也就是說對於頻數高但是互信息整體都小的詞語（這部分詞語通常沒有特別的意義），模長會自動接近於 0，所以我們說詞向量的模長能在一定程度上代表詞的重要程度。

在用本文的模型和百度百科語料訓練的一份詞向量中，不截斷權重，把詞向量按照模長升序排列，前 50 個的結果是：

可見這些詞確實是我們稱為「停用詞」或者「虛詞」的詞語，這就驗證了模長確實能代表詞本身的重要程度。這個結果與是否截斷權重有一定關係，因為截斷權重的話，得到的排序是：

兩個表的明顯區別是，在第二個表中，雖然也差不多是停用詞，但是一些更明顯的停用詞，如「的」、「是」等反而不在前面，這是因為它們的詞頻相當大，因此截斷造成的影響也更大，因此存在擬合不充分的可能性（簡單來說，更關注了低頻詞，對於高頻詞只是「言之有理即可」。）。

那為什麼句號和逗號也很高頻，它們又上榜了？因為一句話的一個窗口中，出現兩次句號「。」的概率遠小於出現兩次「的」的概率，因此句號「。」的使用更加符合我們上述推導的假設，而相應地，由於一個窗口也可能出現多次「的」，因此「的」與自身的互信息應該更大，所以模長也會偏大。

詞類比實驗

既然我們號稱詞類比性質就是本模型的定義，那麼該模型是否真的在詞類比中表現良好？我們來看一些例子。

這裡還想說明一點，詞類比實驗，有些看起來很漂亮，有些看起來不靠譜，但事實上，詞向量反映的是語料的統計規律，是客觀的。而恰恰相反，人類所定義的一些關係，反而才是不客觀的。

對於詞向量模型來說，詞相近就意味著它們具有相似的上下文分布，而不是我們人為去定義它相似。所以效果好不好，就看「相似的上下文分布 ? 詞相近」這一觀點（跟語料有關），跟人類對相近的定義（跟語料無關，人的主觀想法）有多大差別。當發現實驗效果不好時，不妨就往這個點想想。

相關詞排序

留意式（15），也就是兩個詞的互信息等於它們詞向量的內積。互信息越大，表明兩個詞成對出現的幾率越大，互信息越小，表明兩個詞幾乎不會在一起使用。因此，可以用內積排序來找給定詞的相關詞。

當然，內積是把模長也算進去了，而剛才我們說了模長代表的是詞的重要程度，如果我們不管重要程度，而是純粹地考慮詞義，那麼我們會把向量的範數歸一後再求內積，這樣的方案更加穩定：

根據概率論的知識，我們知道如果互信息為 0，也就是兩個詞的聯合概率剛好就是它們隨機組合的概率，這表明它們是無關的兩個詞。對應到式（15），也就是兩個詞的內積為 0。

而根據詞向量的知識，兩個向量的內積為 0，表明兩個向量是相互垂直的，而我們通常說兩個向量垂直，表明它們就是無關的。所以很巧妙，兩個詞統計上的無關，正好對應著幾何上的無關。這是模型形式上的美妙之一。

需要指出的是，前面已經提到，停用詞會傾向於縮小模長而非調整方向，所以它的方向就沒有什麼意義了，我們可以認為停用詞的方向是隨機的。這時候我們通過餘弦值來查找相關詞時，就有可能出現讓我們意外的停用詞了。

重新定義相似

注意上面我們說的是相關詞排序，相關詞跟相似詞不是一回事。比如「單身」、「凍成」都跟「狗」很相關，但是它們並不是近義詞；「科學」和「發展觀」也很相關，但它們也不是近義詞。

那麼如何找近義詞？事實上這個問題是本末倒置的，因為相似的定義是人為的，比如「喜歡」和「喜愛」相似，那「喜歡」和「討厭」呢？如果在一般的主題分類任務中它們應當是相似的，但是在情感分類任務中它們是相反的。再比如「跑」和「抓」，一般情況下我們認為它們不相似，但如果在詞性分類中它們是相似的，因為它們具有相同的詞性。

回歸到我們做詞向量模型的假設，就是詞的上下文分布來揭示詞義。所以說，兩個相近的詞語應該具有相近的上下文分布，前面我們討論的「機場-飛機+火車=火車站」也是基於同樣原理，但那裡要求了上下文單詞一一嚴格對應，而這裡只需要近似對應，條件有所放寬，而且為了適應不同層次的相似需求，這裡的上下文也可以由我們自行選擇。

具體來講，對於給定的兩個詞 wi,wj 以及對應的詞向量 vi,vj，我們要算它們的相似度，首先我們寫出它們與預先指定的 N 個詞的互信息，即：

和：

這裡的 N 是詞表中詞的總數。如果這兩個詞是相似的，那麼它們的上下文分布應該也相似，所以上述兩個序列應該具有線性相關性，所以我們不妨比較它們的皮爾遜積矩相關係數：

其中是 $?vi,vk?ˉ$ 是?vi,vk? 的均值，即：

所以相關係數公式可以簡化為：

用矩陣的寫法（假設這裡的向量都是行向量），我們有：

方括弧這一塊又是什麼操作呢？事實上它就是：

也就是將詞向量減去均值後排成一個矩陣 V，然後算 V?V，這是一個 n×n 的實對稱矩陣，n 是詞向量維度，它可以分解（Cholesky分解）為：

其中 U 是 n×n 的實矩陣，所以相關係數的公式可以寫為：

我們發現，相似度還是用向量的餘弦值來衡量，只不過要經過矩陣 U 的變換之後再求餘弦值。

最後，該怎麼選擇這 N 個詞呢？我們可以按照詞頻降序排列，然後選擇前 N 個。

如果 N 選擇比較大（比如 N=10000），那麼得到的是一般場景下語義上的相關詞，也就是跟前一節的結果差不多；如果 N 選擇比較小，如 N=500，那麼得到的是語法上的相似詞，比如這時候「爬」跟「掏」、「撿」、「摸」都比較接近。

關鍵詞提取

所謂關鍵詞，就是能概括句子意思的詞語，也就是說只看關鍵詞也大概能猜出句子的整體內容。假設句子具有 k 個詞 w1,w2,…,wk，那麼關鍵詞應該要使得：

最大，說白了，就是用詞來猜句子的概率最大，而因為句子是預先給定的，因此 P(w1,w2,…,wk) 是常數，所以最大化上式左邊等價於最大化右邊。繼續使用樸素假設：

代入我們的詞向量模型，就得到：

所以最後等價於最大化：

現在問題就簡單了，進來一個句子，把所有詞的詞向量求和得到句向量，然後句向量跟句子中的每一個詞向量做一下內積（也可以考慮算 cos 得到歸一化的結果），降序排列即可。簡單粗暴，而且將原來應該是 ??(k2) 效率的演算法降到了 ??(k)。效果呢？下面是一些例子。

可以發現，哪怕是對於長句，這個方案還是挺靠譜的。值得注意的是，雖然簡單粗暴，但這種關鍵詞提取方案可不是每種詞向量都適用的，GloVe 詞向量就不行，因為它的停用詞模長更大，所以 GloVe 的結果剛剛是相反的：內積（或 cos）越小才越可能是關鍵詞。

句子的相似度

讓我們再看一例，這是很多讀者都會關心的句子相似度問題，事實上它跟關鍵詞提取是類似的。

兩個句子什麼時候是相似的甚至是語義等價的？簡單來說就是看了第一個句子我就能知道第二個句子說什麼了，反之亦然。這種情況下，兩個句子的相關度必然會很大。設句子 S1 有 k 個詞w1,w2,…,wk，句子 S2 有 l 個詞 wk+1,wk+2,…,wk+l，利用樸素假設得到：

代入我們的詞向量模型，得到：

所以最後等價於排序：

最終的結果也簡單，只需要將兩個句子的所有詞相加，得到各自的句向量，然後做一下內積（同樣的，也可以考慮用 cos 得到歸一化的結果），就得到了兩個句子的相關性了。

句向量

前面兩節都暗示了，通過直接對詞向量求和就可以得到句向量，那麼這種句向量質量如何呢？

我們做了個簡單的實驗，通過詞向量（不截斷版）求和得到的句向量+線性分類器（邏輯回歸），可以在情感分類問題上得到 81% 左右的準確率，如果中間再加一個隱層，結構為輸入 128（這是詞向量維度，句向量是詞向量的求和，自然也是同樣維度）、隱層 64（relu 激活）、輸出 1（而分類），可以得到 88% 左右的準確率。

相比之下，LSTM 的準確率是 90% 左右，可見這種句向量是可圈可點的。要知道，用於實驗的這份詞向量是用百度百科的語料訓練的，也就是說，本身是沒有體現情感傾向在裡邊的，但它依然成功地、簡明地挖掘了詞語的情感傾向。

同時，為了求證截斷與否對此向量質量的影響，我們用截斷版的詞向量重複上述實驗，結果是邏輯回歸最高準確率為 82%，同樣的三層神經網路，最高準確率為 89%，可見，截斷（也就是對高頻詞大大降權），確實能更好地捕捉語義。

代碼、分享與結語

代碼I

本文的實現位於：https://github.com/bojone/simpler_glove

源碼修改自斯坦福的 GloVe 原版，筆者僅僅是小修改，因為主要的難度是在統計共現詞頻這裡，感謝斯坦福的前輩們提供了這一個經典的、優秀的統計實現案例。事實上，筆者不熟悉 C 語言，因此所作的修改可能難登大雅之台，萬望高手斧正。

此外，為了實現上一節的「有趣的結果」，在 github 中我還補充了 simpler_glove.py，裡邊封裝了一個類，可以直接讀取 C 版的 simpler glove 所導出的模型文件（txt 格式），並且附帶了一些常用函數，方便調用。

代碼II

這裡有一份利用本文的模型訓練好的中文詞向量，預料訓練自百科百科，共 100 萬篇文章，約 30w 詞，詞向量維度為 128。其中分詞時做了一個特殊的處理：把所有數字和英文都拆成單個的數字和字母了。如果需要實驗的朋友可以下載：

鏈接：http://pan.baidu.com/s/1jIb3yr8

密碼：1ogw

結語

本文算是一次對詞向量模型比較完整的探索，也算是筆者的理論強迫症的結果，幸好最後也得到了一個理論上比較好看的模型，初步治癒了我這個強迫症。而至於實驗效果、應用等等，則有待日後進一步使用驗證了。

本文的大多數推導，都可以模仿地去解釋 word2vec 的 skip gram 模型的實驗結果，讀者可以嘗試。事實上，word2vec 的 skip gram 模型確實跟本文的模型有著類似的表現，包括詞向量的模型性質等。

總的來說，理論與實驗結合是一件很美妙的事情，當然，也是一件很辛苦的事情，因為就以上這些東西，就花了我幾個月思考時間。

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事 AI 領域，歡迎在公眾號後台點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

微信公眾號：PaperWeekly

新浪微博：@PaperWeekly