一篇通俗易懂的word2vec
Part I:背景
Part II:訓練模式(CBOW,Skip Gram)
Part III:優化方法(Negative Sampling,Hierarchical SoftMax)
Part IV:詞向量衡量指標
參考論文:Word2vec Parameter Learning Explained
Part I:背景
最近在複習NLP基礎,有空的話可能會寫文章整理一下,力求通俗易懂。
特徵表達是很基礎也很重要的一步,我們通常需要用一個向量去表示一個東西,比如文本中的詞向量,知識圖譜中的知識向量,以及Network Embedding等。
在NLP中,傳統演算法通常使用one-hot形式表示一個詞,存在以下問題:
1)維度爆炸,詞表通常會非常大,導致詞向量維度也會非常大。
2)損失語義信息,one hot隨機給每個詞語進行編號映射,無法表示詞語之間的關係。
所以word embeding的優勢如下:
1)將詞語映射成一個固定維度的向量,節省空間。
2)詞向量可能會具備一定的語義信息,將相似的詞語放到相近的向量空間(比如香蕉和蘋果都是屬於水果,蘋果又會涉及到歧義問題),可以學習到詞語之間的關係(比如經典的 男人-女人=國王-王后)。
本文會介紹一下Word2vec原理,這是一種常見的可以用於訓練詞向量的模型工具。常見的做法是,我們先用word2vec在公開數據集上預訓練詞向量,載入到自己的模型中,對詞向量進行調整,調整成適合自己數據集的詞向量。
Part II:訓練模式
我們通常是通過將詞向量用於某些任務中,用這些任務的衡量指標去衡量模型結果。
那麼反過來,如果我們想要訓練詞向量,可以先去訓練一個語言模型,然後將模型中對應的參數,作為詞向量。從任務形式上看,我們是在訓練語言模型,而實際上我們最終的目標是想得到詞向量,我們更關心的是這個詞向量合不合理。
Word2vec根據上下文之間的出現關係去訓練詞向量,有兩種訓練模式,Skip Gram和CBOW,其中Skip Gram根據目標單詞預測上下文,CBOW根據上下文預測目標單詞,最後使用模型的部分參數作為詞向量。
AutoEncoder也可以用於訓練詞向量,先將one hot映射成一個hidden state,再映射回原來的維度,令輸入等於輸出,取中間的hidden vector作為詞向量,在不損耗原表達能力的前提下壓縮向量維度,得到一個壓縮的向量表達形式。
一. CBOW
根據上下文預測目標單詞,我們需要極大化這個目標單詞的出現概率。
假設詞表大小為V,詞向量維度為N,上下文單詞為x1,x2, ..., xc,定義上下文窗口大小為c,對應的目標單詞為y,我們將x跟y都表示成one hot形式。這裡涉及到兩個矩陣參數,W是詞向量矩陣,每一行都是某個詞的詞向量v,W可以看做是一個輔助矩陣,每一列可以看做是某個詞對應的相關向量v。
前向過程:
x->hidden:對於每個xi,取出對應的詞向量vi,再對這些詞向量取平均作為hidden vector,相當於通過簡單粗暴的疊加,得到這些詞語的語義向量。
h->y:將h乘以W得到一個維度為V的向量u,進行softmax歸一化得到概率向量,取概率最大的作為預測單詞。
後向過程:
我們需要極大化目標單詞的出現概率p(y | x1, x2, ... , xc),也就是極小化負對數似然函數,Loss函數定義為:
我們需要更新兩個矩陣參數,W和W,先根據loss對參數求梯度,再使用梯度下降法更新參數。具體的求導過程這裡略過,請移步原論文。
對於W,經過求導,v更新公式為:
也就是說,需要更新整個W矩陣,所有v向量。(這裡造成了巨大的計算量)
對於W,經過求導,v更新公式為:
也就是說,這裡只需要更新c個上下文單詞所對應的詞向量。
二. Skip Gram
根據目標單詞預測其上下文,假設輸入的目標單詞為x,定義上下文窗口大小為c,對應的上下文為y1, y2, ... , yc,這些y是相互獨立的。
前向過程:
x->hidden:將輸入單詞x乘以詞向量矩陣W,相當於取出該詞的詞向量v。
h->y:對於每個輸出單詞y_i,將h乘以矩陣W得到向量u,再經過softmax歸一化得到概率向量,取概率最大的預測為上下文單詞,極大化y_i的預測概率。
這些上下文單詞是相互獨立的,雖然他們共享W,但是loss是不一樣的,我們需要極大化這些詞出現的概率。作為一個語言模型這種做法是略顯粗糙,但是這裡我們的目的只是為了訓練詞向量,並不是需要訓練一個多麼好的語言模型。
後向過程:
直觀上的樣本格式是(x,y1, y2, ... , yc),然後極大化p(y|x),因為這些y是相互獨立的,又變成極大化p(y1|x)*p(y2|x)*...*p(yc|x),取log將連乘變成連加,取負將極大化變成極小化,使用交叉熵作為loss函數:
所以這裡我們可以將樣本格式定義成(x, y),將所有樣本的Loss加起來。
對於W,經過求導,v更新公式為:
也就是說,這裡依然需要更新所有v向量。(無法避免的巨大的計算量)
對於W,經過求導,v更新公式為:
這裡只需要更新目標詞語所對應的那個詞向量。
Part III:優化方法
原始的方法所存在的問題是計算量太大,體現在以下兩方面:
1)前向過程,h->y這部分在對向量進行softmax的時候,需要計算V次。
2)後向過程,softmax涉及到了V列向量,所以也需要更新V個向量。
問題就出在V太大,而softmax需要進行V次操作,用整個W進行計算。
因此word2vec使用了兩種優化方法,Hierarchical SoftMax和Negative Sampling,對softmax進行優化,不去計算整個W,大大提高了訓練速度。
一. Hierarchical SoftMax
HS用哈夫曼樹,把預測one-hot編碼改成預測一組01編碼,進行層次分類。
在哈夫曼樹中,每個葉節點是詞表中的一個詞,每個非葉子節點對應一個v向量,樹的深度為L(w),整顆樹有V-1個非葉子節點和V個葉節點。假設輸入單詞是w_i,目標單詞是w_o,那麼n(w, i)表示從根節點到葉節點w路徑中的第i個節點,v(w, i)表示n(w, i)所對應的v向量。
注意:v不是針對詞語w而言,而是針對節點n,每個節點n都有自己的一個向量v,而不是每個詞在每個節點上有一個向量,或者說,這些詞在同一個節點上共享向量。
假設h是w_i前面所計算出來的hidden vector,我們在非葉子節點中使用該節點處的v向量和h點乘,再用sigmoid去判斷向左還是向右:(取代softmax)
那麼每個葉節點會有一個概率p(wi=wo),最終我們需要極大化從根節點到預測單詞w_o這條路徑的概率,比如對於目標單詞w2,我們需要極大化p(w2=w_o):
在根節點處左右概率之和是1,然後在接下來的每個節點,對應兩個子節點的概率值之和等於父節點本身的概率值,那麼走到最後,所有葉子節點的概率值之和必定還是等於1:
這也就保證了原始softmax概率和為1的前提,因此可以用層次sigmoid去代替softmax函數。
Loss函數定義為:
極大化目標單詞的路徑概率。
現在我們重新定義v為:
那麼對於W,經過求導,v更新公式為:
也就是說,這裡只需要更新L(w)-1個v向量,時間複雜度直接從O(V)降到了O(logV)。
關於空間複雜度,原始方法中每個單詞需要一個v向量,總共需要V個向量,而HS中每個節點也會有一個v向量,總共需要V-1個向量,這些向量維度是一樣的,並不會增加空間複雜度。
二. Negative Sampling
NS僅僅選擇一小部分列向量進行更新,和HS相比,顯得相對簡單一點。
對於每條數據,首先我們將原始的V個詞劃分成正樣本w_o和負樣本w_neg,正樣本也就是要預測的單詞,剩下的就是負樣本。負樣本非常多,我們需要採樣出K個負樣本,與正樣本一起訓練。從前我們需要對所有V個詞進行softmax計算,現在對於我們只使用到了正樣本和負樣本,只針對這幾個詞進行計算,計算量可以大大減小。
負樣本選取方式:
NS是一種概率採樣的方式,可以根據詞頻進行隨機抽樣,我們傾向於選擇詞頻比較大的負樣本,比如「的」,這種詞語其實是對我們的目標單詞沒有很大貢獻的。
Word2vec則在詞頻基礎上取了0.75次冪,減小詞頻之間差異過大所帶來的影響,使得詞頻比較小的負樣本也有機會被採到。
Loss函數定義為:
極大化正樣本出現的概率,同時極小化負樣本出現的概率,以sigmoid來代替softmax,相當於進行二分類,判斷這個樣本到底是不是正樣本。
那麼對於W,經過求導,v更新公式為:
也就是說,這裡不需要更新所有v向量,只需要更新部分v向量,這裡的wj是正樣本w_o和負樣本w_neg的集合,只更新這些樣本所對應的v向量。
Part IV:衡量指標
詞向量的衡量指標通常有以下幾種:
1)辭彙相似度任務,比如wordsim353,但是這種方式比較依賴於數據集。
2)類比任務,比如男人-女人=國王-王后
3)應用於實際任務上的效果,比如文本分類,情感分析,句法分析,序列標註,閱讀理解等等。這種方法我覺得是比較靠譜的,因為我們訓練詞向量是希望得到一個好的詞向量,然後能在別的任務上work,
4)可視化,可以用谷歌的Embedding Projector工具,用 PCA、t-SNE對高維詞向量進行可視化,把數據降到三維,以3D方式查看數據,感覺還挺好玩的。
推薦閱讀:
※ICLR2017最新論文調研-1-《Learning to Compose Words into Sentences with Reinforcement Learning》
※求參與自然語言處理、計算機視覺方向的人工智慧研究
※大牛之作< Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks>
※NLP入門:做一個簡單的"人工智障"
※一份問答系統的小結
TAG:自然語言處理 |