Distributed Representations of Sentences and Documents

繼分享了一系列詞向量相關的paper之後,今天分享一篇句子向量的文章,Distributed Representations of Sentences and Documents,作者是來自Google的Quoc Le和Tomas Mikolov,後者也是Word2Vec的作者。

用低維向量表示了word之後,接下來要挑戰地就是表示句子和段落了。傳統的表示句子的方式是用詞袋模型,每個句子都可以寫成一個特別大維度的向量,絕大多數是0,不僅沒有考慮詞序的影響,而且還無法表達語義信息。本文沿用了Word2Vec的思想,提出了一種無監督模型,將變長的句子或段落表示成固定長度的向量。不僅在一定上下文範圍內考慮了詞序,而且非常好地表徵了語義信息。

首先簡單回顧下word2vec的cbow模型架構圖:

給定上下文the cat sat三個詞來預測單詞on。

與cbow模型類似,本文提出了PV-DM(Distributed Memory Model of Paragraph Vectors),如下圖:

不同的地方在於,輸入中多了一個paragraph vector,可以看做是一個word vector,作用是用來記憶當前上下文所缺失的信息,或者說表徵了該段落的主題。這裡,所有的詞向量在所有段落中都是共用的,而paragraph vector只在當前paragraph中做訓練時才相同。後面的過程與word2vec無異。

topic也好,memory也罷,感覺更像是一種刻意的說辭,本質上就是一個word,只是這個word唯一代表了這個paragraph,豐富了context vector。

另外一種模型,叫做PV-DBOW(Distributed Bag of Words version of Paragraph Vector),如下圖:

看起來和word2vec的skip-gram模型很像。

用PV-DM訓練出的向量有不錯的效果,但在實驗中採用了兩種模型分別計算出的向量組合作為最終的paragraph vector,效果會更佳。在一些情感分類的問題上進行了測試,得到了不錯的效果。

本文的意義在於提出了一個無監督的paragraph向量表示模型,無監督的意義非常重大。有了paragraph級別的高效表示模型之後,解決類似於句子分類,檢索,問答系統,文本摘要等各種問題都會帶來極大地幫助。

PaperWeekly,每周會分享N篇nlp領域的paper,內容包括筆記和評價,歡迎大家掃碼關注。

推薦閱讀:

美國cs博士一般幾年能畢業?
怎樣看待地平線機器人以深度強化學習演算法為切入點?
為什麼 Deep Learning 目前在 NLP 上還沒有什麼成功的應用?
訓練集準確率接近100%,驗證集準確率80%但是隨著訓練step增加不增也不降。算是過擬合還是欠擬合?
Deepmind的Alpha Zero是如何把各種棋類規則融入神經網路的?

TAG:自然语言处理 | 深度学习DeepLearning |