Distributed Representations of Sentences and Documents

02-01

繼分享了一系列詞向量相關的paper之後，今天分享一篇句子向量的文章，Distributed Representations of Sentences and Documents，作者是來自Google的Quoc Le和Tomas Mikolov，後者也是Word2Vec的作者。

用低維向量表示了word之後，接下來要挑戰地就是表示句子和段落了。傳統的表示句子的方式是用詞袋模型，每個句子都可以寫成一個特別大維度的向量，絕大多數是0，不僅沒有考慮詞序的影響，而且還無法表達語義信息。本文沿用了Word2Vec的思想，提出了一種無監督模型，將變長的句子或段落表示成固定長度的向量。不僅在一定上下文範圍內考慮了詞序，而且非常好地表徵了語義信息。

首先簡單回顧下word2vec的cbow模型架構圖：

給定上下文the cat sat三個詞來預測單詞on。

與cbow模型類似，本文提出了PV-DM（Distributed Memory Model of Paragraph Vectors），如下圖：

不同的地方在於，輸入中多了一個paragraph vector，可以看做是一個word vector，作用是用來記憶當前上下文所缺失的信息，或者說表徵了該段落的主題。這裡，所有的詞向量在所有段落中都是共用的，而paragraph vector只在當前paragraph中做訓練時才相同。後面的過程與word2vec無異。

topic也好，memory也罷，感覺更像是一種刻意的說辭，本質上就是一個word，只是這個word唯一代表了這個paragraph，豐富了context vector。

另外一種模型，叫做PV-DBOW（Distributed Bag of Words version of Paragraph Vector），如下圖：

看起來和word2vec的skip-gram模型很像。

用PV-DM訓練出的向量有不錯的效果，但在實驗中採用了兩種模型分別計算出的向量組合作為最終的paragraph vector，效果會更佳。在一些情感分類的問題上進行了測試，得到了不錯的效果。

本文的意義在於提出了一個無監督的paragraph向量表示模型，無監督的意義非常重大。有了paragraph級別的高效表示模型之後，解決類似於句子分類，檢索，問答系統，文本摘要等各種問題都會帶來極大地幫助。

PaperWeekly，每周會分享N篇nlp領域的paper，內容包括筆記和評價，歡迎大家掃碼關注。