標籤:

《AN EFFICIENT FRAMEWORK FOR LEARNING SENTENCE REPRESENTATIONS》閱讀筆記

標題:《AN EFFICIENT FRAMEWORK FOR LEARNING SENTENCE REPRESENTATIONS》

論文來源:ICLR 2018

原文鏈接:原文鏈接

聲明:轉載請註明出處:學習ML的皮皮蝦-知乎專欄

Introduction

無監督的學習方式允許我們從大量的語料中學習有用的表示方式,而自監督的思想是通過利用可以自由使用的數據中的信息作為標籤來設計學習目標。其中分散式假說在語義學習方面被廣泛使用,它假設一個詞的含義可以由它周圍的辭彙來表示,即將目標詞周圍的辭彙作為標籤來設計學習目標。已經有文章基於encoder-decoder模型來預測給定句子的上下文,但缺點在於一個句子為了表示它的含義,可以存在許多種表現形式,可是理想的語義表示需要忽略這些表面形式而只與句子含義有關。

文章從分散式假說和這些工作中得到靈感,將預測輸入句上下文的問題重構為一個分類問題,提出了一種簡單高效的句子表示學習框架:給定一個句子和它出現的上下文,分類器根據其向量表示將它從一系列對比句中挑選出來。

Contributions

1.文章提出了一個簡單而通用的框架quick thoughts (QT)來有效的學習句子表示 。在達到更好性能的同時,訓練這一可以廣泛使用的編碼器使用的時間比之前的工作快一個數量級。

2.為涉及理解句子語義的幾個下游任務建立了無監督句子表示學習方法的state-of-the-art。

Model

與上圖中其他工作訓練一個模型來重建出輸入句或者輸入句上下文的形式不同,文章用當前句的含義來預測相連句子的含義,其中句子含義由編碼函數計算得到的句子嵌入來表示。雖然這一建模方法很簡單,但文章證明這種方式可以促進學習到更佳豐富的表示。

模型如上圖表示,給出一個輸入,使用一個編碼函數進行編碼。與生成式不同的是,模型是從一系列候選句中選出一個正確的目標。將生成問題看作是從所有可能句中的選取,這可以被視為生成問題的區分性近似。這兩種方法的關鍵區別在於,文章給出的模型可以選擇忽略在構造語義嵌入空間時與其無關的句子方面。

規範化描述為: s為給定句, S_{ctxt} 為s上下文中出現句子的集合, S_{cand} 為給定句子 s_{ctxt} in S_{ctxt} 時的候選句子集合。也就是說 S_{cand} 是被用於分類任務的候選句,包括ground truth和一些其他不是上下文中的句子。

對於s的上下文中給定的句子位置,候選句子 s_{ctxt} in S_{ctxt} 是該位置的正確句子的概率為:

訓練目標為最大化識別D中每個句子上下文的概率:

除此之外,參考Mikolov負樣本方法設計目標函數。採取一種二分類的的方式,將sentence window作為輸入,然後將兩個context window區分為貌似合理的與不合理的。實驗發現,可能由於放鬆了約束,這一目標函數的表現更加優秀。

Experiment

無監督:uni-QT使用單項RNN為句子編碼,bi-QT使用雙向RNN最後隱層狀態的連接,combine-QT使用兩個模型得到表示的連接。

有監督:

最近鄰句:文章設計了一個最近鄰句的檢索實驗來檢驗Skip-thought和QT兩種方法得到的嵌入空間。對於給定的一個句子,通過計算嵌入空間中的餘弦距離來判斷最近鄰。

Conclusion

文章提出了一個有效的學習句子表示的方式,在降低訓練時間的同時也成功的在一定程度上忽略句子形式而學習到真正的語義表示。在我看來,文章是通過放寬了對於句子本身的要求,從而達到了更大程度上保留語義信息的目的。


推薦閱讀:

機器學習基石筆記13:過擬合(OverFitting)
Training/Validation/Test Dataset
PMF:概率矩陣分解
【翻譯】Brian2高級指導_狀態更新
機器學習筆記003 | 梯度下降演算法

TAG:機器學習 |