《AN EFFICIENT FRAMEWORK FOR LEARNING SENTENCE REPRESENTATIONS》閱讀筆記

05-02

標題：《AN EFFICIENT FRAMEWORK FOR LEARNING SENTENCE REPRESENTATIONS》

論文來源：ICLR 2018

原文鏈接：原文鏈接

聲明：轉載請註明出處：學習ML的皮皮蝦-知乎專欄

Introduction

無監督的學習方式允許我們從大量的語料中學習有用的表示方式，而自監督的思想是通過利用可以自由使用的數據中的信息作為標籤來設計學習目標。其中分散式假說在語義學習方面被廣泛使用，它假設一個詞的含義可以由它周圍的辭彙來表示，即將目標詞周圍的辭彙作為標籤來設計學習目標。已經有文章基於encoder-decoder模型來預測給定句子的上下文，但缺點在於一個句子為了表示它的含義，可以存在許多種表現形式，可是理想的語義表示需要忽略這些表面形式而只與句子含義有關。

文章從分散式假說和這些工作中得到靈感，將預測輸入句上下文的問題重構為一個分類問題，提出了一種簡單高效的句子表示學習框架：給定一個句子和它出現的上下文，分類器根據其向量表示將它從一系列對比句中挑選出來。

Contributions

1.文章提出了一個簡單而通用的框架quick thoughts (QT)來有效的學習句子表示。在達到更好性能的同時，訓練這一可以廣泛使用的編碼器使用的時間比之前的工作快一個數量級。

2.為涉及理解句子語義的幾個下游任務建立了無監督句子表示學習方法的state-of-the-art。

Model

與上圖中其他工作訓練一個模型來重建出輸入句或者輸入句上下文的形式不同，文章用當前句的含義來預測相連句子的含義，其中句子含義由編碼函數計算得到的句子嵌入來表示。雖然這一建模方法很簡單，但文章證明這種方式可以促進學習到更佳豐富的表示。

模型如上圖表示，給出一個輸入，使用一個編碼函數進行編碼。與生成式不同的是，模型是從一系列候選句中選出一個正確的目標。將生成問題看作是從所有可能句中的選取，這可以被視為生成問題的區分性近似。這兩種方法的關鍵區別在於，文章給出的模型可以選擇忽略在構造語義嵌入空間時與其無關的句子方面。

規範化描述為： $s$ 為給定句， $S_{ctxt}$ 為s上下文中出現句子的集合， $S_{cand}$ 為給定句子 $s_{ctxt} in S_{ctxt}$ 時的候選句子集合。也就是說 $S_{cand}$ 是被用於分類任務的候選句，包括ground truth和一些其他不是上下文中的句子。