Decoding Sentiment from Distributed Representations of Sentences

02-04

來源:arXiv

簡介:通常我們用句子分布這樣的實值向量的形式表示句子的含義,但是我們並不清楚它保留了多少句子的極性信息.本文考察在多種語言中,不同的演算法得到的句子分布表示在進行二分情感分類時的效果(情感分類是一種極性的體現),這項工作的目的是評估不同演算法得到的分散式句子表示對於給定的語言是否合適。此外，我們研究語言特定的屬性如何影響性能，在語言類型學中找到解釋。

問題描述:情感分類可以直接檢測文本的極性，其中極性被定義為相對於字元串的整個內容或其中提到的實體之一的說話者的態度。這種態度是以任意粒度從負到正的尺度量化測量的。因此，極性是一個句子的意義的關鍵部分,我們通過情感分類可以確定不同的句子向量對句子極性的保留程度.

由於句子的極性很大程度上取決於具有固有極性的辭彙之間的複雜相互作用,以及改變極性的形態結構,最顯著的是否定及讓步,而對於不同的語言,否定的表達是多種多樣的.所以我們採用了不同特徵的演算法來獲得句向量:一些依賴於單詞順序,另一些依賴於句子順序,還有則不依賴於任何.來考察其中的關聯。

句子的分散式表示：

首先，短語及句子的表示可以通過各種組合操作來獲得，最經典的是加法和乘法。而且經過證明這兩種方法簡單並有效。

1.Additive Skip-Gram

word embedding 通過 Skip-Gram + negative sampling訓練得到。該演算法找出參數 $Theta$ ，使得給定一對單詞 $w$ 和上下文 $c$ ，模型能正確識別它是否屬於一組句子 $S$ 或一組隨機生成的錯誤句子 $S^{}$ ：

最後句子的表示是由屬於它的詞向量元素級求和而得。

2.FastSent

它假定句子的含義可以由文本中的相鄰句子推斷得到，它是一種簡單的加法對數線性模型。在FastSent中，句子被表示為bags of words：句子的上下文用於預測相鄰句子。每個字 $w$ 對應於源向量 $u_w$ 和目標矢量 $v_w$ 。句子的表示由源向量求和得到 $S_i = sum_{win S_i}^{}{u_w}$ .句子表示的損失函數 $C$ 通過softmax句向量和上下文 $c$ 中的目標向量得到。

它通過對其詞的源向量求和來對新句子進行編碼。模型依賴於句子順序。

3.Squential Denoising AutoEncoder(順序去噪自動編碼器)

結合了去噪自動編碼器（DAE）和Sequence-to-Sequence模型的功能。在DAE中，輸入表示被雜訊函數破壞，演算法學習恢復原始數據。直觀地，這使得模型對於與當前任務無關的輸入變化更加魯棒。corruption function類似於dropout形式，定義為 $fleft( S | p_o , p_x right)$ ， $S$ 是一個單詞列表，其中每個詞都有 $p_o$ 的概率被刪除，並且每個不同的二元組中的單詞順序具有 $p_x$ 的交換概率。模型預測概率 $p left( S | fleft( S | p_o , p_x right) right)$ 。它是詞順序敏感的。

4.Paragraph Vector

段落向量也是一種對數線性模型，它由兩種不同的模型組成，即分散式存儲器模型（DM）和分散式單詞模型（DBOW）。在DM中，每個不同段落（或句子）的ID被映射到矩陣 $D$ 中的唯一向量，每個單詞被映射到矩陣 $W$ 中的唯一向量。給定句子 $i$ 和窗口大小 $k$ ，向量 $D_i$ ，與採樣上下文中的單詞向量的連接結合使用，以通過邏輯回歸來預測下一個單詞：

同句的採樣上下文共享句子ID向量。在DBOW中，模型預測採樣詞 $j$ 的詞向量 $W_{i_j}$ ，在給定句子 $i$ 的向量 $D_i$ 的情況下。兩者的區別是第一種對詞順序敏感而第二種則不。

實驗：

數據集選擇SemEval 2016：Task 5，帶Aspect-Based Sentiment標籤的數據集，對於義大利語還增加了 EVALITAn2016中的數據並進行二分處理。大小如圖：

我們通過選擇給定句子的Aspect-based的情感類中的多數類作為整體的情感極性（正或負）。經過上述四種方法產生的句向量經過MLP（多層感知機）得到情感分類標籤的得分。

作為對比實驗，還使用了state-of-art 的Bi-LSTM進行情感分類，其中詞向量採用Additive Skip-Gram產生。

結果：

如圖顯示，並沒有一種句向量的表現在所有的語言中明顯的優於其他表示。甚至Bi-LSTM都不是一直最佳的。但是能得到一些趨勢結論。作為最簡單的方法，Additive Skip-Gram在很多語言中獲得了最佳的效果（除Bi-LSTM）。而將字序作為關鍵特徵的語言如中文，俄語，阿拉伯語，Bi-LSTM和SDAE獲得了最佳的效果。

否定的類型學：

在語義上，否定在轉換或減輕辭彙和短語的極性方面至關重要。結果表明：

1.否定代詞與否定動詞結合的語言可能表現出更差的分數，而那些禁止或限制結構中的代詞的語言能獲得更好的結果，無冗餘的否定可以使組成更簡單。

2.不對稱否定會降低效果，例如英語、漢語、土耳其語。此外，法語中的否定倍增和土耳其語的否定黏合都會使否定冗餘和稀疏。

3.在某些語言（如阿拉伯語）中，情感動詞在正極性中作用更大，而不定代詞在負極性中佔主導地位。在其他幾種語言（如西班牙語）中，不定代詞比任何其他語言更為相關。在別的地方（比如俄語），只有情感動詞其作用。

結論：在這項工作中，我們研究了不同演算法得到的句向量保存句子極性的程度。不同的演算法用於不同的屬性（詞序、句序敏感）。作為最優模型Bi-LSTM在某些語言中並不是最優的。這表明：1）沒有演算法是最好的；2）一些簡單的模型反而是優選的。

此外，對詞序敏感的表示演算法也有類似的趨勢，但它們並不總能取得比基於句子順序的演算法優越的性能。最後，語言的一些性質（即否定類型）對分數有不良影響：特別是動詞不定代詞的極性一致性、否定句和肯定句的不對稱性以及否定詞的加倍。

總之，簡直是一篇語言學教材。。