2018.7.8論文推薦
來自專欄學習ML的皮皮蝦6 人贊了文章
《A New Method Of Region Embedding For Text Classification》閱讀筆記
論文鏈接
轉載請註明出處:學習ML的皮皮蝦
Abstract:
文本處理中使用短語表示來處理文本。這裡的關鍵問題是怎樣識別這些短語並表示它們。傳統的n-gram方法可以做到,但當n較大時,這種方式效果不佳。本文提出了一種n-gram新的分散式表示——region embedding。在模型中,單詞由兩部分表示 1單詞本身的embedding 2 聯繫上下文的權重矩陣。實驗結果表明,該方法在幾個基準數據集上優於現有的文本分類方法。我們的模型可以在文本中捕捉到具有顯著特徵的語義表達。
Introduction:
在文本分類中,詞袋模型有它的限制。他對單詞的表示沒有包含單詞的順序信息。N-gram解決了這一問題,但n-gram也有局限: 當n較大時,通常導致數據缺失。在新模型中,region embedding有兩部分組成:單詞本身的embedding有向量表示,聯繫上下文的embedding由詞向量與上下文關聯的矩陣表示。文本看作是region embedding的集合。
Method:
Region(i,c)表示下標為i的詞為中心詞和左右兩邊各長度為c的上下文組成的序列。例如,句子The food is not very good in this hotel, region(3, 2)指的就是food is not very good。
context unit:
為了獲取詞的相對位置和它的上下文信息,模型需要把context unit作為參數學習。將上下文層定義為
h是單詞表中單詞個數,2c+1是單詞wi的上下文長度。矩陣可以由單詞的下標在單詞表中查找。矩陣中的每列可看作是word embedding在上下文每個單詞的線性投影,可以提取出單詞對上下文的語義關聯。
projected word embedding:
由wi的context矩陣中單詞下標為i+t對應的列(-c<=t<=c),和下標為i+t的word embedding對應相乘可得到下標為i+t的projected word embedding。
WORD-CONTEXT REGION EMBEDDING
context unit矩陣中每列都可得到projected word embedding。經過maxpooling得到r(i,c)
REGION EMBEDDING FOR TEXT CLASSIFICATION
把所有maxpooling後的r(i,c)全加起來作為文本的表示。
EXPERIMENTS
數據集:
使用公開數據集來評估模型,共8個文本分類數據集,分別對應於情緒分析、新聞分類、問答、本體提取任務。下表是數據集的統計結果。
對於數據預處理,所有的數據集都是由斯坦福分詞器標記的,所有的詞都轉換為小寫,所有的停止詞和符號都被保留。另外,每個文檔的頭部和尾部都加c個padding。
實驗結果:
表2是實驗結果的總結。我們用粗體顯示最好的結果。在六組數據集中除了VDCNN之外,我們的模型都達到最好的性能,超過其它模型。
實驗分析:
將region embedding的作用可視化:
為了清晰起見,我們選擇了一種情感分析的二元分類任務。在表4中,我們列出了YelpReview數據集中的兩種情況,在這些情況下,我們的模型的預測與預期相同。樣本是單詞和人工選擇的短語,如果是正面情感,則被突出顯示為綠色;如果是負面情感,則為紅色。顏色的強度表示情感的程度。
為了進行更好的比較,有和沒有上下文單元方法的結果都是可視化的。我們將它們分別縮寫為C-unit和No C-unit。例如get your wallet ready,the prices are crazy high, 如果不採用上下文單元,則單詞顏色反映了word embedding的作用,即上下文無關。crazy的情感是正面的,high是負的。因為crazy的強度高於high,prices are crazy high是正面的,這是錯誤的。但是,隨著context unit 的出現,情感發生了很大的變化,情感的正負與語境有關。在high的影響下,crazy的正面情感消失,整體表現為負。另一個例子nothing remarkable, but not bad either,沒有上下文單元的情況下:remarkable為正面,nothing, not, bad為負面。融入上下文之後,but之前的情感減弱,not和bad的情感反轉,but not bad either情感為正面。
CONCLUSION:
本文提出了新的文本分類任務體系結構,即region embedding,而不需人工標註特徵。為了利用每個詞對其上下文詞的特定影響,除了word embedding外,還為每個單詞學習了一個context unit。我們的模型在6個文本分類數據集上實現了最先進的性能,實驗表明,context unit能夠捕獲每個單詞的語義和句法信息。
推薦閱讀:
※3D卷積神經網路Note01
※Rethinking ICCV 2017 [Part 1]
※KCF學習筆記 【目標跟蹤】
※【機器視覺】3. 目標跟蹤:光流法