《DEEP ACTIVE LEARNING FOR NAMED ENTITY RECOGNITION》閱讀筆記

來源:ICLR 2018

原文:DEEP ACTIVE LEARNING FOR NAMED ENTITY RECOGNITION

Introduction

深度學習(deep learning)的方法在命名實體識別(NER)任務中已廣泛應用,並取得了state-of-art性能,但是想得到優秀的結果通常依賴於大量的標記數據。本文證明當深度學習與主動學習(active learning)相結合時,標記的訓練數據的量可以大大減少。為了加速主動學習這一過程,本文為NER引入了一種輕量級架構,即CNN-CNN-LSTM模型,由CNN字元編碼器和CNN詞編碼器以及一個長期短期記憶(LSTM)標籤解碼器組成。

實驗證明,結合主動學習時僅使用25%的訓練語料就可接近使用完整數據的效果。

Related work

Model

1、標註策略

2、Character-Level Encoder

使用CNN進行字元級編碼,雖然效果略遜於LSTM,但優點在於計算成本低。在兩層CNN之間應用ReLU和dropout,在最後添加max-pooling層,得到character特徵。

3、Word-Level Encoder

將character特徵與word embedding拼接起來作為word encoder的輸入:

經過兩層CNN,卷積核大小為3,最後將輸入與隱層輸出拼接起來,得到word詞級別表示:

4、Tag Decoder

使用LSTM作為decoder,在第一個時間步,將[GO] - 符號作為 y_{1} 提供給LSTM。在每個時間步驟i,使用上一步的標籤 y_{i} ,當前隱藏狀態 h_{i}^{Dec} 和下一個詞 h_{i+1}^{Enc} 的word表示來計算i+1步的隱藏層 h_{i+1}^{Dec} 。使用 softmax損失函數,對 y_{i+1} 解碼,並作為下一個時間步的輸入:

Active learning

數據集的大小嚴重影響訓練效果,本文使用主動學習來改善這個問題,通過有策略的選擇部分示例進行注釋,以求獲得更高的性能。 本文使用互動式方法,學習過程由多個回合組成:在每個回合開始時,主動學習演算法選擇句子進行注釋,對擴充數據集進行訓練來更新模型參數,然後進入下一輪。

三種選擇策略:

1、Least Confidence (LC)

這個式子的意思是尋找未標註數據集中,最難判別類別的數據,也就是說,對於這個,現有的分類器沒有足夠的自信心。這樣的數據應該被人工標註,因為它的信息量很大。

2、Maximum Normalized Log-Probability (MNLP)

使用LC會傾向於選擇長句子,本文提出了歸一化對數概率的方法

3、Bayesian Active Learning by Disagreement (BALD)

fi表示第i個詞的不確定性,M = 100 independent dropout masks,P1, P2, . . . Pm: models,最後經過 frac{1}{n}sum_{j=1}^{n}{f_{i}} normalize

另外,為避免抽樣帶來的偏差性,得到更具有代表性的抽樣,本文提出使用效用函數fw的方法,其定義為所有未標記點的邊際效用增益的總和,進行不確定加權:(這一方法在本文實驗中未使用)

Experiment

1、模型的表現

實驗證明CNN-CNN-LSTM的表現不遜色於其他架構,但使用CNN作為編碼器和使用LSTM作為解碼器比使用LSTM和CRF節省大量時間開銷。

2、主動學習的表現

使用三種選擇策略進行主動學習,所有演算法都以相同的原始訓練數據的1%作為初始數據集,隨即初始化模型。 在每一輪中,每個演算法都會從剩餘的訓練數據中選擇句子,直到選擇了20,000個單詞為止。

所有的主動學習演算法都比random baseline表現得更好,其中MNLP和BALD略優於LC。

3、關於主動學習中類別選擇的探索

本文使用了三個訓練數據集:包含原始訓練數據的隨機50%的half-data,僅包含來自newswire語料的nw數據,以及no-nw-data。在half-data的實驗中,f1達到了85.10,明顯優於其他有偏倚數據集,說明類別無偏差的重要性。

其次,本文分析了主動學習為這三個數據集選擇的數據類別分布,對於no-nw-data,該演算法選擇的newswire(nw)句子多於無偏差的half-data(367 vs 217),證明主動學習演算法可自動發現現有數據中缺失的數據類型,選擇並添加到原有數據集中。

Conclusion

本文將深度學習與主動學習結合起來,在少量的訓練數據下實現了state-of-art的性能。

推薦閱讀:

機器學習入門精講,這些知識點不可錯過
Top 機器學習會議
混合模型與EM演算法
Google機器學習速總結
面壁者系列:線性回歸

TAG:機器學習 | 讀書筆記 | 深度學習DeepLearning |