《DEEP ACTIVE LEARNING FOR NAMED ENTITY RECOGNITION》閱讀筆記
來源:ICLR 2018
原文:DEEP ACTIVE LEARNING FOR NAMED ENTITY RECOGNITION
Introduction
深度學習(deep learning)的方法在命名實體識別(NER)任務中已廣泛應用,並取得了state-of-art性能,但是想得到優秀的結果通常依賴於大量的標記數據。本文證明當深度學習與主動學習(active learning)相結合時,標記的訓練數據的量可以大大減少。為了加速主動學習這一過程,本文為NER引入了一種輕量級架構,即CNN-CNN-LSTM模型,由CNN字元編碼器和CNN詞編碼器以及一個長期短期記憶(LSTM)標籤解碼器組成。
實驗證明,結合主動學習時僅使用25%的訓練語料就可接近使用完整數據的效果。
Related work
Model
1、標註策略
2、Character-Level Encoder
使用CNN進行字元級編碼,雖然效果略遜於LSTM,但優點在於計算成本低。在兩層CNN之間應用ReLU和dropout,在最後添加max-pooling層,得到character特徵。
3、Word-Level Encoder
將character特徵與word embedding拼接起來作為word encoder的輸入:
經過兩層CNN,卷積核大小為3,最後將輸入與隱層輸出拼接起來,得到word詞級別表示:
4、Tag Decoder
使用LSTM作為decoder,在第一個時間步,將[GO] - 符號作為 提供給LSTM。在每個時間步驟i,使用上一步的標籤 ,當前隱藏狀態 和下一個詞 的word表示來計算i+1步的隱藏層 。使用 softmax損失函數,對 解碼,並作為下一個時間步的輸入:
Active learning
數據集的大小嚴重影響訓練效果,本文使用主動學習來改善這個問題,通過有策略的選擇部分示例進行注釋,以求獲得更高的性能。 本文使用互動式方法,學習過程由多個回合組成:在每個回合開始時,主動學習演算法選擇句子進行注釋,對擴充數據集進行訓練來更新模型參數,然後進入下一輪。
三種選擇策略:
1、Least Confidence (LC)
這個式子的意思是尋找未標註數據集中,最難判別類別的數據,也就是說,對於這個,現有的分類器沒有足夠的自信心。這樣的數據應該被人工標註,因為它的信息量很大。
2、Maximum Normalized Log-Probability (MNLP)
使用LC會傾向於選擇長句子,本文提出了歸一化對數概率的方法
3、Bayesian Active Learning by Disagreement (BALD)
fi表示第i個詞的不確定性,M = 100 independent dropout masks,P1, P2, . . . Pm: models,最後經過 normalize
另外,為避免抽樣帶來的偏差性,得到更具有代表性的抽樣,本文提出使用效用函數fw的方法,其定義為所有未標記點的邊際效用增益的總和,進行不確定加權:(這一方法在本文實驗中未使用)
Experiment
1、模型的表現
實驗證明CNN-CNN-LSTM的表現不遜色於其他架構,但使用CNN作為編碼器和使用LSTM作為解碼器比使用LSTM和CRF節省大量時間開銷。
2、主動學習的表現
使用三種選擇策略進行主動學習,所有演算法都以相同的原始訓練數據的1%作為初始數據集,隨即初始化模型。 在每一輪中,每個演算法都會從剩餘的訓練數據中選擇句子,直到選擇了20,000個單詞為止。
所有的主動學習演算法都比random baseline表現得更好,其中MNLP和BALD略優於LC。
3、關於主動學習中類別選擇的探索
本文使用了三個訓練數據集:包含原始訓練數據的隨機50%的half-data,僅包含來自newswire語料的nw數據,以及no-nw-data。在half-data的實驗中,f1達到了85.10,明顯優於其他有偏倚數據集,說明類別無偏差的重要性。
其次,本文分析了主動學習為這三個數據集選擇的數據類別分布,對於no-nw-data,該演算法選擇的newswire(nw)句子多於無偏差的half-data(367 vs 217),證明主動學習演算法可自動發現現有數據中缺失的數據類型,選擇並添加到原有數據集中。
Conclusion
本文將深度學習與主動學習結合起來,在少量的訓練數據下實現了state-of-art的性能。
推薦閱讀:
※機器學習入門精講,這些知識點不可錯過
※Top 機器學習會議
※混合模型與EM演算法
※Google機器學習速總結
※面壁者系列:線性回歸
TAG:機器學習 | 讀書筆記 | 深度學習DeepLearning |