標籤：

機器學習深度學習DeepLearning 讀書筆記

《DEEP ACTIVE LEARNING FOR NAMED ENTITY RECOGNITION》閱讀筆記

05-16

來源：ICLR 2018
原文：DEEP ACTIVE LEARNING FOR NAMED ENTITY RECOGNITION

Introduction

深度學習（deep learning）的方法在命名實體識別（NER）任務中已廣泛應用，並取得了state-of-art性能，但是想得到優秀的結果通常依賴於大量的標記數據。本文證明當深度學習與主動學習（active learning）相結合時，標記的訓練數據的量可以大大減少。為了加速主動學習這一過程，本文為NER引入了一種輕量級架構，即CNN-CNN-LSTM模型，由CNN字元編碼器和CNN詞編碼器以及一個長期短期記憶（LSTM）標籤解碼器組成。

實驗證明，結合主動學習時僅使用25%的訓練語料就可接近使用完整數據的效果。

Related work

Model

1、標註策略

2、Character-Level Encoder

使用CNN進行字元級編碼，雖然效果略遜於LSTM，但優點在於計算成本低。在兩層CNN之間應用ReLU和dropout，在最後添加max-pooling層，得到character特徵。

3、Word-Level Encoder

將character特徵與word embedding拼接起來作為word encoder的輸入：

經過兩層CNN，卷積核大小為3，最後將輸入與隱層輸出拼接起來，得到word詞級別表示：

4、Tag Decoder

使用LSTM作為decoder，在第一個時間步，將[GO] - 符號作為 $y_{1}$ 提供給LSTM。在每個時間步驟i，使用上一步的標籤 $y_{i}$ ，當前隱藏狀態 $h_{i}^{Dec}$ 和下一個詞 $h_{i+1}^{Enc}$ 的word表示來計算i+1步的隱藏層 $h_{i+1}^{Dec}$ 。使用 softmax損失函數，對 $y_{i+1}$ 解碼，並作為下一個時間步的輸入：

Active learning

數據集的大小嚴重影響訓練效果，本文使用主動學習來改善這個問題，通過有策略的選擇部分示例進行注釋，以求獲得更高的性能。本文使用互動式方法，學習過程由多個回合組成：在每個回合開始時，主動學習演算法選擇句子進行注釋，對擴充數據集進行訓練來更新模型參數，然後進入下一輪。

三種選擇策略：

1、Least Confidence (LC）

這個式子的意思是尋找未標註數據集中，最難判別類別的數據，也就是說，對於這個，現有的分類器沒有足夠的自信心。這樣的數據應該被人工標註，因為它的信息量很大。

2、Maximum Normalized Log-Probability (MNLP）

使用LC會傾向於選擇長句子，本文提出了歸一化對數概率的方法

3、Bayesian Active Learning by Disagreement (BALD）

fi表示第i個詞的不確定性，M = 100 independent dropout masks，P1, P2, . . . Pm: models，最後經過 $frac{1}{n}sum_{j=1}^{n}{f_{i}}$ normalize

另外，為避免抽樣帶來的偏差性，得到更具有代表性的抽樣，本文提出使用效用函數fw的方法，其定義為所有未標記點的邊際效用增益的總和，進行不確定加權：（這一方法在本文實驗中未使用）

Experiment

1、模型的表現

實驗證明CNN-CNN-LSTM的表現不遜色於其他架構，但使用CNN作為編碼器和使用LSTM作為解碼器比使用LSTM和CRF節省大量時間開銷。

2、主動學習的表現

使用三種選擇策略進行主動學習，所有演算法都以相同的原始訓練數據的1%作為初始數據集，隨即初始化模型。在每一輪中，每個演算法都會從剩餘的訓練數據中選擇句子，直到選擇了20,000個單詞為止。

所有的主動學習演算法都比random baseline表現得更好，其中MNLP和BALD略優於LC。

3、關於主動學習中類別選擇的探索

本文使用了三個訓練數據集：包含原始訓練數據的隨機50％的half-data，僅包含來自newswire語料的nw數據，以及no-nw-data。在half-data的實驗中，f1達到了85.10，明顯優於其他有偏倚數據集，說明類別無偏差的重要性。

其次，本文分析了主動學習為這三個數據集選擇的數據類別分布，對於no-nw-data，該演算法選擇的newswire（nw）句子多於無偏差的half-data（367 vs 217），證明主動學習演算法可自動發現現有數據中缺失的數據類型，選擇並添加到原有數據集中。

Conclusion

本文將深度學習與主動學習結合起來，在少量的訓練數據下實現了state-of-art的性能。

推薦閱讀：

※機器學習入門精講，這些知識點不可錯過
※Top 機器學習會議
※混合模型與EM演算法
※Google機器學習速總結
※面壁者系列：線性回歸

TAG:機器學習 | 讀書筆記 | 深度學習DeepLearning |