《Hybrid semi-Markov CRF for Neural Sequence Labeling》閱讀筆記

07-07

來自專欄西土城的搬磚日常

轉載請註明出處：西土城的搬磚日常
原文鏈接：Hybrid semi-Markov CRF for Neural Sequence Labeling
來源：ACL 2018

介紹：

對於命名實體識別任務，現有的模型基本已經能夠達到很好的結果。近期，在ICLR 2018上提出了使用active learning，可以在少量數據集下得到較優結果（可以參見專欄文章）。除此之外，本文提出了使用聯合學習的方式提升序列標註的結果，雖然效果沒有超過使用額外信息的模型，但是在已有的不使用額外信息的模型中可以達到state-of-the-art的結果。

Model：

本文使用的模型是基礎的NER模型，聯合使用了CRF和改進的semi-CRF提升了模型的效果。

對於輸入 $X={x_{1},…，x_{n}}$ , $W={w_{1},…,w_{n}}$ 表示對應每個詞的詞向量， $S={s_{1},s_{2},…,s_{p}}$ 表示句子的分割結果（ $s_{i} = (b_{i},e_{i},l_{i})$ ，分別對應開始詞的index，結束詞的index和標籤）。

與傳統SCRF一樣，句子分割的概率計算如下：

S是所有可能的分割結果的集合

與傳統SCRF的主要區別

$m_{i}$ 是分割塊的得分， $b_{i,j}$ 是segment-level的從類別i到類別j的轉移參數。與傳統SCRF的區別在於，本文使用word-level的標籤計算句子每個可能區塊的得分。 $varphi_{c}(y_{k},w^{}_{k})$ 計算第k個詞被分為 $y_{k}$ 的得分。

對於每個詞， $w_{k}^{}$ 由三個部分組成：

1.詞向量 $w_{k}$ ；

2. $w_{e_{i}}-w_{b_{i}}$ ；

3. $phi(k-b_{i}+1)$ ，表示詞塊中位置的embedding。

聯合訓練和解碼：

為了研究word-level標籤在SCRF上的作用，作者聯合訓練CRF層和HSCRF層，共用同一層詞向量輸入，分別在word-level和segment-level真實值的基礎上訓練模型參數。

在解碼階段，可以得到兩個不同層級的預測標籤，作者選擇較低loss的層級預測作為最終結果。

實驗：

數據集CoNLL 2003，訓練集中segment長度超過6的case被剔除，削減了將近0.5%的訓練集。使用Glove作為預訓練詞向量，分別測試了LM-BLSTM和CNN-BLSTM兩種編碼方式。

與各個現有模型的比較，*表明使用了外部信息

為了探究word-level和segment-level的信息在NER中的作用，作者做了如下實驗：

不同實體長度上各個模型的表現

從圖中可以看出，GSCRF在識別較長實體的效果優於CRF，但是短實體上的識別效果比較差；HSCRF在長實體識別上的效果優於CRF，短實體上效果也與CRF較為接近。

作者猜測word-level的標籤或許有助於監督模型學習word-level的信息用於識別短實體，而segment-level的標籤則指導模型去捕捉詞的整合信息，用以幫助識別長實體。

總結：

GAN是現在較為流行的深度學習模式，但是聯合學習也在不斷的吸引一些學者的眼球，已經有大量的實踐證明聯合學習可以同時有效地提升多個任務的效果，因為可以提供更多的信息給模型綜合學習。單一任務上模型可以獲得的信息很有限，由於數據集的限制，可能並不能學習到足夠量的語義信息，通過多任務監督可以給模型提供更多的信息，有效提升模型的效果，也是一個不錯的研究和實踐的方向。