標籤：

自然语言处理

Character-based Joint Segmentation and POS Tagging for Chinese using Bidirectional RNN-CRF 閱讀筆記

01-28

論文原名：Character-basednJoint Segmentation and POS Tagging for Chinese using Bidirectional RNN-CRF
nn
作者：Yan Shao and Christian Hardmeier and Jorg Tiedemann and JoakimnNivre
nn
單位：Department of Linguistics and Philology, Uppsala University

nDepartment of Modern Languages, University ofnHelsinki
nn
鏈接：https://arxiv.org/pdf/1704.01314.pdf
本文作者：竇洪健

nn

前言：

nn

由於最近本人在研究如何利用單詞的詞向量及相應的詞性來生成文本，恰巧看到@蕭瑟這篇《 Character-based Joint Segmentation and POS Tagging fornChinese using Bidirectional RNN-CRF《 Character-based Joint Segmentation and POS Tagging for Chinese using Bidirectional RNN-CRF》論文引介，受到很多啟發。下面談一談本人對這篇paper的理解。

nn

問題描述：

nn

分詞及詞性標註問題是higher-levelnNLP中最為核心的任務。通常給定一段文本，首要任務是對文本進行分詞，然後結合分詞結果對單詞進行詞性標註，可見分詞的效果決定了POSntagging的質量。但是由於中文並沒有像英文天然的分詞符號<space>，因此本文提出一種基於BidirectionalnRNN-CRF的方法同時進行segmentation和POSntagging。

nn

相關工作

nn

Neural Network Architecture

本文作者提出的模型是基於雙向GRU結構，將每個時刻t的輸出輸入到CRF中。相比於傳統的LSTM模型，GRU擁有較少的參數，因此在分詞等NLP任務中經常使用GRU模型。本文利用聯合訓練的方式，將詞向量作為輸入，得到分詞標籤-詞性標籤的輸出結果。例如，輸入「夏天太熱」，得到「B-NT E-NT S-AD S-VA」的輸出結果。「B，I，E，S」分別表示字元的起始，中間，結束以及單字元，而詞性標註結果採用Chinese Treebank標準。

Character Representations

本文作者採用了四種方式對字元embedding進行構建。

nn

（1） Concatenated N-gram。除了生成單個字的詞向量外，作者還利用包含該字的n-gram片語信息生成該字元的表達方式。具體過程如下圖所示：

例如，字元「太」的向量表達 $V_{text{3}}$ 由 $V_{text{3,3}}$ ， $V_{text{2,3}}$ 和 $V_{text {2,4} }$ 首尾拼接而成。 $V_{text{m,n}}$ 的計算公式如下：

$V_{m,n} =f(V_{m},V_{m+1},...,V_{n})$

$f$ 表示一個RNN或者CNN結構，通過RNN或者CNN構建字元的上下文表達信息。作者同時利用雙向結構，將字元的上文信息和下文信息都考慮進去，更能夠充分表達字元的語義。

（2）Radicals Features。不同於英文字元，漢字的信息與其組成結構密切相關。具有相近語意的字元往往具有相同的部首。作者利用康熙字典將漢字按照部首分為214個不同的類別，並構建(U+4E00,U+9FFF)範圍內的漢字部首的embedding。

（3）Orthographical Feature。除了部首信息外，作者將漢字視為圖片，並利用CNN構建字元的embedding。CNN模型由兩層convolutional和max pooling結構組成，並在全連接層之後加入了dropout層防止過擬合。具體結構如下圖所示：

（4）Pre-trained Character Embeddings。作者利用Wikipedia和SogouCS語料訓練字元的GloVe向量。

Ensemble Decoding

在decoding階段，作者利用相同的模型參數分別訓練Pre-trained、n-gram、Radicals和Orthographical，得到四種詞向量後取平均，輸入到CRF中。

實驗

訓練集

作者利用Chinese Treebank 5.0（CTB5）、9.0（CTB9）和Chine sesection in Universal Dependencies（UDChinese）三種數據集進行訓練。具體的數據描述如下：

實驗結果

單獨使用四種詞向量得到的結果如下：

使用四種詞向量得到的結果如下：

總結

從實驗結果中可以看出，使用四種embedding結合的方式比單獨使用各自的embedding有了明顯的提升。本篇文章主要的貢獻如下：

（1）作者利用雙向GRU結構，對分詞和詞性標註任務進行聯合訓練，並且得到了很好的效果。

（2）作者結合漢字特點，提出了利用四種向量訓練模型，使得以往char-level的訓練方式變為lower-than-char方式。

推薦閱讀：

※網路表示學習最新進展及其應用 | 直播預告·PhD Talk #10
※來自一個計算語言學的不完全指南
※KBQA: 基於開放域知識庫上的QA系統 | 每周一起讀
※記憶網路之在對話系統中的應用
※Neural Responding Machine for Short-Text Conversation

TAG:自然语言处理 |