CRF 小結

02-12

CRF（條件隨機場）作為自然語言處理序列標註問題的經典模型，是很值得深入的分析和總結的，實際上關於它的分析的文章不勝枚舉，這裡附上幾篇連接，就當是一個學習筆記吧。另外這篇文章也會記錄一下常見幾種序列標註相關的tag和notation。

CRF參考文檔鏈接

CRF原理的介紹文章：首推李航老師的《統計學習方法》，裡面對HMM， MEMM，CRF的原理分析的可謂十分到位。絕對是經典中的經典。

CRF++使用相關的連接：CRFsuite - Tutorial on Chunking Task 以及 CRF++的官文：CRF++: Yet Another CRF toolkit 想要了解CRF模型的template就要了解 CRF的特徵向量和權值向量的產生，推薦參考李航老師的《統計學習方法》關於 CRF的講解部分。

特別的針對CRF++工作原理的，推薦：CRF++模型格式說明-碼農場

CRF中幾種tag的介紹：

這裡介紹一下CRF example裡面的關於數據不同的幾種tag。

下載CRF++時候會自帶幾個樣例的代碼：

basenp：簡單的詞性標註
chunking：也可以叫做shallow parsing，可以理解為粗粒度的詞性標註，不細化到單個詞的詞性，只是到短語級別（比如某個短語是名詞短語）
JapaneseNE：日文的命名實體識別
SEG：分詞的樣例代碼

在basenp中，train_data採用的是Penn Treebank POS tag，詳細的解釋鏈接附上：Penn Treebank P.O.S. Tags

在chunking樣例中，標記使用的是IOB2的標識符集合：B表示Begin，I表示inside，O表示outside，舉例來說：

trade NN B-NPfigures NNS I-NPfor IN B-PP

這裡B-NP標記這個是一個名詞短語的開始，第二行I-NP表示這個依然是一個名詞短語的一部分。