CRF 小結

CRF(條件隨機場)作為自然語言處理序列標註問題的經典模型,是很值得深入的分析和總結的,實際上關於它的分析的文章不勝枚舉,這裡附上幾篇連接,就當是一個學習筆記吧。另外這篇文章也會記錄一下常見幾種序列標註相關的tag和notation。

CRF參考文檔鏈接

CRF原理的介紹文章: 首推 李航老師的 《統計學習方法》,裡面對HMM, MEMM,CRF的原理分析的可謂十分到位。絕對是經典中的經典。

CRF++使用相關的連接:CRFsuite - Tutorial on Chunking Task 以及 CRF++的官文:CRF++: Yet Another CRF toolkit 想要了解CRF模型的template就要了解 CRF的特徵向量和權值向量的產生,推薦參考李航老師的《統計學習方法》關於 CRF的講解部分。

特別的針對CRF++工作原理的,推薦:CRF++模型格式說明-碼農場

CRF中幾種tag的介紹:

這裡介紹一下CRF example裡面的關於數據不同的幾種tag。

下載CRF++時候會自帶幾個樣例的代碼:

  • basenp:簡單的詞性標註
  • chunking:也可以叫做shallow parsing, 可以理解為粗粒度的詞性標註,不細化到單個詞的詞性,只是到短語級別(比如某個短語是名詞短語)
  • JapaneseNE:日文的命名實體識別
  • SEG:分詞的樣例代碼

在basenp中,train_data採用的是Penn Treebank POS tag, 詳細的解釋鏈接附上:Penn Treebank P.O.S. Tags

在chunking樣例中,標記使用的是IOB2的標識符集合:B表示Begin,I表示inside,O表示outside,舉例來說:

trade NN B-NPfigures NNS I-NPfor IN B-PP

這裡B-NP標記這個是一個名詞短語的開始, 第二行I-NP表示這個依然是一個名詞短語的一部分。


推薦閱讀:

為何讀不懂你的那個TA

TAG:自然語言處理 |