CRF 小結
02-12
CRF(條件隨機場)作為自然語言處理序列標註問題的經典模型,是很值得深入的分析和總結的,實際上關於它的分析的文章不勝枚舉,這裡附上幾篇連接,就當是一個學習筆記吧。另外這篇文章也會記錄一下常見幾種序列標註相關的tag和notation。
CRF參考文檔鏈接
CRF原理的介紹文章: 首推 李航老師的 《統計學習方法》,裡面對HMM, MEMM,CRF的原理分析的可謂十分到位。絕對是經典中的經典。
CRF++使用相關的連接:CRFsuite - Tutorial on Chunking Task 以及 CRF++的官文:CRF++: Yet Another CRF toolkit 想要了解CRF模型的template就要了解 CRF的特徵向量和權值向量的產生,推薦參考李航老師的《統計學習方法》關於 CRF的講解部分。
特別的針對CRF++工作原理的,推薦:CRF++模型格式說明-碼農場
CRF中幾種tag的介紹:
這裡介紹一下CRF example裡面的關於數據不同的幾種tag。
下載CRF++時候會自帶幾個樣例的代碼:
- basenp:簡單的詞性標註
- chunking:也可以叫做shallow parsing, 可以理解為粗粒度的詞性標註,不細化到單個詞的詞性,只是到短語級別(比如某個短語是名詞短語)
- JapaneseNE:日文的命名實體識別
- SEG:分詞的樣例代碼
在basenp中,train_data採用的是Penn Treebank POS tag, 詳細的解釋鏈接附上:Penn Treebank P.O.S. Tags
在chunking樣例中,標記使用的是IOB2的標識符集合:B表示Begin,I表示inside,O表示outside,舉例來說:
trade NN B-NPfigures NNS I-NPfor IN B-PP
這裡B-NP標記這個是一個名詞短語的開始, 第二行I-NP表示這個依然是一個名詞短語的一部分。
推薦閱讀:
TAG:自然語言處理 |