中文命名實體識別
來自專欄自然語言處理
命名實體識別的資料網上不多,尤其是讓我們可以跟著做的。想要做這個方向,可以先找簡單的入手。語料可以用人民日報標註語料,目前流行的方法有兩種,一種基於CRF,一種基於深度學習。我個人強烈建議先做項目,再去深入理解原理,這兩者相輔相成,才能成大事
本文脈絡簡單,就是從項目和原理兩方面推薦給大家相關的博客
首先給大家一個開胃菜,先入門一下命名實體識別,總不能做了半天不知道自己在幹什麼吧
命名實體識別(NER)的二三事
一.項目
方法一:基於CRF做命名實體識別
用CRF做命名實體識別(一)
用CRF做命名實體識別(二)
用CRF做命名實體識別(三)
- 用CRF做命名實體識別(一) 主要介紹的是關於人民日報標註語料的預處理,利用CRF++工具包對模型進行訓練以及測試。
- 用CRF做命名實體識別(二) 主要是升級對上一篇升級,新添加了一些特徵,著重介紹了如何生成組織名特徵詞這個特徵。大家也許看的一知半解,進去讀讀便豁然開朗了
- 用CRF做命名實體識別(三) 主要是總結了所有特徵的生成思路,並對它們做了一個效果對比
方法二:基於深度學習做命名實體識別
用深度學習做命名實體識別(附代碼) 主要簡單的介紹下BILSTM-CRF的原理,以及如何把大佬的數據集換成我們自己的數據集,進行訓練。
二. 原理
原理的理解很不容易,這裡主要推薦閱讀書籍和博客。主讀書籍,用博客來輔助理解
書籍推薦:吳軍的《數學之美》,周志華的西瓜書《機器學習》,李航的《統計學習方法》
博客推薦:
- CRF的原理介紹
如何用簡單易懂的例子解釋條件隨機場(CRF)模型?它和HMM有什麼區別?
如何輕鬆愉快地理解條件隨機場(CRF)?
2. HMM的原理介紹
一文搞懂HMM(隱馬爾可夫模型) - skyme - 博客園
farewell:隱馬爾科夫模型
如何用簡單易懂的例子解釋隱馬爾可夫模型?
機器學習 --- 4. 大內密探HMM(隱馬爾可夫)圍捕賭場老千
如何用簡單易懂的例子解釋隱馬爾可夫模型?
3. BILSTM的原理介紹
推薦給初學LSTM或者懂個大概卻不完全懂的人 - CSDN博客
三. 總結
中文的命名實體識別就到這裡了,大家有疑問歡迎提出來一起探討。另外要轉載的話請聯繫我,謝謝各位了
推薦閱讀:
※國外網站實用工具及搜索命令
※Multi-Label Classification
※2018.7.8論文推薦
※全文搜索+語義向量
※基於CNN的自然語言處理TensorFlow實現(上)