NLP自然語言處理從入門到迷茫
最早接觸到NLP的時候還是看的李航老師的分享,那時候聽了就覺得有點玄幻,機器人和人對話等等場景。後來在和其他的一些演算法團隊,包括有個基友在搞智能雲客服,所以或多或少了解到這塊。可惜的是我們當時的業務基本上都是做推薦系統相關的,當然也基本在跟著淘寶的路子,學他們做的那些廣告的系統工程。最近因為有個朋友的公司在招這塊,所以拿了些時間來總結下NLP的入門,感覺做這塊的人挺少的。包括最近談的幾家公司,也都面臨了相似的問題,比如線下的門店信息數據都很雜,怎麼從這些混雜的信息里提取一些相關聯的數據,如果只是人工判斷的話,效率會比較低。還有像我們之前做搜索這塊,召回了很多內容的資訊,怎麼從這些資訊類內容中提取關鍵詞做熱搜和排序。這些在現在的主流app里都是比較常見的功能模塊。所以覺得NLP後面應該還是會有很大的應用場景。
打個招人廣告:
東家守藝人 是一家位於杭州西湖區,專註於匠人的垂直電商,在匠人數量、商品數量上面具有核心競爭力。邀請NLP、搜索和推薦演算法,BI數據分析相關的人加盟。公司B輪融資,可以談期權,不少BAT的同事等等。有意者可以私聊我。
廢話不多說,難得有些時間,就整理了幾個方面的內容。
一 有哪些內容
NLP包括哪些內容,原來我們組的大佬是從微軟過來的,對這方面他們比較資深,也是小冰當年的開發者,後來來了螞蟻也在負責這塊業務的整合。所以看下微軟亞洲研究院周明博士的總結吧。
自然語言處理(簡稱NLP),是研究計算機處理人類語言的一門技術,包括:
1.句法語義分析:對於給定的句子,進行分詞、詞性標記、命名實體識別和鏈接、句法分析、語義角色識別和多義詞消歧。
2.信息抽取:從給定文本中抽取重要的信息,比如,時間、地點、人物、事件、原因、結果、數字、日期、貨幣、專有名詞等等。通俗說來,就是要了解誰在什麼時候、什麼原因、對誰、做了什麼事、有什麼結果。涉及到實體識別、時間抽取、因果關係抽取等關鍵技術。
3.文本挖掘(或者文本數據挖掘):包括文本聚類、分類、信息抽取、摘要、情感分析以及對挖掘的信息和知識的可視化、互動式的表達界面。目前主流的技術都是基於統計機器學習的。
4.機器翻譯:把輸入的源語言文本通過自動翻譯獲得另外一種語言的文本。根據輸入媒介不同,可以細分為文本翻譯、語音翻譯、手語翻譯、圖形翻譯等。機器翻譯從最早的基於規則的方法到二十年前的基於統計的方法,再到今天的基於神經網路(編碼-解碼)的方法,逐漸形成了一套比較嚴謹的方法體系。
5.信息檢索:對大規模的文檔進行索引。可簡單對文檔中的辭彙,賦之以不同的權重來建立索引,也可利用1,2,3的技術來建立更加深層的索引。在查詢的時候,對輸入的查詢表達式比如一個檢索詞或者一個句子進行分析,然後在索引裡面查找匹配的候選文檔,再根據一個排序機制把候選文檔排序,最後輸出排序得分最高的文檔。
6.問答系統: 對一個自然語言表達的問題,由問答系統給出一個精準的答案。需要對自然語言查詢語句進行某種程度的語義分析,包括實體鏈接、關係識別,形成邏輯表達式,然後到知識庫中查找可能的候選答案並通過一個排序機制找出最佳的答案。
7.對話系統:系統通過一系列的對話,跟用戶進行聊天、回答、完成某一項任務。涉及到用戶意圖理解、通用聊天引擎、問答引擎、對話管理等技術。此外,為了體現上下文相關,要具備多輪對話能力。同時,為了體現個性化,要開發用戶畫像以及基於用戶畫像的個性化回復。
二 看那些課程
NLP的公開課主要有Stanford講的比較系統,要求就是看得懂英文。
Stanford nlp公開課視頻:https://www.youtube.com/playlist?list=PLuBJa2RktQX-N0flCReMywxy1E-tsF0ZC
課件鏈接:https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html
懶得看英文的也有一些中文博文,
(Stanford CS224d) Deep Learning and NLP課程筆記(一):Deep NLP
(Stanford CS224d) Deep Learning and NLP課程筆記(二):word2vec
(Stanford CS224d) Deep Learning and NLP課程筆記(三):GloVe與模型的評估
Coursera公開課:自然語言處理入門
Introduction to Natural Language Processing | Coursera
宗成慶中國科學院:自然語言理解
自然語言理解_宗成慶_中國科學院-超星學術視頻 1122
有好心人可以在留言中繼續補充...
三 推薦幾本書
《數學之美》吳軍
這本是吳軍老師寫的很有科學趣味的一本,特別推薦
購買鏈接:https://s.click.taobao.com/81fnvUw
電子書:https://pan.baidu.com/s/1nxp9VVN
《NLP漢語言自然語言處理》
購買鏈接:https://s.click.taobao.com/YWklvUw
《統計自然語言處理基礎》
比較經典
電子書:https://pan.baidu.com/s/1ghaTdPh
《統計自然語言處理》宗成慶
購買鏈接:https://s.click.taobao.com/7JokvUw
電子書:https://pan.baidu.com/s/1bqgkEVt
-END-
微信公眾號:datafa
微信群:加V 784414374
新書鏈接:
【數據分析俠 《人人都會數據分析》20萬字書籍】http://m.tb.cn/h.AJEkoq 點擊鏈接,再選擇瀏覽器打開;或複製這條信息¥fSnh09F0Vpy¥後打開 手淘
推薦閱讀:
※數據挖掘過程中的離散方法
※R語言遊戲之旅 遊戲2048
※邏輯回歸構建申請信用評級
※Learn R | SVM of Data Mining(五)
※快訊| RStudio Connect 發布
TAG:自然语言处理 | 数据挖掘 | 深度学习DeepLearning |