做文本挖掘是否需要了解自然語言處理?

做文本挖掘的話是不是懂一些NLP好一些,懂多少呢,越多越好?兩者之間什麼聯繫呢?


關於鄭鈞的回答,我覺得涉及的點很好,但是有些知識不是很準確;

map/reduce 是一種分散式計算的框架,TIIDF可以看作是一種特徵表示方法;統計方法比較常用的包括,樸素貝葉斯,最大後驗概率,EM演算法,CRF(比如用於分詞)等;

SVM不是聚類方法,而是分類回歸方法; VSM應該是vector-space-model吧,是向量空間模型,是文本表示的基本模型;常見的聚類方法分為兩類,層次聚類和扁平聚類,扁平聚類的代表演算法是經典的KMean演算法。分類方法也用的很多,比如SVM和決策樹。

NLP本身有一點比較特別的是語言模型;


你的問題是是否需要「了解」自然語言處理。

——毋庸置疑,百分之百需要。


從本質上來講,自然語言處理是文本挖掘的基礎,學好自然語言理解能夠更有效地設計出完美的文本挖掘的應用演算法。但是,從學術領域講,自然語言處理和文本挖掘是平行的,二者有交集,也有不同的地方。自然語言處理顧名思義更側重於語言學,涉及辭彙、語義、語法等方面的知識,而文本挖掘更側重於技術手段,包括演算法時間複雜性、演算法空間複雜性、基於網路的應用、數據的存儲等方面的內容。


文本挖掘包括很多個自然語言處理的模塊,如文本分類、文本聚類、文摘、關鍵詞抽取等,所有這些的基礎也是NLP的基礎工作,包括分詞、詞性標註(很多現成工具)等。所以還是看一些NLP的基礎工作,打好底子。不需要去實現,但需要了解,然後根據具體應用運用相應的底層工具就好。


兩者的關係就是當你在做文本挖掘的時候 想要達成一些目的而想不到很好的辦法的時候

可以去NLP里找 多半能找到不錯的思路

從最基本的切詞 到最上層的語義理解 都算NLP的要解決的問題


這個問題有點大。

文本挖掘、NLP包括的細分領域都非常非常的寬闊。工作中,實際使用的領域,比較有限,因此一個人沒有那麼多精力把所有這些細分領域都搞清楚搞明白。

既然如此,不如針對工作中實際是用的文本挖掘或NLP領域的某個細分方向,搞熟悉、搞透徹,玩明白。總比大而泛的學習,要好一些。


同意@駱逸的說法,數據挖掘的說法太大了,關鍵看你要做什麼,自然語言、推薦系統、圖像處理等都可以叫數據挖掘,關鍵看你要做什麼


當然需要。

既然是「文本挖掘」,自然語言處理最基本的功能點肯定都要做:

新詞發現、分詞、詞性標註、分類、自動提取標籤、實體自動發現和識別。

最基本的這些功能點做了之後,可以用統計方法完成簡單文本挖掘應用,統計方法比如:

TF/IDF、Map/Reduce、貝葉斯。

再深入一些,就需要:

聚類(層次聚類、SVM、VSM)、情感趨勢分析。

再想提高:

語法分析、句式判斷。

但一般做到NLP最基本功能點+統計方法即可搞定一般的互聯網應用。


文本挖掘的基礎是提取文本特徵,而特徵的提取就看對自然語言理解的好壞了。


了解一下還是好的,我覺得現在數據挖掘的問題在於:演算法學習的太多,卻不能夠有效的解決自己面臨的問題和持續優化,演算法和問題之間是存在很大的溝壑的


其他答案都已經說的很好了,我也是剛入門沒多久,以前關注的也是數據挖掘方面,最近開始研究文本挖掘。我的理解是文本挖掘可以等價於自然語言處理加數據挖掘。因為數據挖掘需要的是數據,而文本提供的是文字,所以文本挖掘需要通過自然語言處理技術,提取文本特徵,往往是一個向量表示,特徵提取也有很多模型,提取特徵以後,就可以進行數據挖掘。所以,文本挖掘肯定是需要自然語言處理技術的。


作為一個科班出身的人,我一直給門外漢們混用數據挖掘和自然語言處理。


這個問題需要從管理科學、信息學和數學多角度闡述。

1. 我們平常如何傳遞信息的?在沒有語言的時代,請注意是沒有語言系統非文字系統,信息的傳達是具有會意和模糊的。但是今天從行為一致性上的數據提取並沒有顯示這樣的一致性是模糊的。比如用比喻手勢去告訴外國人這樣不可以。所以從這個邏輯出發,文本的挖掘是一種高度理解過程的話,其實很自然語言沒有多大的關係。因為自然語言載體還是一種高度並準確的會意指代信號系統。這樣比喻更貼切,你用手指示蛋糕,你用腳指示蛋糕,和你用側身搖晃指示蛋糕,之間的差異性僅限會意程度的準確性,而且僅限於你這一次的指示。對規模統計上的指代統計學意義就更不明顯了。放文本挖掘使用後,自然語言僅僅是指代信號載體,本身意義是不大的。

2. 是否能正確的翻譯外星語?最簡單的問題也是最困難的問題。如同第一點所示,詞素算是最小的需要有意義結構了。中文比較特殊一點。詞素的信號學規則非常簡單,一定程度的會意分化就可以了。分化程度越高,語言表達的信號越清晰,分化程度越低表達的信號越模糊。如果我們遇到外星人如何理解他們的語言或者信號語言交流方式?非常簡單,從信號數量著手。高度表達或重複的是主語代詞,最少表達的副詞、狀語結構。其他可以全看成動詞或系動詞。舉例法語,將所有新聞文本進行機器學習,讓演算法學習並分類詞性並適應邏輯。演算法將整段文字處理後認為: la le les on nous vous il de 為主語,constitutionelle contrairement等為補語,剩下的所有均是動詞。經過觀察,演算法錯誤的將陰陽性冠詞和連詞也分為主語,第一次處理是不完美的。這時再要求演算法造句,邏輯為主動補。大部分句子均可表達。la est contrairement. 這句只錯了一個地方,指代主題詞性事實上是冠詞。那麼問題也就進化了,如何篩選主語? 當兩個主語並行時,可能其中有連詞。如果進一步動詞樣本構造中兩個連續的動詞也有「主語」出現在中間,那麼也有可能是連詞。在次學習分類,de就被踢出主語範疇了。進一步需要邏輯構造的其他部分,不停的進化問題,最後就形成了法語自動識別。 事實上,出現頻率最高和最低的詞素都沒有信號意義,而中間的部分是最有用的。如果是數個數就能總結中間部分的信號表達,那麼事實上也不用明白自然語言的構造。但是對精準的挖掘和機器預測,可以採用上面的邏輯構造學習來完成,也沒有學習特定自然語言規則。

3. 現實中的問題比較具體,了解自然語言邏輯有助人工調整和修正學習結果。文本挖掘的核心還是一個多樣大量統計的聚類分類問題。如果修正自然語言特性的規則非常清晰,那麼是有助於精準機器理解和機器學習的。當然自然語言特性是否會影響事實指代對象的結果。因為如果你採用精細的自然語言規則,那麼肯定增強了文本挖掘和機器學習的特異性。


個人感覺演算法是演算法,領域是領域,沒多大關係,隱馬為啥不能做文本挖掘啊


貴不在多,首先在於能真正了解文本挖掘的過程,以及中間涉及到的技術及應用場合。然後根據你的需求,對其中某一個分支領域(比如是特徵抽取,還是句法分析等等)或者某一個演算法(是貝葉斯還是SVM?)進行鑽研...


作文本挖掘需要學習NLP,因為你需要處理文本,提取出你感興趣的信息。如果你對機器學習熟悉,學習statistical NLP還是比較容易的。另外,也需要補充一些語言學基礎知識。


推薦閱讀:

word embedding 詞向量能否用於判別中文辭彙難易度?
word2vec和word embedding有什麼區別?
一個計算機系的學生想學一點語言學知識,從哪裡入手比較好?
有哪些高質量的中文分詞api?
條件隨機場(CRF)和隱馬爾科夫模型(HMM)最大區別在哪裡?CRF的全局最優體現在哪裡?

TAG:數據挖掘 | 機器學習 | 自然語言處理 | 推薦系統 | 文本挖掘 |