《Python數據挖掘》筆記(五) 文本情緒分析

Python數據挖掘:概念、方法與實踐。Megan Squire著,姚軍譯,機械工業出版社,2017年。

筆記中有些內容直接引用原書。

=======================================================

本章將學習:

a. 情緒分析是什麼,我們為什麼要關心這種分析?

b. 如何理解在文本中找到情緒的最常用技術,哪些軟體工具可用於實施這些技術?

c. 如何在兩組實際文本中應用情緒分析?

5.1 什麼是情緒分析

情緒分析尋找作者在文本中表現的主觀感覺,嘗試為文本打上相應的標籤。

5.2 情緒分析基礎知識

觀點挖掘和情緒分析被視為更大的領域——自然語言處理(NLP)的子問題。情緒挖掘的目標不是理解人們所做的陳述,而只是了解他們的語氣。

5.2.1 觀點的結構

每個觀點通常都有一個目標,觀點的目標有時候稱為實體。觀點中的每個實體也可能有成分(子部件),實體或者組件則有屬性或者主題詞。

含蓄、諷刺、慣用語和條件語句是情緒識別的挑戰。

5.2.2 文檔級和句子級分析

可以在文檔和句子級別上分析觀點。本章主要關注文檔級情緒分析。

5.2.3 觀點的重要特徵

重要特徵是文本中使用的詞語。詞語包含單詞和短語,還包含標點符號、表情符號和表情圖標,因為這些符號也隱含著情緒或者感覺。我們可以確定正面或負面情緒的單詞稱為情緒詞或者觀點詞。

除訓練詞外,可能表示情緒的文本特徵還包括:

a. 所用單詞的稀有性

b. 單詞在文本中的位置

c. 否定詞或者其他所謂的觀點轉移詞的存在

d. 文本中出現的詞性

5.3 情緒分析演算法

通用數據集

a. 胡敏清(音譯)和劉冰的情緒分析詞典:6800個詞

b. SentiWordNet:117000個單詞, 13MB的gzip壓縮文件

c. Vader

sentiment:喬治亞理工學院開發,轉門為社交媒體數據做了調整,特別是推文等微博數據。包含表情符號和縮寫詞。Vader還是NTLK自帶的分類器之一。

5.4 情緒挖掘應用

本節用NTLK進行文本情緒分析。分析了兩個聊天室的情緒積極度比較。還分析了Linus Torvalds發給LKML的電子郵件集合中,哪一封最能體現linusrants(Linus咆哮)。

Github代碼github.com

BrianZhang:《Python數據挖掘》筆記(一)擴展你的數據挖掘工具箱zhuanlan.zhihu.com圖標BrianZhang:《Python數據挖掘》筆記(二)關聯規則挖掘zhuanlan.zhihu.com圖標BrianZhang:《Python數據挖掘》筆記(三)實體匹配zhuanlan.zhihu.com圖標BrianZhang:《Python數據挖掘》筆記(四) 網路分析zhuanlan.zhihu.com圖標BrianZhang:《Python數據挖掘》筆記(六) 文本中的命名實體識別zhuanlan.zhihu.com圖標BrianZhang:《Python數據挖掘》筆記(七) 自動化文本摘要zhuanlan.zhihu.com圖標BrianZhang:《Python數據挖掘》筆記(八)文本中的主題建模zhuanlan.zhihu.com圖標BrianZhang:《Python數據挖掘》筆記(九)挖掘數據異常zhuanlan.zhihu.com圖標軟體開發之路zhuanlan.zhihu.com圖標
推薦閱讀:

從懵逼到菜逼------菜逼來談數據挖掘
決策樹實戰:Titanic 生還預測
推薦系統乾貨總結
R 包 `ezdf`的講解
《Python數據挖掘》筆記(七) 自動化文本摘要

TAG:數據挖掘 | Python |