《Python數據挖掘》筆記(五) 文本情緒分析
Python數據挖掘:概念、方法與實踐。Megan Squire著,姚軍譯,機械工業出版社,2017年。
筆記中有些內容直接引用原書。
=======================================================
本章將學習:
a. 情緒分析是什麼,我們為什麼要關心這種分析?
b. 如何理解在文本中找到情緒的最常用技術,哪些軟體工具可用於實施這些技術?
c. 如何在兩組實際文本中應用情緒分析?
5.1 什麼是情緒分析
情緒分析尋找作者在文本中表現的主觀感覺,嘗試為文本打上相應的標籤。
5.2 情緒分析基礎知識
觀點挖掘和情緒分析被視為更大的領域——自然語言處理(NLP)的子問題。情緒挖掘的目標不是理解人們所做的陳述,而只是了解他們的語氣。
5.2.1 觀點的結構
每個觀點通常都有一個目標,觀點的目標有時候稱為實體。觀點中的每個實體也可能有成分(子部件),實體或者組件則有屬性或者主題詞。
含蓄、諷刺、慣用語和條件語句是情緒識別的挑戰。
5.2.2 文檔級和句子級分析
可以在文檔和句子級別上分析觀點。本章主要關注文檔級情緒分析。
5.2.3 觀點的重要特徵
重要特徵是文本中使用的詞語。詞語包含單詞和短語,還包含標點符號、表情符號和表情圖標,因為這些符號也隱含著情緒或者感覺。我們可以確定正面或負面情緒的單詞稱為情緒詞或者觀點詞。
除訓練詞外,可能表示情緒的文本特徵還包括:
a. 所用單詞的稀有性
b. 單詞在文本中的位置
c. 否定詞或者其他所謂的觀點轉移詞的存在
d. 文本中出現的詞性
5.3 情緒分析演算法
通用數據集
a. 胡敏清(音譯)和劉冰的情緒分析詞典:6800個詞
b. SentiWordNet:117000個單詞, 13MB的gzip壓縮文件
c. Vader
sentiment:喬治亞理工學院開發,轉門為社交媒體數據做了調整,特別是推文等微博數據。包含表情符號和縮寫詞。Vader還是NTLK自帶的分類器之一。5.4 情緒挖掘應用
本節用NTLK進行文本情緒分析。分析了兩個聊天室的情緒積極度比較。還分析了Linus Torvalds發給LKML的電子郵件集合中,哪一封最能體現linusrants(Linus咆哮)。
Github代碼BrianZhang:《Python數據挖掘》筆記(一)擴展你的數據挖掘工具箱BrianZhang:《Python數據挖掘》筆記(二)關聯規則挖掘BrianZhang:《Python數據挖掘》筆記(三)實體匹配BrianZhang:《Python數據挖掘》筆記(四) 網路分析BrianZhang:《Python數據挖掘》筆記(六) 文本中的命名實體識別BrianZhang:《Python數據挖掘》筆記(七) 自動化文本摘要BrianZhang:《Python數據挖掘》筆記(八)文本中的主題建模BrianZhang:《Python數據挖掘》筆記(九)挖掘數據異常軟體開發之路推薦閱讀:
※從懵逼到菜逼------菜逼來談數據挖掘
※決策樹實戰:Titanic 生還預測
※推薦系統乾貨總結
※R 包 `ezdf`的講解
※《Python數據挖掘》筆記(七) 自動化文本摘要