機器學習當道,還在使用基於詞典的文本挖掘方法么,過時啦!

機器學習當道,還在使用基於詞典的文本挖掘方法么,過時啦!

來自專欄我是程序員5 人贊了文章

摘要:機器學習時代,基於詞典的文本挖掘方法已不那麼適用,快用新方法開始你的探索吧!

在多數企業中,體現客戶與產品間聯繫的數據就佔到總數據量的80%。對於企業來說,在制定主要策略時,使用文本挖掘客戶與產品間的關係至關重要。由於眾包挖掘和分析通常充滿錯誤、花費昂貴且不具有伸縮性,企業通常會選擇自動化技術進行文本挖掘及分析,並生成用戶文檔。

機器學習技術因其在挖掘文本方面具有良好的適應性而備受研究者的青睞。然而,多數企業在進行大部分文本挖掘工作時仍然依賴於基於預先標記的詞典方法。

在本文中,我們將重點介紹基於幾種基於詞典的文本挖掘方法,其次會簡明概述當數據集發生改變時,機器學習如何以更高的準確性和適應性取代這些方法。

觀點挖掘

人們通常會針對產品、新聞、名人等各種話題發表評價。當消費者需要做出購買決策時,他們會傾向於參照其它消費者對該商品的評價,然後再做出決定。由於人們會對各種實體發表自己的看法,挖掘出評論中所隱含的信息變得尤為重要。觀點挖掘不僅能夠幫助企業獲取更多的產品及服務信息,而且有助於企業做出更為明智的決策。

就好比有這樣一句話:「這款手機的電池很差,甚至待機不超過四個小時」,該評論是關於手機(目標)的「電池壽命」,且評論透露出消極情緒。日常生活中,許多應用場景中都需要這樣的分析,並且應該更加深入,這樣才能有助於企業明確產品中的哪些組件或特徵更有市場,或者哪些需要在下次更新中予以改進。

觀點挖掘在自然語言處理(NLP)、文本分析和計算機語言學中是一項較大的挑戰。在此,我們將討論相關研究工作的最新進展,這些工作集中於對在互聯網中產生的用戶文檔(例如評論、評價)以及平台上的交互(例如微博、論壇和社交網站)進行評論挖掘。

關鍵字檢索(詞袋法)

在詞袋模型中,一個句子或者一篇文檔均能被看作一個包含詞語的「袋子」。詞袋模型會更多地考慮詞語和它們所在句子或文檔中出現的頻率,而忽略其在句子中的語義關係。市場營銷人員羅列出了透露積極情緒和消極情緒的辭彙列表,並嘗試分析這兩種情緒在某個文檔中誰佔主導地位(若兩種詞出現的次數都很少,則視為「無評價」)。詞袋模型通過在線詞典搜索同義詞和反義詞對情緒進行判斷。

舉個例子,當我們需要從眾多的用戶評論中過濾出與價格相關的評論時,通常是對價格進行關鍵字搜索,或者搜索與價格密切相關的詞語,比如定價、收費、支付等。

當然,詞袋法也是有其局限性的,它無法很好的處理大規模的文本挖掘任務。

局限性

人類自身局限——想出能代表一個特定概念的所有相關關鍵詞或者它們的變體是極其困難的,所以建立和更新詞庫對提升準確性格外重要。

領域知識的欠缺——當一個領域的子分支詞典應用於其他領域時,可能會產生相反的效果。許多詞語在別的場景中體現出消極的情緒,但換種場景,也許就變成積極情緒了,就拿「高油價」來說,它在石油公司看來則是具有積極意義的詞。而且,對於句子本身體現積極情緒,但其中所含詞語具有消極情緒的情況也不適用,比如「fix the broken economy」以及「taste was not bad」,可這樣的說法在日常生活中屢見不鮮。

推陳出新,機器學習!

利用機器學習技術,用戶能夠部署AI用於挖掘非結構化數據。由於其良好的適應能力以及準確性,機器學習技術備受研究學者的青睞。在利用機器學習技術對文本進行挖掘時,通常包含如下四個步驟:數據採集,數據預處理,數據訓練,結果的測試及驗證。在訓練集中,提供了一組帶標籤的數據。根據訓練數據集構建一個模型,該模型可用於對新產生的文本進行分類。在收集到足夠多的評論並對它們進行深入且正確的分析後,你就能準確的了解大多數人的感受。當然,這不僅僅與人們的感受有關,也與產生這種感覺的因素有關。

模式挖掘

在分類場景中,為了計算出與特定標籤高度相關的文本模式,我們可以先在小部分已標記的訓練集中使用模式發現演算法。分類器識別單詞之間的關係的同時還對其進行存儲,方便後續對新產生的文檔進行分析。舉個例子,我們需要區分出給公司的反饋郵件中所表達的情緒。此時,與負面情緒標籤有高度相關性的常見文本可能是「我將選擇XYZCorp」,其中XYZCorp是競爭公司的名字。一旦分類器學會了這一點,它就可以像人類一樣將其他新文檔歸類到標籤中。

各種情緒背後的動因是什麼呢?

了解到情緒產生的動因,就能夠在評論數據中挖掘出特定領域的優勢及劣勢。比如,公司高管們可以根據這些數據進行有針對性、戰略性的改革,以提高盈利能力或者增加市場份額的佔比。

在政府部門,這些數據可以用來制定與選民產生共鳴的策略和競選活動,並針對選民不斷變化的需求做出及時的調整。並且,通過分析情緒產生的動因,觀點挖掘使得人們具有更加深刻的社會洞察力——一個了解人們想法和感受的窗口。

通過分析情緒以及情緒產生的動因,銀行可能會發現,在眾多的反饋意見中,排隊以及等待時長是顧客最在意的。

一家快餐連鎖店通過對數據進行分析也許會了解到,儘管他們有著優秀的服務水平,但對顧客而言,他們的食物分量與其競爭對手相比太少了。

若你想嘗試文本挖掘,你可以使用我們現成的文本分類模型,如情感分析和情緒分析,或者使用自定義分類器API構建自己的分類器。所有的API都可以在Excel Plugins 或Google Sheets add-on中使用,以便你利用電子表格進行文本挖掘。

對於企業來說,文本分類模型可以用於公有雲或私有雲部署,以保證較低的延遲,並符合隱私法。

你可以在這裡發現更多的文本分類模型。

你也可以在這裡閱讀更多有關文本分類的內容。

以上為譯文,由阿里云云棲社區組織翻譯。

譯文鏈接

文章原標題《Reasons to Replace Dictionary Based Text Mining with Machine Learning Techniques》

作者:Shashank Gupta,譯者:Elaine,審校:袁虎。

文章為簡譯,更為詳細的內容,請查看原文

更多技術乾貨敬請關注云棲社區知乎機構號:阿里云云棲社區 - 知乎

本文為雲棲社區原創內容,未經允許不得轉載。


推薦閱讀:

「終結者」入侵現實:要麼反抗,要麼死!
數據標註質量如何把控
2018年10篇最值得閱讀的深度學習文章
南方周末 ?人工智慧有多「危險」?阿爾法狗是怎樣煉成的
自動駕駛的運營怎麼做+寫書計劃

TAG:機器學習 | 人工智慧 | 文本挖掘 |