基於中文文本的情感分析發展到了什麼水平(研究,商業應用,領先公司等角度)?

作為中文環境下大規模機器學習的基礎,基於中文的情感,語意分析具有非常重要的作用。情感分析作為一個研究了長達15年的領域,在英文環境下已經相對成熟。特別是最近"深度學習"的提出,進一步促進了其在大數據時代下的發展。

最近正在調查中文相關的文本和情感分析領域。據我目前所知,Soshio和Lexalytics都提供了中文情感分析的服務,還有其他相對知名的公司嗎?這個領域所用到的技術和英文情感分析相似嗎?


心情搜索

//含淚推薦之前實驗室做的微博關鍵字情感分析

-------------------分割線--------------

簡單說一下思路,大體上分為以下幾步:

  1. 第一步是中文分詞,即把微博文本劃分成一個個的詞,簡單轉化為「詞袋」。

  2. 把微博表情分成四類:高興,低落,憤怒,厭惡。
  3. 把帶表情的微博當作訓練集訓練樸素貝葉斯分類器。
  4. 把分類器應用在新的微博,得出每條新微博的心情。
  5. 統計出包含某關鍵詞的微博情感色彩,在時間維上繪製出心情變化曲線。

當時了解到的技術也就這麼多,由於沒有深入到團隊中沒能接觸到一些具體實現的細節。也不排除之後團隊改進了演算法。

PS:個人覺得中文分詞比英文分詞難太多了,這是一個比較大的差異。


我來回答一下這個問題吧,碰巧我們主要從事的就是中文文本情緒解析引擎的自主研發。

首先中文文本的情感分析本身屬於NLP(自然語言處理)技術其中的一種,當然很容易能了解得到相對於其他文本處理技術,情感分析是其中比較難實現的一part。但這裡還是要先簡單介紹一下常用的文本處理手段:

當然,其中部分技術可以說現在已經相對成熟,很多企業或機構都聲稱自己具備以上能力。然而,值得注意的是,其中部分技術實現的方法本身不一定具備真很大的價值。舉例來說,「觀點歸納」和「文本分類」很多時候是依附在「關鍵詞分析」之上;「敏感用語識別」更多是和具體行業經驗相關,技術難度也不大;而「情緒解析」目前大多數AI也只是建立在關鍵詞提取後通過經驗設置匹配腳本、堆疊詞庫的形式實現。

換句話說,自然語言處理目前的關鍵點依然還是是關鍵詞提取、結構分析…而其中,情感分析的能力局限是和其所使用的方法原理息息相關,只不過現在所能見到的大部分解析引擎都只是建立在「關鍵詞提取」+「詞庫匹配」的形式上實現的,這種方法依賴大量詞庫堆疊,不僅準確度不夠高(對於不夠直白的情緒表達識別度很低),同時最終只能返回二維情感極性:正面、負面(至多再加上中性),無法提煉細節情緒。

然而,近一兩年,隨著人工智慧技術,準確地說是機器學習中深度學習技術的發展、硬體成本的下降、資本的青睞、越來越多地數據開放等多方面因素導致了中文文本的情緒解析也正在飛速變革。

以語憶**為例,不同於堆疊詞庫的方式,而是基於深度學習模型,以海量帶標籤文本數據為訓練集,選取更細節的特徵對象,再加上邏輯加權、詞庫校驗等方式訓練出AI引擎可以至多識別出中文文本中多達18種細節情緒,每種所識別的情緒還會附加情感濃度值,以反映這些情緒的程度屬性。此外,對於同一句文本中的不同關鍵詞,引擎也會分別判斷其所對應的情感狀態。

以下是一張示例圖:

可以看到,以句子「我對套餐挺滿意,就是價格有些貴」這句話進行分析,整體情感極性為57,屬於中性偏積極,所辦含的情緒書要是「樂觀」和「喜愛」。

然而,如果以關鍵詞「價格」為對象再次判斷,則輸出結果為極性值38,其中的情感分布也會變成「厭惡」等……

以上只是一個基本示例,事實上,通過AI生中文文本細節情感解析引擎已經被商用化,只不過其商用化程度、可用性依舊和機器學習模型完善程度、以及更重要的(純凈)數據量息息相關。

同樣簡單地舉兩個栗子:

首先是基於電商平台(也可以擴展到社交網路)的評論分析。眾所周知,互聯網每天都會產生成噸的評論數據,而電商平台上對於產品的評論文本是最容易挖掘商業價值的數據源之一。理由很簡單,一是如今網購浪潮下,評論數據的指數級上漲,且有著對比社交平台相對較高的純凈度;更重要的,評論本身就是消費者對產品、品牌最直接的態度表達,對品牌方價值頗大。只不過以前非結構化數據難以處理,品牌方很難系統、全面地從海量評論數據中挖掘商業洞察,才致使這部分寶貴數據被浪費。

第二個例子是客服智能質檢。稍有了解過客服行業的朋友一定明白,如今龐大的客服呼叫中心領域,大多仍然依靠的是人工質檢的方式。及以一對多的形式、對數十、上百名質檢員作工作評估。這種方式不僅不效率,其客觀度、準確度也會受到極大的質疑。另一方面,龐大的客服對話文本信息其中蘊含著大量的消費者信息,對於產品、企業服務、投訴處理等都能帶來極大的價值。而這些數據的無法利用,也同樣會導致巨量浪費。這時候以情緒解析為核心的質檢系統便帶來了極大的優勢:通過分析對話雙方的情緒趨勢(消費者情緒細節及變化)表現,真正客觀、到位地對客服服務進行效果監督;帶有情緒解析的對話內容考核,不僅能做到全量通話質檢,更能做到實時檢驗預警、便於管理人員及時干預問題對話;對全量歷史通話內容作基於情緒的大數據分析產出產品痛點歸納、消費者畫像總結、企業管理優化等諸多豐富的商業洞察

當然,除了以上兩個例子外,仍然有許多其他領域可以通過情緒分析加以利用,比較能想像得到的是教育業和服務業……

基於人工智慧深度學習的情感分析引擎最大的優勢便是能基於數據的豐富,不斷自我學習、自我迭代,並基於細分行業優化……最終生成準確率無限趨近100%、功能越發豐富的模型。而這些、相信隨著高價值數據的開放、產業的透明化(是一種趨勢)用不了多久,便能實現~

這大概就是我目前的想法,任何問題、建議也歡迎和我進一步討論~~


貌似在工業界沒有什麼大規模應用場景,不知道理解的對不對


參考文獻:劉曉娟,尤斌,張愛芸等.基於微博數據的應用研究綜述*[J].情報雜誌 ,2013,(9):39-45.DOI:10.3969/j.issn.1002-1965.2013.09.008.


推薦閱讀:

C++解析Word、Excel、PPT、PDF等格式的文件用什麼庫?
自然語言處理方向值得讀博士么?
用卷積神經網路做情感分析時(句子級),為什麼輸入向量可以隨機初始化,在訓練的時候調整?
希望推薦一本自然語言處理專業需要精讀的著作?

TAG:數據分析 | 機器學習 | 自然語言處理 | 文本挖掘 | 計算機科學 |