讓機器學會「讀心術」,情感計算如何解決實際場景需求? | 硬創公開課

你做一個表情,或者說一句話,機器就可以準確地識別你的情緒。

沒錯,當你在渴望get「讀心術」技能的時候,機器已經能完美的實現了。目前,國內的翼開科技、以色列公司Beyond Verbal以及美國的Affectiva和Emotient都在做這情感計算解決方案。其應用場景也非常廣泛:飛行員情緒監控、呼叫中心情緒考核、學生情緒監測甚至是智能硬體都可以使用這類演算法,而且精度可以達到90%以上。

簡單來說,機器是根據人的心率、呼吸、語音甚至是面部表情等特徵,再通過特定的模型演算法就能解讀出人的情緒狀態,從技術角度看,數據挖掘、機器學習等都是情感計算的基礎。

那麼完成情感判斷需要哪些模塊?以及具體實現原理是怎樣的呢?本期硬創公開課,雷鋒網(公眾號:雷鋒網)邀請到了翼開科技創始人魏清晨為大家分享情感計算的技術問題以及應用場景。

嘉賓介紹

魏清晨,翼開科技EmoKit創始人,目前全面負責EmoKit公司的戰略規劃、運營管理、團隊建設,團隊里兩名核心科學家均為海歸博士後。

EmoKit,即海妖情感計算引擎,包括情緒的識別、優化、表達,是人工智慧的核心基礎設施之一。自2015年創立半年獲得600萬投資,如今已經超2000萬用戶,今年獲得近2000萬元訂單。Emokit先後獲得美國麻省理工學院舉辦的「MIT-CHIEF全球創業大賽」中國區第一名,芬蘭「Slush World 2014全球創業大賽」名列第一,工信部和全國科協2015全國移動互聯網創業大賽「特等獎」,清華大學H+Lab「幸福科技全球挑戰賽」冠軍。

以下內容整理自本期公開課,雷鋒網做了不改變願意的編輯:

情感計算的模塊和價值

就我們現在在做的事情來看,我們把情感計算分成3個模塊:第一部分是情緒識別,通過語音、心率、表情和寫字過程中壓感和速率的變化來判斷用戶的情緒。

情緒識別

情緒的類型一共有24種,積極和消極各12種。在情感計算的發展過程中,演算法也經歷了六次升級。第一代我們通過量表測評,第二代加入了心率和呼吸,第三代針對個體增加了縱向的學習和訓練,第四代我們對情緒做了一個細化(從原來的5中情緒增加到了24種),第五代加入了表情和筆記的情緒識別,第六代主要做兩塊工作:一個是判斷了用戶的情緒之後,基於單一的事件背景進一步識別用戶的意圖;第二個工作就是把語音、表情和視覺的行為、文本做一個多模態的擬合。

情緒優化模塊

情緒識別只是第一步,未來需要解決的問題是調整用戶的情緒。從上圖可以看出,通過語音、心率表情和筆記這些信息判斷用戶的情緒之後,還可以通過推薦內容來緩解用戶的情緒。

例如,翼開科技2011年上線的一款應用就會給用戶推薦詩歌、書法、音樂等等,後來在音樂內容上做得更加深入,我們通過分析音樂的音高、節奏、旋律和音強,3分鐘的歌曲會採集6000個數據點分,根據這些信息來給歌曲打情緒標籤。現在已經標註過得音樂數量超過了160萬首,另外,像圖片、視頻都是可以通過用戶的情緒來做內容匹配,最終達到緩解情緒的目的。

情緒表達

情緒表達是利用情感合成技術,讓一段語音、表情或者肢體動作模擬人的情感,讓機器帶有情感的表達出來,這樣就可以提升人和機器的交互體驗。

舉個例子,如果送餐機器人只會識別菜和客人,這是基礎服務;但要增加機器人的附加價值,需要送餐機器人讀懂客人的情緒,客人情緒低落的時候,送餐機器人會以一種比較舒緩的情緒對話。

情感計算技術實現的路線

目前翼開科技和中科院心理所、清華大學心理系和美國卡內基梅隆大學語言技術研究所。

這實際上是兩個流派:前面的兩個機構代表的是基於理論研究的專家模型,卡內基梅隆大學是基於神經網路、深度學習的模型。

目前翼開科技在做的有一部分是基於深度學習的,也有一部分是基於專家模型。我們認為這兩類的瓶頸都逐漸顯現出來了,需要相互融合。

為什麼會用深度學習來做表情的識別?

現在做深度學習的瓶頸在於大量標註過的數據,不過表情標註會相對比較容易,一張人臉只判斷喜怒哀樂,一般情況下1秒就可以識別出一個人的表情,如果有幾十萬張表情圖片,用眾包的方式所需的時間和費用都不會很大。

不過有一些數據不太方便做標註,例如語音。

三分鐘的語音,我們必須聽完三分鐘才能做情緒的標註,標註的工作量在無形中增加了上百倍,而且相對錶情而言,語音的情緒表達更加隱性,所以也很難用深度學習的方式來實現語音的情緒識別。

還有一種是普通人很難進行標註的,如心率。即使你是一個專業的醫生,看完一段心率圖也無法確定測試對象心率變化的原因(開心、焦慮、憤怒)。

所以,現在表情是基於深度學習的,語音和心率基於專家模型。

不過剛才也講到,這兩類在發展到一定程度時候,會存在瓶頸。例表情面臨的瓶頸有兩個:1.普通人標註人臉表情的顆粒度一般是6-8種情緒,很難識別更細的(24種甚至是一百多種);2.即便完成了情緒類型的標準,但你無法確認情緒的真偽。

在專家模型中,則有比較成熟的模型來判斷情緒的真偽,因此,我們可以在深度學習的基礎上,再疊加專家模型來突破這樣的瓶頸。

心率和語音基於專家模型也存在瓶頸,現在的解決辦法是建立一個個體用戶強化訓練的模型(一個用戶測得越多,模型會越貼合被測用戶的特徵);另外,我們還可以建立一個半監督學習演算法來得到實時的反饋。

因此,表面上有兩條技術路線,但實際上這二者是相互融合的。

情感計算的不同理解

不同的行業對於情感計算的理解是不一樣的。羅莎琳德·皮卡德是麻省理工學院MediaLab的老師,她也是情感計算學科的奠基人。

在她《情感計算》這本書中的序言中有這麼一句話:如果要讓計算機實現真正的智能並適應我們,跟我們產生自然而然的人機交互,那麼,它就需要具備情緒識別和表達能力,就需要具備情感。

谷歌雲計算首席科學家李飛飛對情感計算是這麼理解的:現在我們的AI都是用邏輯的方法來判斷情感。邏輯代表IQ,而情感代表EQ。未來,從情緒到情感,是人工智慧未來前進的方向。

我們認為可以從三個角度來理解情感計算:

第一,情感計算可以幫助AI來識別用戶的情緒;

第二,情感計算可以幫助AI模擬人類的情緒,以改善人機情感交互;

第三,情感計算可以讓AI產生自我約束能力(同理心)。

應用場景

目前翼開科技和環信展開了合作,環信有IM溝通工具,這裡面包含了語音、表情和文本等信息,我們對其開放了綁定的SDK,可以通過語音等信息來判斷用戶的情緒。

另外,我們現在還和科大訊飛有合作,合作的方式主要是相互交叉授權,通過綁定版的SDK,科大訊飛來識別語音,翼開科技來判斷情緒;現在還在做視覺的應用,科大訊飛識別人的身份,翼開科技來識別其情緒。

另外,以下這些都是情感計算可能落地的應用場景:

1.基於AI多模態識別和生物反饋技術的精神壓力智能篩查裝備

2.基於AI多模態識別和NLP技術的公安審訊實時分析預警裝備

3.基於AI多模態識別和車載控制技術的司機情緒和疲勞度監測敢於系統

4.基於AI多模態識別和智能控制技術的情感聯動的無操控智能家居系統

5.基於AI多模態識別和動機分析技術的金融信貸面簽風險評估機器人

6.基於語音聲紋和NLP技術的呼叫中心坐席情緒監控和滿意度分析方案

7.基於情感大數據時序遞歸分析技術的幼兒性格發育傾向性預測軟體

8.基於情感大數據時序遞歸分析技術的承認免疫系統損傷預警軟體

當然,對於創業公司而言,要做出上述所有場景來推向市場,雷鋒網了解到,翼開科技已經在教育、金融等領域做出了商業化的嘗試。

精彩問答

Q:語音、圖像這些不同的模塊怎麼在系統裡面協調工作?

A:其實就是一個多模態的演算法,有兩種實現的方法:本身數據就是多模態的數據,然後做標註,做完玩標註就可以通過深度學習的方式來做訓練;第二種,通過同一個sensor採集數據後再做多模態,例如通過麥克風可以採集到用戶的語音、聲紋特徵,進一步分析文本,來做多模態。

Q:情感數據對準確率還是有很大的影響,這些數據是怎麼搜集的?

A:在我們和卡內基梅隆大學情感計算專家交流的過程中,我們得到一個觀點,通過單種信息來判斷情緒,準確率是有局限性的;另外,越早做多模態越好,越多的模態擬合越好。

我們把反應情緒的信號分為兩類,一類是淺層信號,如語音、表情;還有一類是深層信號,完全受交感神經和副交感神經的影響,主觀意識很難控制。

淺層信號更容易採集,但權重不高;深層信號權重高,但採集難度比較大。兩種信號做綜合的多模態分析可以提升情感判斷的準確度。

Q:目前的準確率有多高?多模態的模型有相關的paper嗎?

A:語音和心率是基於專家模型的,這個精度會低一點,在85%左右,表情在90%左右(但是表情只有7中情緒)。

Q:情感識別目前有判斷準確率的行業標準嗎?沒有標準的話,從哪些維度來提升識別率?

A:現在判斷情緒標準的類型比較多,常見的如果用深度學習方法實現的模型,再重新另一套標註的數據來跑一下這個模型,來判斷它的精度;另外,可以根據用戶反饋來判斷,把系統測試的結果反饋給用戶,讓用戶來給出最終驗證。

如何優化?可以通過半監督學習的方式,來進行自我訓練自我校正。

Q:有採用腦電波的模態數據嗎?

A:國外做這一塊的研究有很多,我們現在認為腦電sensor還不是消費終端的標配,採集腦電要專門的sensor,目前只用在特殊的行業,還沒有做通用演算法的開放。

公開課視頻

情感計算如何解決實際場景問題_騰訊視頻 https://v.qq.com/x/page/q0398dutn83.html

PS:翼開科技正在招聘:機器學習,機器視覺,情感計算,多模態,NLP等相關職位,如有意向歡迎投簡歷到:way@emokit.com

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

推薦閱讀:

TAG:机器学习 | 人工智能 |