驀然認知CEO戴帥湘：人機交互面臨的挑戰與誤區

06-22

　　或許我們真的會解放雙手，進入一個全對話交互時代，反正我還挺期待的

　　全對話交互是一種怎樣的體驗?比如車載領域、家居智能領域，開車分心很容易出危險，在家躺著看電視懶得起來調空調風向，可能一切用手不方便的場景我們都可以用更自然的對話方式來代替。

　　根據36氪研究院報告顯示，截至2016年10月份，自然語言處理是所有人工智慧中獲投金額最多的細分領域，而其中作為比語音識別後入場的語義識別頗有點後來者居上的意味。

　　所以語義識別中的人機交互到底是怎樣完成的?不慌，讓我們剝絲抽繭梳理一下，以驀然認知為例，其主打產品智能交互引擎Mor的工作過程大概是這樣的：人機對話→語義識別→內部資源整合搜索→API調用→自動對接服務完成指令。

　　其中大概隱藏著這麼幾個問題：

　　語義識別過程是怎麼進行的?

　　驀然認知CEO戴帥湘對36氪表示，Mor不是一個簡單的關鍵詞搜索引擎工具，而是基於知識圖譜可以進行聯想、推導，進而擁有多輪對話、上下文理解能力的語義識別系統。人類自然語言難以被機器理解，最大的障礙是其往往存在著思維跳躍性、信息省略和容易產生歧義等現象，舉個例子，如下圖。五道口評價最好的剁椒魚頭店是什麼?第二次發問我們往往會省略主語不講，而此時系統必須具備記憶功能。Mor具備了長期記憶和短期記憶能力，長期記憶用於理解用戶習慣、偏好，描繪精確地用戶畫像，為決策能力提供支持;短期記憶則可多輪對話，不會給你一個「我不明白你在說什麼」這種回答。

　　另外，Mor還具備了學習能力，劃重點，此處的學習能力並不是我們日常所說的深度學習，而是遷移學習和增強學習能力。戴帥湘認為應用場景的劃分對於NLP領域其實是非常不適用的，人類也不可能是換一種場合就完全換了一種講話方式。遷移學習使Mor具備了多場景融合和復用能力;增強學習指的是在實際運用過程中，利用熱數據，進行演算法模型的自我優化。關於語義識別能力由來的解釋我已經儘力了。

　　數據集的來源是什麼?

　　我們知道，數據積累到今天已經足夠之多了，這是好的一面但也帶來了不小的困難。難點在於數據的清洗和挖掘問題，尤其是語音材料。Mor採用的是一種叫one-shot learning的模型，其可從少量樣本中進行訓練，建立模型，解決對話系統的「冷啟動」問題。畢竟，「我們不可能在對話系統沒有run起來之前就能獲取到大量用戶語料，因為對話表達方式本身過於自由，多場景之間需要融合，很難進行有效的人工標註，更不要說標註出大量語料，這時候從少量數據訓練有效模型就顯得非常重要。」

　　API融合調用是怎樣進行的?

　　人機語音交互可能只有在單身狗的應用場景中是作為純娛樂、陪伴式的，大多數情況下我們還是有確切需求需要機器為我們做點什麼的時候才會喚醒它，當然這並不代表使用頻率低。語音交互系統回歸本質一定是可以完成人類指令才是有價值的。Mor可以掃描公開的API介面，進行自動服務對接，無須安裝App，獲取使用成本大大降低。不同場景下的服務自然融合，用戶使用效率大大提升。

　　驀然認知作為一家專註於NLP領域的初創企業，年初剛完成了1000萬美金的A輪融資。昨日，2017春季?人工智慧產業峰會在京舉辦，驀然認知CEO戴帥湘現場發表了主題演講。

　　以下為戴帥湘發言節選：

　　我今天不主要介紹這個引擎是做什麼的，我會整體闡述一下如果要設計和製造Mor這樣一個引擎，它所面臨的幾大技術挑戰。整體來說這個引擎它本質上是一個系統化的工程，需要面臨的三大挑戰。

　　第一，自然語言理解。顧名思義，就像機器理解人類的語言，理解語言其實本質上是理解語義。從這個角度出發，語義該如何表示?它本身是從簡單到複雜，我把這個過程稱之為組合性，組合性其實是模型的生成能力。通過組合性生成的東西並不是好的東西，這個時候我們需要另一個特性因果性，它保證生成的方向是我們正確的方向。

　　上面兩位嘉賓都提到了深度學習這個問題，語義理解是不是可以用現有的深度學習來做呢?我們可以看到圖像識別或者說語音識別是一個非常適合深度學習來建模的過程，它主要是端到端，是個黑盒，從X到Y的過程。語義是一個有目的，有規劃的過程，它需要每個過程的推理，以及它之間的邏輯關係非常非常清晰，這樣的模型其實深度學習，至少現階段的深度學習它不是非常合適。

　　什麼樣的模型能夠很好的描述語義這樣一個過程呢?其實有一種框架比較適合做，我們現在可以說是生成模型，你要有步驟，有計劃的對一個東西進行建模，它不是像深度學習這麼通用的框架，可以進行套用，可以用大量的數據來擬合現在的過程。

　　第二個挑戰是學習與決策。要做到一個明確的決策，讓機器來輔助人完成任務，它需要兩個原則，記憶和學習，這跟人非常相像。記憶的角度，一種是短期記憶，一種是長期記憶，短期記憶囊括的是人和機器交互過程當中產生的是用戶畫像。短期記憶是下一句話聯想上一句話，這個非常重要，我剛才去了什麼地方?去那兒做什麼?這種很有關聯性的，是要靠語義識別進行的，記憶和整體決策相關。

　　與記憶相對是學習過程。一是遷移學習，闡述的是說如果我對單個產品進行建模，另外一個產品是不是能夠用上?如果你在單個模型做的非常透徹，但它不能移植到另外一個產品的話，它就無法有效的進行學習。然後是增強學習，增強學習本質上是有實時學習過程，就像人和人的對話，我們可以通過互相的對話博弈來快速了解這個人的性格、這個人的目的。它會實時變化參數，以便對話更加通暢。

　　第三個挑戰是自動服務的對接，服務對接很容易理解，所有對話系統，它都需要大量服務的支持，但是我今天強調的是自動這個含義。如果我們有非常非常多的服務需要很多的空間才能對接的話，這個工作量是很巨大的，你推出一個機器人，只能提供兩三種服務，但如果能提供兩三千種服務，我覺得這個意義非常大了。這個時候設立一種自動的掃描介面，並且能夠自動包裝介面，這樣一個自動對接的模式是非常重要的。從某種意義上它僅次於自動編程的方式，是可拔插式的，不需要花很長時間去定製開發，而是快速的切入。

　　我們看一下它的三個誤區，第一個多輪對話輪次越多越好?做多用戶交互的這樣一個通話，它目的是快速幫助完成任務，所以輪次這個事情如果針對不同的人，比如說我很乾脆，我可能一句話把所有任務說清楚。有些人很啰嗦，或者很猶豫，他需要4、5句話來描述，這樣輪次意義不是很大。你能夠快速理解用戶的意思，以及快速反映給用戶的速度才有意義。

　　也有人會認為場景越多規則也會越多，上面也提到了為什麼要建模，如果你場景越多，規則越多，也就意味著你在單個場景使用非常多的規則，會導致你在多服務對接裡面使用越來越多的規則。需要明確劃分垂直場景?多場景磨合是本身設計這個場景裡面非常重要的一個點。

　　我今天就基本講完了，我總結一下我所說的對話即應用的時代，在這樣一個時代我們會發現它軟體之間的邊界消失了，所有的服務最後通過自然對話的方式提供給用戶。整體的這樣一個過程它會大大的提升人在使用軟體上的效率，也會大大降低整個軟體開發的成本。我覺得這樣一個時代，它應該是一個機器逐步模仿人，並最終會超越人類的一個時代。謝謝!

　　本文版權及所表達觀點，歸作者(幾於道)所有