智能音箱語音交互的五種情景模式

05-20

智能音箱語音交互的五種情景模式

來自專欄聊天機器人從業札記

小時候，街上有一種店鋪，專門教人如何用電腦，如何用滑鼠鍵盤操作WINDOWS。會電腦是門手藝，想要學會是要花錢的。而我的外甥還不會說話的時候，就已經會在手機的觸摸屏上點點按按，樂此不疲。

計算機在不足百年的發展歷史裡，交互方式發生了翻天覆地的變化。從最原始的實物開關，打孔帶，到千禧年前的鍵鼠一代，和千禧年後的觸控一代。

第一台電子計算機，ABC，維基百科配圖

打孔卡，IBM卡，維基百科配圖

施樂公司開發的全球首款圖形用戶界面，TechWeb配圖

iPhone第一代，完全放棄了實體鍵盤，蘋果官網配圖

每一次改變，都為用戶提供了更輕鬆更直觀的交互體驗。隨著簡便的操作，計算機的巨大威力耶不斷得到釋放。

前兩年被給予厚望的下一代交互主流，虛擬現實VR/增強現實AR火了一段時間之後，後續發展遠沒有趕上資本界對它們的期待。

相反，以Alexa，Siri、微軟小娜、Google Now等產品為代表的基於對話的交互方式（Conversation User Interface，CUI）勢頭兇猛。美帝巨頭蘋果、谷歌、亞馬遜都紛紛推出了自己的智能音箱搶奪市場。國內，一年之內，就有淘寶的天貓精靈、京東的叮咚音箱、小米的小愛同學和一大批知名、不知名的音箱，混戰其中。

這裡梳理基於對話交互的五種產品類型

1. 閑聊模型

小黃雞，最早由韓國ISmaker於02年建立，博客園配圖

這類聊天機器人出現時間非常早，最為國內用戶所熟知的就是小黃雞，現在乾脆被用來泛指在論壇或者聊天室里自動跟帖回復的小程序。

小黃雞們背後是一套基於統計的關聯演算法。簡單來說，你和小黃雞說了一句話後，他會在自己一個旁的語料庫里，找到最合適的那句台詞回復給你。

機器學習的發展讓閑聊機器人能夠達到非常不錯的匹配率。但是，就算匹配率能夠達到百分之百，它依舊不明白你在說什麼，也不明白自己在說什麼，僅僅知道，這麼表達好像最常見而已。

這裡面就埋下了很大的風險，16年微軟曾經推出過微軟小冰的姐妹版-Tay。上線一天，Tay就被調教成一個熱衷納粹、譏諷女權的種族主義者，隨後就被緊急下線。

Tay是個很典型的例子，如果一個系統不能理解他們所做的事情，是非常可怕的。它就好像是家裡養的八哥，每天逗一逗，它可以說很多話。但八哥再有趣，你也不能指望它能幫你去菜市場買根蔥。

這類聊天機器人也有它的用途，針對兒童和老人的陪伴機器人。嘮嗑嘛，又不會幹啥壞事，只要有電，能說上一天一夜。

2. 觸發模型

Siri提供的功能，作者配圖

Siri等一批語音助手的核心就是關鍵字響應系統。它們首先通過語音識別（Speech To Text，STT）辨別你說的每一個字，根據特定識別規則，按照漏斗模型去匹配所能提供的服務。它能聽懂「打開」音樂，「關閉」檯燈、「打電話」給媽媽等，只要使用能被它們理解的話，這種服務還是挺好用的。

但是這種服務的局限性非常的大，它們的記憶彷彿就和金魚一樣。一位騰訊的產品經理曾經和我吐槽他使用天貓精靈沖話費的經歷。

用戶：「我要充話費」
精靈：「你的電話號碼是？」
用戶：「176XXXXXXXX」
精靈：「正打給176XXXXXXXX，電話接通中」
用戶：「喵喵喵？」

為了能夠完成一個業務，它們不僅需要把所有可能的分支進行覆蓋，有時候還需要一些技巧，稍有不慎有時候就會非常地啰嗦。

麥兜：麻煩你，魚丸粗面
校長：沒有粗面
麥兜：是嗎？來碗魚丸河粉吧
校長：沒有魚丸
麥兜：是嗎？那牛肚粗面把
校長：沒有粗面
麥兜：那要魚丸油麵吧
校長：沒有魚丸
麥兜：怎麼什麼都沒有啊？那要墨魚丸粗面吧
校長：沒有粗面

麥兜：又賣完了？麻煩你來碗魚丸米線
校長：沒有魚丸
旁：麥兜啊，他們的魚丸跟粗面賣光了，就是所有跟魚丸和粗面的配搭都沒了
麥兜：哦~~！沒有內些搭配啊……麻煩你只要魚丸
校長：沒有魚丸
麥兜：那粗面呢？
校長：沒有粗面

3. 搜索模式

Siri處理無法響應的問話處理，作者配圖

Siri在不能響應你的請求的時候，就會返回一個搜索列表。日常中大家習慣使用百度一下自己不知道的內容，所以這種處理方式看上去還算不錯。

從另外一個角度考慮，如果對話的程序不能理解我們想要做的事情，通過搜索知識庫返還能找到相關內容，也是正常的降級策略。

這一種模式通常會和知識圖譜相聯繫，IBM的沃森系統便是其中翹楚。利用龐大的知識庫，它能夠成為某個行業的專家，雖然這個專家偶爾會顯得刻板沒那麼有趣。

4. 任務模式

任務驅動的多輪對話示例，三角獸配圖

Alexa和微軟小娜等現在主流的智能助理，打出來的口號是，它懂你，能夠幫你處理複雜的任務。除了按照吩咐去定鬧鐘、開燈，還能發現你做這些事的規律，找出你的作息習慣，甚至和其他智能設備結合，統計你的身體數據和習慣設定一個完美的作息表。

想要進化到這種程度，首先需要理解它們所提供的服務，其次要記錄之前已經聊天中提到的信息，能夠根據存儲的信息進行新的對話。它們可以用來做旅行助手規劃旅行，投資顧問管理你的資產。

以旅行助手為例，它能記住你之前告訴過它，要去什麼地方，住什麼規格的酒店，之後他就會幫你規划行程，找到最合適的酒店，還提醒你需要帶哪些東西。

迄今為止，這種模式非常依賴高度結構化的對話過程，就好像被人指使著一步步填寫調查問卷。不過，一些聰明的公司（比如我們），對這種模型進行了改造，根據當前情況下，所需要的信息動態生成對話內容，而不是像劇本一樣走到哪步就說哪句。

5. 學習模式

鋼鐵俠中的賈維斯，電影截圖

對話本身就是人們用來分傳遞信息的一種方式。它可以用來反饋他人的請求，也可以向他人表達建議等等。

談戀愛時通過對話表達愛意和關心，上課時通過對話傳遞知識，工作中通過對話同步進度。這些有的並沒有一個最終需要完成並達到的狀態，而是通過對話不斷完善我們對一個事情的理解。

這種模式是我們最終期待的，它能想人一樣，不斷地對周圍進行學習，了解我們的工作、業務、健康、家庭甚至整個社會的狀態。這些是無窮無盡的。

這些遠遠超過了搜索的範圍，需要結合結構化數據和非結構化的數據，最終用自然語言表達，達到更加擬人化的狀態。與前面提到的模式不同，它還能知道你在問什麼，它在說什麼。

學習模式雖然比任務和搜索模式更具挑戰性，但是它們的根基都是結構化的數據基礎。隨著自然語言生成能力的提高，它們能夠將意圖和數據映射到真實的對話上，讓它們看上去就像一個循循善誘的智者。

不同模型都有各自的優缺點，和實現複雜度，在對話交互系統裡面扮演不同的角色。想要在產品中應用，需要多加考慮。除此之外，對話交互的表現形式也值得斟酌，是想亞馬遜的echo音箱一樣完全使用語音，還是基於聊天軟體使用文本對話，亦或是Cortana、Siri等各種個人助理，富文本交互。這個問題在之後的文章會進一步討論。