智能音箱語音交互的五種情景模式
來自專欄 聊天機器人從業札記
小時候,街上有一種店鋪,專門教人如何用電腦,如何用滑鼠鍵盤操作WINDOWS。會電腦是門手藝,想要學會是要花錢的。而我的外甥還不會說話的時候,就已經會在手機的觸摸屏上點點按按,樂此不疲。
計算機在不足百年的發展歷史裡,交互方式發生了翻天覆地的變化。從最原始的實物開關,打孔帶,到千禧年前的鍵鼠一代,和千禧年後的觸控一代。
每一次改變,都為用戶提供了更輕鬆更直觀的交互體驗。隨著簡便的操作,計算機的巨大威力耶不斷得到釋放。
前兩年被給予厚望的下一代交互主流,虛擬現實VR/增強現實AR火了一段時間之後,後續發展遠沒有趕上資本界對它們的期待。
相反,以Alexa,Siri、微軟小娜、Google Now等產品為代表的基於對話的交互方式(Conversation User Interface,CUI)勢頭兇猛。美帝巨頭蘋果、谷歌、亞馬遜都紛紛推出了自己的智能音箱搶奪市場。國內,一年之內,就有淘寶的天貓精靈、京東的叮咚音箱、小米的小愛同學和一大批知名、不知名的音箱,混戰其中。
這裡梳理基於對話交互的五種產品類型
1. 閑聊模型
這類聊天機器人出現時間非常早,最為國內用戶所熟知的就是小黃雞,現在乾脆被用來泛指在論壇或者聊天室里自動跟帖回復的小程序。
小黃雞們背後是一套基於統計的關聯演算法。簡單來說,你和小黃雞說了一句話後,他會在自己一個旁的語料庫里,找到最合適的那句台詞回復給你。
機器學習的發展讓閑聊機器人能夠達到非常不錯的匹配率。但是,就算匹配率能夠達到百分之百,它依舊不明白你在說什麼,也不明白自己在說什麼,僅僅知道,這麼表達好像最常見而已。
這裡面就埋下了很大的風險,16年微軟曾經推出過微軟小冰的姐妹版-Tay。上線一天,Tay就被調教成一個熱衷納粹、譏諷女權的種族主義者,隨後就被緊急下線。
Tay是個很典型的例子,如果一個系統不能理解他們所做的事情,是非常可怕的。它就好像是家裡養的八哥,每天逗一逗,它可以說很多話。但八哥再有趣,你也不能指望它能幫你去菜市場買根蔥。
這類聊天機器人也有它的用途,針對兒童和老人的陪伴機器人。嘮嗑嘛,又不會幹啥壞事,只要有電,能說上一天一夜。
2. 觸發模型
Siri等一批語音助手的核心就是關鍵字響應系統。它們首先通過語音識別(Speech To Text,STT)辨別你說的每一個字,根據特定識別規則,按照漏斗模型去匹配所能提供的服務。它能聽懂「打開」音樂,「關閉」檯燈、「打電話」給媽媽等,只要使用能被它們理解的話,這種服務還是挺好用的。
但是這種服務的局限性非常的大,它們的記憶彷彿就和金魚一樣。一位騰訊的產品經理曾經和我吐槽他使用天貓精靈沖話費的經歷。
用戶:「我要充話費」
精靈:「你的電話號碼是?」用戶:「176XXXXXXXX」精靈:「正打給176XXXXXXXX,電話接通中」用戶:「喵喵喵?」
為了能夠完成一個業務,它們不僅需要把所有可能的分支進行覆蓋,有時候還需要一些技巧,稍有不慎有時候就會非常地啰嗦。
麥兜:麻煩你,魚丸粗面
校長:沒有粗面 麥兜:是嗎?來碗魚丸河粉吧 校長:沒有魚丸 麥兜:是嗎?那牛肚粗面把 校長:沒有粗面 麥兜:那要魚丸油麵吧 校長:沒有魚丸 麥兜:怎麼什麼都沒有啊?那要墨魚丸粗面吧 校長:沒有粗面麥兜:又賣完了?麻煩你來碗魚丸米線
校長:沒有魚丸 旁:麥兜啊,他們的魚丸跟粗面賣光了,就是所有跟魚丸和粗面的配搭都沒了 麥兜:哦~~!沒有內些搭配啊……麻煩你只要魚丸 校長:沒有魚丸 麥兜:那粗面呢? 校長:沒有粗面
3. 搜索模式
Siri在不能響應你的請求的時候,就會返回一個搜索列表。日常中大家習慣使用百度一下自己不知道的內容,所以這種處理方式看上去還算不錯。
從另外一個角度考慮,如果對話的程序不能理解我們想要做的事情,通過搜索知識庫返還能找到相關內容,也是正常的降級策略。
這一種模式通常會和知識圖譜相聯繫,IBM的沃森系統便是其中翹楚。利用龐大的知識庫,它能夠成為某個行業的專家,雖然這個專家偶爾會顯得刻板沒那麼有趣。
4. 任務模式
Alexa和微軟小娜等現在主流的智能助理,打出來的口號是,它懂你,能夠幫你處理複雜的任務。除了按照吩咐去定鬧鐘、開燈,還能發現你做這些事的規律,找出你的作息習慣,甚至和其他智能設備結合,統計你的身體數據和習慣設定一個完美的作息表。
想要進化到這種程度,首先需要理解它們所提供的服務,其次要記錄之前已經聊天中提到的信息,能夠根據存儲的信息進行新的對話。它們可以用來做旅行助手規劃旅行,投資顧問管理你的資產。
以旅行助手為例,它能記住你之前告訴過它,要去什麼地方,住什麼規格的酒店,之後他就會幫你規划行程,找到最合適的酒店,還提醒你需要帶哪些東西。
迄今為止,這種模式非常依賴高度結構化的對話過程,就好像被人指使著一步步填寫調查問卷。不過,一些聰明的公司(比如我們),對這種模型進行了改造,根據當前情況下,所需要的信息動態生成對話內容,而不是像劇本一樣走到哪步就說哪句。
5. 學習模式
對話本身就是人們用來分傳遞信息的一種方式。它可以用來反饋他人的請求,也可以向他人表達建議等等。
談戀愛時通過對話表達愛意和關心,上課時通過對話傳遞知識,工作中通過對話同步進度。這些有的並沒有一個最終需要完成並達到的狀態,而是通過對話不斷完善我們對一個事情的理解。
這種模式是我們最終期待的,它能想人一樣,不斷地對周圍進行學習,了解我們的工作、業務、健康、家庭甚至整個社會的狀態。這些是無窮無盡的。
這些遠遠超過了搜索的範圍,需要結合結構化數據和非結構化的數據,最終用自然語言表達,達到更加擬人化的狀態。與前面提到的模式不同,它還能知道你在問什麼,它在說什麼。
學習模式雖然比任務和搜索模式更具挑戰性,但是它們的根基都是結構化的數據基礎。隨著自然語言生成能力的提高,它們能夠將意圖和數據映射到真實的對話上,讓它們看上去就像一個循循善誘的智者。
不同模型都有各自的優缺點,和實現複雜度,在對話交互系統裡面扮演不同的角色。想要在產品中應用,需要多加考慮。除此之外,對話交互的表現形式也值得斟酌,是想亞馬遜的echo音箱一樣完全使用語音,還是基於聊天軟體使用文本對話,亦或是Cortana、Siri等各種個人助理,富文本交互。這個問題在之後的文章會進一步討論。
推薦閱讀:
※移動端用戶體驗中的錯誤/異常狀態設計
※讀書《交互設計沉思錄》
※交互設計師的~待業無聊的胡思亂想
※消費電子人機交互淺談
※UI設計新人必備: 如何快速提升自己的設計水平