一個典型的CUI交互流程

是的,在連續兩周的大道理後,可以開始要說些實際的東西了:)。

如需要,可參閱前兩篇的內容:

從TUI到CUI - 最好的時代,最難的時代

智能化「AI+」 對CUI的挑戰


談了那麼久的CUI,那麼一個典型的CUI交互流程到底包含哪些步驟呢?

試想一下,在家中,你跟一台音箱是怎麼互動的呢?

周日天氣甚好,你想出門運動一下,於是一邊整理衣服,一邊對著音箱說:

叮噹叮噹」;

音箱「」響了一下,燈帶變成紅色;

你知道現在可以說話了,於是接著對著音箱說:「今天天氣怎麼樣?適合爬山嗎?

音箱「」再響了一下,燈帶旋轉了一圈;

隨後,音箱開始說話:「深圳今天天氣晴朗,氣溫18到23度,紫外線強度低,空氣質量優。這是個挺適合爬山的好天氣。

你點點頭,帶上爬山的裝備,出門了。

在這個簡單的流程中,它其實經歷了7個步驟:

喚醒(Wakeup) - 收音(Recording) - 語音識別(ASR) - 語義識別(NLP) - 服務數據獲取(Data Fetching) - 拼裝回復語(Assembly) - 回復語轉化語音播放(TTS)

1. 喚醒(Wakeup):喚醒是將設備從「其他狀態」切回至「收音狀態」的流程。智能設備被喚醒後,它便進入了等待用戶收音的狀態。主流智能設備的喚醒有如下3種形式:語音喚醒(Words-to-Wake),點擊喚醒(Tap-to-Wake)和按住喚醒(Press-to-Wake)。根據不同的用戶使用場景,喚醒模式的選擇應該也是不一樣的。

2. 收音(Recording):在收音狀態中,智能設備將使用內置麥克風將周圍的聲音全部收錄進去。在CUI流程中,收音是非常重要的用戶輸入環節,收音質量的好壞將直接影響之後的整體流程。因此,智能設備為此設計了非常複雜的多麥(5麥,6麥等)系統,這將大大提高聲音收錄的質量。有的多麥系統甚至能辨別用戶發聲的「方向」與「遠近」,通過不同的方位,提前預判用戶可能的意圖,提供更智能的場景化服務。

3. 語音識別(ASR):語音識別是一個將收錄的聲音轉化成「文本句子」的過程。與早期不同,現今的主流語音識別技術都能藉助語義服務,通過上下文來更加精準地提升多音字等複雜場景的識別率。除次,藉助大數據和機器學習能力,現在的語音識別技術,已經能夠準確的識別方言(粵語,四川話等),這將大大延伸CUI的適用人群。另外,最新的聲紋識別現已在某些智能設備上得到了應用,這項技術的成熟,將打開「語音支付」「設備共享」等新場景,會衍生出幾千億的新的市場空間。想像一下,也許有一天,遠在老家的爸媽,微信都還不太會用,可已經學會每天在電視上用語音購買大米,醬油等日常用品了。放在小區門口的智能共享快遞櫃,我只需要跟他說一個語音指令,它便能識別我的聲音,並將我的快遞送出來。

4. 語義識別(NLP):語義識別將轉換的「文本句子」與「語義意圖」聯繫起來,並能將句子中的參數信息抽取出來。通過這個過程,設備便懂得了用戶說這句話的真實意圖,同時將回答該意圖所需的參數都抽取了出來。在上面天氣查詢的案例中,設備會懂得用戶的意圖是「查詢天氣」,並抽取了時間參數「今天」,地點參數「GPS當地-深圳」。

5. 服務數據獲取(Data Fetching):這個階段,後台會將「今天」「GPS當地-深圳」的數據傳輸給「查詢天氣」意圖的服務提供者,並獲得返回的數據結果。

6. 拼裝回復語(Assembly):在設計過程中,由於聽覺的線性效率問題,服務返回的所有數據並不需要全部展示給用戶。返回的數據需要經過交互設計師的加工。他們會基於場景進行數據篩選,並按照信息傳遞的優先順序排布前後順序,最後按照語法法則將回復語拼裝出來。這個過程是服務體驗設計的非常關鍵的一環,如何書寫「語法正確」「信息適當」「情緒合適」「性格一致」的回復語,對現階段交互設計師是個不小的挑戰。

7. 回復語轉化成語音(TTS): 這個過程是將拼裝的文本,通過TTS(Text-to-Speak)模擬人聲說出來。在這個過程中,用戶體驗主要呈現在兩個維度上:TTS聲優的音色情緒控制,TTS語音合成的準確流暢度。通過這個過程,用戶就能聽到智能設備用合適的聲音說出你想要的答案了。

剛才的天氣案例只是個典型的僅用語音回復的case。由於智能設備的類型不同,有時候,設備會使用除語音之外的其他渠道反饋。比如:當我通過「語音電視」查詢天氣的時候,電視將利用GUI(Gaphic-User-Interface,圖形界面)的視覺方式更高效的展示天氣信息;當我詢問一台mini機器人天氣的時候,機器人會夾雜 AUI(Action-User-Interface,動作界面),通過動作,眼神,表情等方式更情感化地展示天氣信息。

通過這7個步驟,一個典型的CUI交互流程就完成了。


在整個交互流程中,設備將在待機狀態(Idle);收音狀態(Listening);等待狀態(Thinking);說話狀態(Speaking);播放狀態(Playing)5個狀態中切換。

下一次,我們會更多的聊聊智能設備的5大狀態。


推薦閱讀:

APP設計中選擇方式,用彈窗好,還是平鋪選項來選擇好?
交互設計中的「同形異構」與「同構異形」
真的越長大越沒有創造力么?
工業設計 | Research做到什麼程度,才能開始作品集創作?

TAG:交互设计 | 人工智能 | 智能硬件 |