一個典型的CUI交互流程

01-30

是的，在連續兩周的大道理後，可以開始要說些實際的東西了：）。

如需要，可參閱前兩篇的內容：

從TUI到CUI - 最好的時代，最難的時代

智能化「AI+」對CUI的挑戰

談了那麼久的CUI，那麼一個典型的CUI交互流程到底包含哪些步驟呢？

試想一下，在家中，你跟一台音箱是怎麼互動的呢？

周日天氣甚好，你想出門運動一下，於是一邊整理衣服，一邊對著音箱說：

「叮噹叮噹」；
音箱「滴」響了一下，燈帶變成紅色；
你知道現在可以說話了，於是接著對著音箱說：「今天天氣怎麼樣？適合爬山嗎？」
音箱「滴」再響了一下，燈帶旋轉了一圈；
隨後，音箱開始說話：「深圳今天天氣晴朗，氣溫18到23度，紫外線強度低，空氣質量優。這是個挺適合爬山的好天氣。」

你點點頭，帶上爬山的裝備，出門了。

在這個簡單的流程中，它其實經歷了7個步驟：

喚醒（Wakeup） - 收音（Recording） - 語音識別（ASR） - 語義識別（NLP） - 服務數據獲取（Data Fetching） - 拼裝回復語（Assembly） - 回復語轉化語音播放（TTS）

1. 喚醒（Wakeup）：喚醒是將設備從「其他狀態」切回至「收音狀態」的流程。智能設備被喚醒後，它便進入了等待用戶收音的狀態。主流智能設備的喚醒有如下3種形式：語音喚醒（Words-to-Wake），點擊喚醒(Tap-to-Wake)和按住喚醒(Press-to-Wake)。根據不同的用戶使用場景，喚醒模式的選擇應該也是不一樣的。

2. 收音（Recording）：在收音狀態中，智能設備將使用內置麥克風將周圍的聲音全部收錄進去。在CUI流程中，收音是非常重要的用戶輸入環節，收音質量的好壞將直接影響之後的整體流程。因此，智能設備為此設計了非常複雜的多麥（5麥，6麥等）系統，這將大大提高聲音收錄的質量。有的多麥系統甚至能辨別用戶發聲的「方向」與「遠近」，通過不同的方位，提前預判用戶可能的意圖，提供更智能的場景化服務。

3. 語音識別（ASR）：語音識別是一個將收錄的聲音轉化成「文本句子」的過程。與早期不同，現今的主流語音識別技術都能藉助語義服務，通過上下文來更加精準地提升多音字等複雜場景的識別率。除次，藉助大數據和機器學習能力，現在的語音識別技術，已經能夠準確的識別方言（粵語，四川話等），這將大大延伸CUI的適用人群。另外，最新的聲紋識別現已在某些智能設備上得到了應用，這項技術的成熟，將打開「語音支付」「設備共享」等新場景，會衍生出幾千億的新的市場空間。想像一下，也許有一天，遠在老家的爸媽，微信都還不太會用，可已經學會每天在電視上用語音購買大米，醬油等日常用品了。放在小區門口的智能共享快遞櫃，我只需要跟他說一個語音指令，它便能識別我的聲音，並將我的快遞送出來。

4. 語義識別（NLP）：語義識別將轉換的「文本句子」與「語義意圖」聯繫起來，並能將句子中的參數信息抽取出來。通過這個過程，設備便懂得了用戶說這句話的真實意圖，同時將回答該意圖所需的參數都抽取了出來。在上面天氣查詢的案例中，設備會懂得用戶的意圖是「查詢天氣」，並抽取了時間參數「今天」，地點參數「GPS當地-深圳」。

5. 服務數據獲取（Data Fetching）：這個階段，後台會將「今天」「GPS當地-深圳」的數據傳輸給「查詢天氣」意圖的服務提供者，並獲得返回的數據結果。

6. 拼裝回復語（Assembly）：在設計過程中，由於聽覺的線性效率問題，服務返回的所有數據並不需要全部展示給用戶。返回的數據需要經過交互設計師的加工。他們會基於場景進行數據篩選，並按照信息傳遞的優先順序排布前後順序，最後按照語法法則將回復語拼裝出來。這個過程是服務體驗設計的非常關鍵的一環，如何書寫「語法正確」「信息適當」「情緒合適」「性格一致」的回復語，對現階段交互設計師是個不小的挑戰。

7. 回復語轉化成語音（TTS）: 這個過程是將拼裝的文本，通過TTS（Text-to-Speak）模擬人聲說出來。在這個過程中，用戶體驗主要呈現在兩個維度上：TTS聲優的音色情緒控制，TTS語音合成的準確流暢度。通過這個過程，用戶就能聽到智能設備用合適的聲音說出你想要的答案了。

剛才的天氣案例只是個典型的僅用語音回復的case。由於智能設備的類型不同，有時候，設備會使用除語音之外的其他渠道反饋。比如：當我通過「語音電視」查詢天氣的時候，電視將利用GUI（Gaphic-User-Interface，圖形界面）的視覺方式更高效的展示天氣信息；當我詢問一台mini機器人天氣的時候，機器人會夾雜 AUI（Action-User-Interface，動作界面），通過動作，眼神，表情等方式更情感化地展示天氣信息。

通過這7個步驟，一個典型的CUI交互流程就完成了。

在整個交互流程中，設備將在待機狀態（Idle）；收音狀態（Listening）；等待狀態（Thinking）；說話狀態（Speaking）；播放狀態（Playing）5個狀態中切換。

下一次，我們會更多的聊聊智能設備的5大狀態。