為啥要擁抱語音交互？

05-04

最近搶到了一個小米AI音箱發朋友圈來著，前兩天跟某位老闆碰到的時候就聊到了語音交互的問題。老闆覺得語音交互沒啥必要啊，通過語音開電視就一定比拿遙控器按一下方便么？

後來我發現這其實是個共性的疑問，很多人其實都抱著這個疑問，而且當下還真沒法簡單兩句說清楚到底在「現在」這個時間點上的壓倒性優勢，所以趁著放假的時間，我整理一下對於這個問題的我的一些判斷，僅供參考~

當然，結論先放出來：未來一定有一大部分場景中會用到語音交互形式，這個不取決與在現在這個時間點的體驗是什麼樣的。當然，是否語音交互會代替現在的所有交互形式，這個我覺得倒是不會，但是肯定要比現在大家想想的場景範圍要廣的多。

語音才是人類的交互邏輯

語音是現在人與人之間溝通最常用的手段。其實從本質上來講，所謂的交互最後也無非是人與人之間的一種溝通方式，只不過現在中間會通過部分機器或是系統來進行中轉。比如你在淘寶上購物，最後交互的對象還是一個賣家而不是淘寶這個系統。所以現在判斷一個系統是不是先進智能，其實就是判斷這個系統是不是更像個人，當然可以是個「非常厲害」的人，比如比一般人算的快，記得多。但是交互邏輯依然是朝著擬人化發展的。在這個前提下，現在的交互模式其實還是繼承了工業革命時代的作風，對著機器一堆按鈕試點擊，只不過現在有了觸屏，有了菜單等等。但是這種交互是有天然短板的，就是隨著交互邏輯越來越複雜，按鈕越來越多，要麼是採用樹狀結構增加深度，要麼是增加寬度，但是增加的越多，對用戶的複雜度越高，學習成本也越高。因為最開始的交互的輸入就不是一種人類習慣的方式，而是機器習慣的方式，所以這種瓶頸現在也越來越明顯，所謂極簡設計，不過是在不得已的情況下砍掉低頻邏輯，只保留主邏輯的一種妥協形式。

越來越複雜的現有機械式交互邏輯

但是語音交互的話，可以一步直達最終結果，中間就不會存在這麼複雜的交互邏輯了。比如拿現在的智能電視交互邏輯來講，想找一部XXX的電影播放，至少交互邏輯要經歷找到搜索入口，輸入名稱，選擇，播放等一系列主邏輯，更別提這些都是靠著上下左右加確定五個按鈕進行點擊輸入的，估計至少得點擊個二三十下吧。但是語音交互的邏輯只需要說「播放XXX」就可以了。

扁平的交互結構會帶來多少變化，從你要學習機器怎麼理解問題，到機器適應人類怎麼理解問題，這後面帶來的是所有地球人的鏈接入網的人口紅利和已經入網人群的深化紅利造成的場景革命。這是一個大趨勢，不會因為現在這個東西的體驗好不好而轉移。

語音交互的效果會很快得到優化

當然，很多人覺得現在Siri的價值也就是能調戲一下，起不到什麼太大的作用。那是因為現在這個趨勢才剛剛開始而已，等到你發現已經成型的那天，可能就已經遠遠超過你想像了，而且應該這個時間很快，不會超過兩年時間 #此處為2020年的flag~#

現在這種狀況是由於幾方面造成的：

現在的交互邏輯基本是語音轉文字，文字通過NLP技術轉機器命令，用機器命令與現有邏輯銜接。這個是為了快速覆蓋場景不得不過度的一個階段，因為長久以來，人們已經習慣了機器命令，所有的設計與介面都是按照機器命令來進行標準化集成的。但是只要場景鋪開了，語音直接交互邏輯就會很快成型的。
語音的輸入不止有字面含義，還有語音語調節奏語氣等等。現在的NLP技術比較成型的是直接轉文字，語音語調還在逐漸發展階段。但是使用場景豐富後，這類技術理論上比NLP的語義理解要快很多。

從以上幾方面來說，我覺得語音交互是一個大的趨勢，而且是會帶一波節奏的大趨勢。與其還在找語音交互在這個場景里沒意義，在那個場景里不好用，不如迅速體驗語音交互的場景，找到下一波的突破點的可能性，迅速佔領某一個場景。因為時間真的不多，估計真的2020年前就會非常明顯的~ #Flag已立，到時候看打臉程度吧#