智能語音產品要怎麼做?
問:你覺得智能語音未來會對交互有著怎樣的影響,會不會取代 UI 交互嗎?
答:智能語音是未來的趨勢,我們現在已經開始使用語音交互。
在一次機器人交流會上,我向一位來自優必選的演講人提了上面的問題,但我並沒有得到想要的答案。智能語音的未來會是什麼樣子,怎麼用智能語音做出好的產品呢?我一直在不斷地嘗試各種產品,不斷地思考。
試驗
我找到所有涉及智能語音的相關產品,都挨個體驗了遍。智能手錶,智能音箱,智能機器人。還有手機上的各種助手,像蘋果的Siri,Google的 Allo,微軟的 Cortanna,助理來也。這些產品有硬體的,也有軟體的。終端有 PC,手機,手錶。系統平台又有 mac,android,iOS等等。
第一次使用上面的產品並不自然。就像第一次使用觸摸屏手機,沒有鍵盤,很不適應,特別是打字。缺少按下去的實體感覺,會讓人覺得觸摸是個很生硬的操作。還好,手機提供按下震動反饋功能。慢慢適用後,不需要震動也可以的。而相對觸摸操作,智能語音是一種更前沿的交互方式。
觸摸操作縮短了按鍵操作交互路徑。在手機沒有觸摸功能之前,想要點擊某個按鍵時,得先把焦點移動到目標位置。有了觸摸功能,一個手指頭戳過去就行了。那智能語音相較於觸摸操作會不會也有同樣的意義呢?觸摸操作是基於 UI 的,將屏幕作為載體。智能語音則不需要界面,沒有邊界。
換句話說,智能語音突破 UI 交互的層級,直達目標功能。好比說,以前你去政府機關辦個證件,你得按流程路徑走,先去 A 部門蓋個章,再拿這個章去 B 部門蓋個章,等你集完所有章,就可能兌換最後的卡片了。每個部門都得跑,跑錯了就辦理不下來,不熟悉的人跑下來暈頭轉向的。現在呢,下個 App,按要求上傳幾張電子證件,等個幾天,證件就辦好了。嗯,還包郵。中間,你不用跑一個部門,也不需要知道先跑哪個部門,再跑哪個部門,一個操作就搞定了。語音就類似這樣,以前要幾個界面點擊,現在就是一句話的事兒。
體驗
上面是我對智能語音意義的理解。但目前真正在應用階段,並不理想。這裡面有諸多原因,我認為主要是兩方面的限制:
語音識別可靠性。16 年 11 月份的時候,科大訊飛開了個發布會,宣稱語音識別的準確率達到 97%。而同一時間,百度,搜狗也開了發布會,準確率也達到 97%。這個準確率對於商用的意義有多大呢?我做的有個機器人的項目,機器人可以跟用戶聊天對話。機器人語音識別的技術就是採用科大訊飛的。我們在公司測試的時候,搞個簡單的一問一答對話都沒問題。你問機器人,今天天氣怎麼樣?結果很快就能出來。當我們拿到房地產售樓處,效果不理想,並且跟預期的差距是沒有預料到的。
在公司測試的時候,會有雜音,整理環境不算安靜,時而有人說話。當時,覺得這種測試環境不算理想,雖然偶爾有錯誤但也能接受。售樓處環境不一樣,因為營銷需要,一直有電視播放營銷視頻。就算沒有人說話時,機器人也會識別這些聲音。這時候要是有人跟機器人對話,機器人根本無法準備識別說話的內容。人多的時候,售樓大廳里時刻都有人說話,一喚醒機器人,機器人就在那裡嗚哩哇啦了,說一些莫名奇妙的話。因為它識別出的內容都是亂七八糟的。
當然,你也可能說這是場景的原因。在家時或者車裡就沒這麼糟糕了,這是應用層面的問題。如果語音識別不能在技術上解決可靠性的根本問題,那它的應用領域和範圍也大大受限制了。這裡面需要解決的問題也很多,多個人同時跟機器人說話時,要區分好不同人說的話。張三說了哪些話,李四說了哪些話?如果有背景噪音,甚至是人說話的噪音,都要能夠去掉。
語義理解。如果只是單純地解決語音識別可靠性問題,也就是聽得清的問題,並不能稱得上智能語音,智能語音還要解決聽得懂的問題。只有聽得清,聽得懂,才能知道要做什麼事情。
你對機器說,我要吃蘋果。蘋果是什麼,它不知道。所以你得告訴它,讓它學習,有明白蘋果的能力。蘋果可以是一種水果,可以是一部電影,還可以是一個品牌。那蘋果到底是什麼呢?如果你告訴機器,只有代表水果的那個蘋果才能被吃。那機器就能準確理解你說話的意思,知道你的意圖了。做到這一點,就能讓機器明白聽得懂你說話的內容。
在語義理解領域,相關技術成熟度是遠不如語音識別的。要等到語義理解足夠成熟還是需要很長的時間。現在有第三方開放的自然語言理解介面,像 Google 收購的 api.ai、百度的 UNIT。你可以利用它們開放的 API 來讓你的產品有一定的理解能力,改善你產品的交互體驗。接入的過程就像教一個小朋友不斷地學習新的知識,不停地寫各種表達式,餵給機器,停不下來。你能積累多大的知識庫,就看你能寫多少。想寫得多,那就堆人力唄。有多少人工就有多少智能,所以人工智慧。傅盛講做小雅智能音箱時說了,像「上一首」、「再來一首」的指令泛化都是靠人工的。
業務落地
Siri 剛出來那會,用戶期待很大,媒體說這是喬布斯劃的一道光,是未來的趨勢。以後想要做什麼事情,對著手機講一聲就好了。後面很多公司也出了類似的語音產品:出門問問,蟲洞,搜狗語音助手,百度語音助手。 大部分產品做了一兩年後都停了。現在只剩下大公司在玩了,蘋果的 Siri, Google 的 Allo,微軟的 Cortana,百度的度秘。
從 2012 年算起,Siri 出來有 5 年多,身邊沒見有一個人用。前幾天,跟一個做智能語音的朋友交流,他問了兩個問題。
你覺得 Siri 做得怎麼樣?怎樣做得更好?
Siri 必須要做得更好,12 年出來的產品,到現在,並沒有太大的進步。而 Amazon 智能音箱作為後起之秀,卻開拓了新的領域。正好有新聞說,Siri 也要換新掌門人了,以前一直都是 Eddy Cue 負責,現在改為 Craig Federighi 負責。蘋果肯定也是想將 Siri 與 iOS 和 macOS 做一步融合,突然對 Siri 也有了很大的期待。
Siri 要想做好,先得從入口著手。蘋果給了 Siri 快捷入口,但知道的人不多,長按本身就是一個較深的操作。知道的人呢,體驗兩三次就不用了。與同類產品相比,Siri 在很多方面都需要做改進。
適時的引導。Siri 是新產品,學習新的東西就有成本。不像一般類型的產品,有明確的功能,用戶很容易在短時間內建立起產品的認知。用戶對 Siri 的理解是,它很厲害,什麼都知道。但你稍微問一個偏門的問題,Siri 就傻傻不知道了。要讓用戶理解智能助手幹什麼,你需要在合適時間告訴它。
明確的功能界線。Siri 需要給用戶划出明確的界線,讓用戶知道它可以做什麼,哪些事情做得比較好,哪些是不擅長的。但不要簡單給出提示:「你可以這樣問我:xxxx」。
友好的互動。做智能助手,肯定不能一直沉默在後面,不然就淪為工具,只能等到我需要的時候才想起你。而實際上,Siri 沒有一個聚焦的功能,用戶很少會想得到如何使用它。像Google Now,Cortana 就比 Siri 好得多,這種互動是雙向的。即時的互動提醒,根據詢問內容給出多種樣式回復:有圖片,有文字,甚至猜測你的意向來給出相關問題。另外還有待處理事務的卡片式提示。
如果讓你來做語音,怎樣做好智能這個點?
智能的本質是做好兩件事情:預測和建議。
從用戶角度來講,智能就是我做完第1步,你知道我第2步想做什麼。而不是說我讓你做1件事情,你就按照命令去做這件事,這叫功能。比如說,你對 Siri 說,明天早上 7 點鐘叫我起床。Siri 就幫你定好了鬧鐘,但這沒有什麼智能可言。
就目前技術,我們不可能做得很智能,預測某支股票是漲還是跌。在一定範圍內是可以做一些事情的,已經有些產品做得比較好。你對 Cortana 說到沃爾瑪附近的時候,提醒我買牙膏。Cortana 會問你哪個沃爾瑪?你說哪個沃爾瑪都可以。等你到沃爾瑪的時候他就會提醒你買牙膏。Google Now 也是一樣,你到了上班的時間沒有走,它會提醒你不要遲到了。下班時間到了,它會告訴交通狀況怎麼樣,開車回去需要多長時間。這中間我並不需要標記上班的地點,住的地點。Google 會收集我的軌跡,然後自動標記出來。
上面的的預測和建議都是建立在數據源基礎之上。通過收集用戶的行為數據來判斷你的生活習慣,意圖,情緒等。這些數據可以來自:Email,網頁瀏覽歷史,日曆,位置,簡訊,其它第三方的App。但不是所有人都願意把自己的隱私開放出來。
推薦閱讀:
※設計 | iPhone的鬧鐘不能自動停止,是明智還是弱智?
※如何有效增長用戶,AB測試在產品中發揮的6個關鍵點
※讀書筆記-啟示錄:打造用戶喜愛的產品
※如何將產品做到極致,分享我的一些感悟(上)
※十分鐘讓你看懂「共享經濟」到底是什麼?