距離語音交互技術的更大範圍應用,還差點什麼?

上一次大家對語音技術有這麼濃厚的興趣還是在幾年前,關注的對象是手機上的語音助手,如 Siri、Google Now 等。一開始大家對這種語音對話的形式感到很有趣,但嘗試一段時間後發現,除了讓它講個笑話以及偶爾調戲一下逗逗樂子以外,再也想不到要喚醒它幹嘛。終於,大多數人都漸漸遺忘了這個停留在角落裡的虛擬語音助手。

這一次,一個新的帶有語音交互功能的產品再一次引起了人們的注意,並在實際體驗兩年之後仍然興趣不減、好評不斷,這款產品就是 Amazon Echo。如果要用一句話來概括描述它,可以說它是一款「能聽懂你對它說的話並在一定程度上給以有效反饋的智能助手」,如果浮誇一點宣傳或者更好理解,可以說成它是真實版的的賈維斯(《鋼鐵俠》里的 JARVIS)。

國內目前還沒有一個相對比較成功的同類產品,所以不太清楚國內用戶怎麼看待語音交互技術以及會不會喜歡這類產品。有一些分析類的文章很正經地解釋說,由於東西方的文化差異,這類產品在國內比較難流行開,因為我們比較含蓄,不太喜歡這樣直接地和一個硬體產品進行語音對話。這顯然是想當然了,西方的扎克伯格(Facebook CEO Mark Zuckerberg)表示,他在某些情況下也不喜歡使用語音給他自己開發的人工智慧助手賈維斯下指令,因為缺少秘密性以及會打擾到別人等。

可見在「跟機器人對話」這件事上無論東方西方大家都是一樣有心理「障礙」,關鍵在於正確認識到「語音不是萬能的」,找對語音的應用場景並且把使用體驗做到最好,對語音技術的應用普及會有很有幫助。

所以 Echo 是怎麼做的?

據彭博社的報道,Echo 團隊最初在設計的時候並沒有考慮主打音樂功能,只是在內測的時候發現,大家常用的功能是用語音搜歌,所以就加強了音質方面的特性,把產品的體積做大了。而在之後,一個工程師嘗試著把語音功能接入智能硬體的控制,更加深受用戶喜歡,成為引爆銷量和好評的一個刺激因素。

具體大家都用 Echo 來幹嘛呢?可以在 Amazon 的官網上找到很詳盡的很用心寫的評論和使用感受,例如——

「只要叫一聲她的名字然後說出我們想要做的事情,Echo 都能用一種很美妙的聲音即時響應然後幫你完成,無論你是坐在客廳還是在屋裡走動著,她一直在那裡準備著聆聽。」

「我會讓她幫我在 Amazon 上下訂單購買東西、查詢天氣和我的日程安排,調節室內的溫度」

「Alexa,這首歌是誰唱的?點贊,下一首,暫停播放,播放 Awolnation 的 Sail,把這首歌添加到我的播放列表,播放我 Spotify 里的某某播放列表」

「尤其是當你在廚房做飯的時候,你就可以直接讓 Echo 幫你下訂單要買的東西,再也不用擔心忘記要買什麼東西了」

「我不用再擔心忘記重要的事情了,她會提醒我吃藥,提醒我待會去看醫生」

「早上醒來跟 Alexa 說早上好,她會說,早上好,今天是 Danny 的生日,記得準備禮物~」

「每天會讀我選定的新聞簡報給我」

「幫我朗讀我 Kindle 里的所有書,不是機器的聲音,聽起來很舒服」

Echo 能做的事情越來越多,包括音樂搜索和控制、控制智能硬體、設置鬧鐘、查天氣、查百科、設置提醒、讀新聞、日程提醒、語音購物一鍵下單並支持查詢物流狀態……等等各種豐富且實用、使用體驗很贊的功能。

之所以深受喜歡可能有這幾個原因

1.合成音比較接近人聲,不是突兀的機器聲,聽起來感覺很舒服;

2.技術足夠好,系統能快速響應,不用說一段話之後傻等著;

3.數據全且更新即時,總能提供令人出乎意料的服務。

其實兩年前,國內就有類似的嘗試,比如「小智音箱」,核心功能同樣是音樂及智能家居控制,但不是很成功,其聯合創始人李傳豐曾分享過這樣的思考為什麼中國市場無法誕生Amazon Echo?

總結一下,大概有這些因素:

1、在國內,音頻產品的價格80%在200塊以內,超過500塊的產品月銷量很難超過一萬台。

2、語音交互要做到好的使用體驗,快速響應是最根本的需求,其他如合成音的質感、更全的數據和演算法,要做到這些成本低不了;

3、國內音樂版權集中在幾大巨頭手中,對於創業公司來說,很難做到用戶想聽什麼就有什麼,進而影響用戶體驗;

4、國內玩智能硬體的本來就不多,廠商和品牌倒是挺多,除非你自己做到足夠牛逼,否則沒人願意跟你合作

5、需要一段很長時間都看不到收穫的技術積累期(Echo 用了三年多時間)

如今兩年過去了,以上提到的這些狀況似乎並沒有多少改變。雖然人們在逐漸接受語音輸入這種形式,開始有更多的人在嘗試使用語音輸入法,但在國內「語音交互」這種和機器進行對話的形式看似還比較遙遠。

比如,目前來看,比較適合用語音交互的兩個場景——車內導航和智能家居領域,已經有很多支持語音交互的產品,但是真正使用的人很少。

產品的設計是很理想的——坐到車上系安全帶的時候順便說一句「導航到XXX」,然後開車就出發了,但事實是,人們寧願掏出手機打字;在智能家居的宣傳中,有很多智能場景對大多數人來說無感的,「這些智能場景看起來很贊,但我不知道對我有什麼用」或者說「這些場景看起來離我的生活很遠」 。比如「說句話就能開燈」這對用戶會有多大吸引力?以及,對於大多數人來說,好像生活還沒有忙到需要一個「智能助理」來幫助做日程管理。

因此,語音交互技術在推廣上或許還要首先找到最適合的用戶群和真正有價值的使用場景。比如,對於語音操控的宣傳似乎要再弱化一點,一方面是因為目前在國內可以稱得上智能家居的智能硬體在國內並沒有很普及,另一方面語音操控在實際生活中真正使用頻率可能沒有那麼高(Facebook 的 CEO 扎克伯格也分享過這方面的體會)。舉例來說,「在門上加一個感測器、回到家打開門的瞬間燈就會自動開啟」這個功能比「回到家對著空氣喊一聲開燈」顯然體驗要更好一些。

而在語音問答內容的提供上,應該是一個非常複雜而龐大的工作量。據 Amazon 創始人 傑夫·貝索斯 2016 年在 Recode 大會上透露,Alexa 和 Echo 的研發團隊已經超過了一千人。可見要達到讓更大範圍人群滿意的效果,針對不同人群的各種細分領域,需要很長時間的積累。

音樂、電台、有聲讀物、訂閱領域的新聞等,是語音交互類產品最適宜輸出的內容,也是看似可以培養起來的用戶習慣。早間起床洗漱到出門上班和晚上睡前的這兩段時間,是智能音箱最有發揮空間的時間段。對於語音搜歌的形式,前幾年有一款產品叫 Jing,可以通過「自然語言」搜歌,是一款非常受歡迎的小眾產品,可以直接用語言描述來搜索歌曲,如「今天陽光很好」、「外邊下雨了」、「我在閱讀」「想聽西方古典輕音樂」等,個人覺得這是可供參考的一個模型。

除了場景和用戶群以外,最為關鍵的還是語音技術本身。比如要做到快速響應、遠場精準識別等,這是良好用戶體驗的根本,但應該也是門檻比較高的事情,需要足夠的技術積澱。Echo 實現了一秒內快速響應,使用熱詞喚醒之後基本不用再等系統響應就能直接繼續對話,這也在一定程度上避免了和機器進行語音交互的尷尬。

但另一方面,智能音箱以及相應領域的產品,也絕不是技術制勝的,考驗的是團隊對場景的把握及運營能力。畢竟它並不是一個可規劃的單一功能,也不是一家公司所能完全覆蓋得了,而更像是一個宏大的「生態」,有賴技術應用領域的全面發展,互為依託,如物聯網、智能家居應用的普及,各類內容源及場景規劃的合作等。

期待好產品。


推薦閱讀:

在日本學造機器人是怎樣的經歷?
深度加強學習(Deep Reinforcement Learning)在計算機視覺領域的前景如何?
人臉識別的下一挑戰:識破蒙面人
「命理「周易」的系統,是一種語言還是一種程序呢,在未來可否會被人工智慧代替?
如何評價在計算機主導的經濟環境里行為經濟學的意義?

TAG:人工智能 | 语音助手 |