Alexa估值近百億美元，AI巨頭為何在語音交互市場搶奪賽道？

01-28

本文轉發自《聲學在線》（Soundonline）, 作者袁媛

1、國內外巨頭相繼進入語音交互領域

去年10月份，Intel與科大訊飛宣布合作共同研發AI晶元，該晶元將麥克風陣列、遠場語音識別等功能集成到SOC當中，形成完整的遠場語音交互鏈條，此次合作正式宣告Intel也將進入智能語音交互市場。

此前，科大訊飛的麥克風陣列等硬體一直委託國內的全志科技研發，全志科技顯然是ARM陣營的追隨者。然而，根據Intel內部人員的透露，科大訊飛對於和國內晶元廠商的合作並不完全滿意，語音交互市場競爭激烈，而國內初創公司如聲智科技等，在麥克風陣列技術和方案方面帶給訊飛不小的壓力，這近一步促成了科大訊飛與國外晶元巨頭Intel的聯盟，希望與Intel聯合的晶元計劃從根本上扭轉這個趨勢。

今年2月份，百度宣布全資收購渡鴉科技，創始人呂騁攜團隊正式加盟百度，並出任百度智能家居硬體總經理，向百度集團總裁和首席運營官陸奇彙報。陸奇同時宣布原度秘團隊升級為度秘事業部，加速人工智慧布局。陸奇指出，憑藉語音與對話技術的優勢，百度在引領新一代人機交互平台上將擁有巨大的機會，自然語言和其他智能交互方式有可能出現在從手機到家居的每一個設備中。百度通告還顯示，百度高級總監景鯤和首席架構師朱凱華將擔任事業部的核心管理層。

而近日，據彭博社報道，華為在深圳有一個超過100名工程師的團隊正在開發語音助手服務，開發工作目前還處於早期階段。華為語音助手項目目標宏大，瞄準蘋果Siri、亞馬遜Alexa和Google Assistant。華為語音助手定位中文，面向國內用戶，在海外市場將繼續與谷歌和亞馬遜合作。

同樣，三星在語音助手領域更是積極布局，2016年10月份收購了Viv，同時以80億美元收購哈曼國際，隨後又聯合GPU巨頭英偉達投資SoundHound。SoundHound是一家致力於語音識別與搜索的初創科技公司，最初要服務是提供和音樂有關的信息。

Facebook 創始人扎克伯格也在2016年自己花費 100 小時完成了 AI 管家 Jarvis 的開發。扎克伯格及家人可用語音向手機或計算機下達語音指令，實現燈光、溫度、電器、音樂和安防設備的控制操作。Jarvis系統具備的學習功能可使其識別主人的偏好模式、學習新辭彙與相關概念。

隨著亞馬遜、谷歌、微軟相繼在語音交互設備上發力，市場已經看到了這一領域的無限潛力。語音作為人類交流最自然的方式，比文字和圖像更具天然的優勢。尤其是亞馬遜Echo的成功，把人們帶到了了無屏時代的門檻。日前，亞馬遜創始人貝佐斯接受專訪提到，Alexa已經成為亞馬遜的核心戰略之一，其估值可能接近百億美元。

而蘋果在這場戰爭中則另闢蹊徑，選擇從智能耳機入手。近日市場調研公司Slice Intelligence發布的美國無線耳機市場線上銷售情況報告也證實了這一點。短短的一個月內，蘋果AirPods就異軍突起佔據了美國無線耳機26%的市場份額。該報告顯示，AirPods發售前，無線耳機市場基本由Beats和Bose佔據主導地位；但在AirPods發售後，市面上前十大無線耳機品牌中，除了Bose的市場份額有所增長外，其他品牌地市場佔有率均不同程度地縮水，其中甚至包括曾經稱霸無線耳機市場多年的AirPods「同門師兄」Beats。

至此，幾乎國內外所有IT巨頭都相繼進入了語音交互市場，包括谷歌、蘋果、微軟、亞馬遜、Facebook、三星、阿里、百度、騰訊、華為、科大訊飛等等，國內也陸續出現了思必馳、雲知聲、聲智科技、三角獸、驀然、Rokid等創業公司，語音助手成為了非常火爆的話題，幾乎掀起了全行業研究亞馬遜Echo的熱潮。

2、語音交互市場趨勢和規模已被普遍認可

VoiceLabs近日發布了《2017年語音報告》（The 2017 Voice Report）。報告對亞馬遜Alexa和谷歌Google Home的開發者和消費者進行了調查，總結了目前的智能語音市場，並對2017年的趨勢做出預測。2017年，語音產業結構將按照硬體產品、AI軟體、語音應用Apps、生態系統服務相結合的架構繼續向前發展。預計2450萬台以語音為主要交互方式的智能硬體產品發貨，市場總量將達到3300萬台，市場規模超過200億美元。而對各種智能語音助手以及語音交互app而言，競爭將更加激烈。

亞馬遜於 2014 年底推出智能音箱 Echo，如今已成為美國使用最廣的智能家居產品。根據 CIRP的報告，自 2014 年 11 月發布到 2017 年 1 月，亞馬遜 Echo 系列（包括 Echo、EchoDot 和 Tap）用戶已達到 820 萬，同比增長 2 倍，較 2016 年 11 月時的數據增長 60%。而公司 2017 年的銷量目標是 1000 萬。銷量激增的背後是 Echo 正迅速從早期用戶的小眾圈子進入大眾市場。

從產品銷量，技術進展，到相關創業公司的興起，以及資本市場的頻繁運作，種種跡象表明，智能語音交互市場的趨勢已經明朗，語音是AI領域中最先落地的應用之一。這從電子技術發展歷程中也可參考類比，以語音為核心的電話是20世紀最偉大的發明之一，而其後相當長的時間才出現以視頻為主的電視，行動電話同樣遵循了這個規律。從物理層面來看，語音信號無論是從數據量還是計算量方面都低於視頻信號，這在趨勢剛興起的時候，更容易適用於遠未標準化的硬體體系，但是隨著技術的發展，多感測的融合仍然是根本趨勢。

3、語音交互的全球競爭態勢初顯

VoiceLabs 預測，亞馬遜或谷歌今年會通過類似手機上的推送通知來加強新應用的分發，並試圖解決用戶留存率低的問題，2017 年也將是語音應用貨幣化的起步元年。當智能語音助手充分了解「主人」需求之後，應有能力在合適的時間主動提示合適的應用，既提高用戶的使用價值，又解決了語音應用的分發留存問題。

從全球來看，亞馬遜Echo最著名也最有競爭力的對手當屬谷歌的Google Home。Google Home自2016年推出以來，一直與Echo明爭暗鬥，爭搶智能家居中樞的角色。通過亞馬遜和谷歌在美國「超級碗」投放的電視廣告就能體會到這種競爭的激烈，兩家不約而同地打出了溫馨家庭「懶生活」牌，突出產品智能管家的功能。

美國市場調查機構Slice Intelligence近日發布的一份報告，對在線購買Echo消費者的性別、年齡、購物習慣等特徵進行了統計。某種層面上，這意味著Echo在消費者眼中不再是只有極客和技術控才感興趣的「玩意兒」，而是獲得廣泛認同的大眾消費品。當電子消費品獲得了女性用戶的認可，並且呈現出女性消費者佔據市場購買主導優勢後，產品將逐漸成為成熟品類，並迅速出現銷量攀升態勢。

Google已經意識到與Amazon的差距，儘力通過收購等方式快速彌補這種差距。2017年1月初，谷歌宣布收購Limes Audio，並表示將會把Limes Audio集成到自己的視頻會議解決方案中，為客戶提供低成本、高質量的音頻體驗。「 Limes Audio總部位於瑞典於奧默，成立於2007年，業務重心為提高雙向語音通話系統的語音質量。Limes Audio專註語音信號處理，該公司開發的TrueVoice音頻軟體套件通過回聲消除、環境降噪及自動混音等技術，改善通信中的語音質量。」

反觀國內，類似Echo的產品始終沒有吸引到消費者的眼球，一般來說，國內相比國外市場有6-18個月的延後，但是以國內的技術水平來看，可能需要的時間更長一些。國內在語音助手方面的布局略顯不足。科大訊飛雖然從技術鏈條上最為完善，也推出了類似Echo的叮咚產品，但是市場反響一直沒有達到預期。

百度、阿里、騰訊、360也極大投入做了布局，但是技術鏈條仍不完善，產品和服務始終沒有很好的落地。即便在技術環節，國內活躍的創業公司相比國外也少了很多，語音識別領域主要還是雲知聲和思必馳，NLP領域主要是三角獸、驀然、竹簡等，而融合語音感知和語音識別主打底層邏輯的創業公司還僅有聲智科技一家，顯然技術也制約了國內智能音箱的產品進度。

還有一個值得關注的消息，華爾街日報援引消息人士的說法，亞馬遜和谷歌都在研究為其智能音箱增加語音通話功能，該功能預計將於今年推出。如果這一計劃能夠成功實施，無疑將進一步提升智能家居的體驗。

4、語音交互將會帶來哪些根本性變化？

從當前Amazon、Google、Apple的市場實踐來看，智能語音交互至少在三個領域帶來了根本性的變化：

智能語音交互將改變音樂分發的格局

音樂行業是亞馬遜還沒有征服的一個領域，亞馬遜早期在CD零售上的領頭羊地位因為MP3盜版的影響而不復存在。在音樂數字下載的年代，亞馬遜在音樂銷售上被蘋果的iTunes商店超越。在2005年亞馬遜進行過一次音樂流媒體的內部嘗試，但是在產品正式發布前就被叫停了。這給市場留下了一個空白，而現在這個市場被Spotify和Apple Music佔據，它們各自有著4000萬和2000萬的用戶。亞馬遜為了抓住更多耳朵的最新嘗試是在2016年10月發布的Amazon Music Unlimited，這是一項基於訂閱的流媒體服務。

亞馬遜的數字語音助手Alexa將會是決定Amazon Music Unlimited能否成功的關鍵因素。Alexa使用的精巧的語音識別演算法在過去幾年中逐漸成為了行業中的領先技術。得到這樣的領頭羊地位後，貝佐斯努力嘗試將Alexa推向更多的應用領域最開始是通過它的亞馬遜Echo音響設備，而後又把Alexa集成在小型化後的Echo Dot中。Echo Dot一舉成為了亞馬遜在過去一個假期中銷售表現最好的產品。貝佐斯的狂熱也傳染給了音樂行業，許多音樂節的高管們都對這些設備讚不絕口。

蘋果由於意識到Siri在遠場技術與Alexa的差距，選擇以近場語音交互為主的AirPods智能耳機為切入點發力，相比音箱，耳機的利用率更高。所謂的智能家居，總是寄託於「家」的。一個家庭或許只需要一台智能音箱，但耳機則是更個人化的物品，每個家庭成員都可能擁有不止一副耳機。而且，耳機作為一種已經被廣泛接受的可穿戴設備，有更多更自然的應用場景。耳機的便攜性使其更有潛力成為一種「無縫陪伴式」的智能產品。AirPods最為核心的功能也是利用Siri增強蘋果音樂分發的能力。

從亞馬遜和蘋果的實踐角度來看，Alexa成為了音樂分發的重要渠道，這對於國內仍然在困境之中的在線音樂行業是一個值得深入思考的事情。

語音交互將會成為下一代搜索的核心

毫無疑問，通過語言交流獲取知識是人類最有效的學習方式。搜索從PC時代的搜索框到移動時代的APP，其實都是在向著精準搜索的方向發展，而語音交互天生就有這兩種優勢。從Amazon Echo和Google Home的用戶群體分析，小朋友更是喜歡這種知識學習方式，而習慣就是這樣逐步被改變。Google是最早認識到這一點的巨頭，典型的舉措便是把最有現金流的Google搜索納入到母公司Alphabet中。

語音交互可能會改變社交領域的格局

國內外社交領域似乎很難再有新的變化，但是隨著Amazon Echo和Google Home的崛起，用戶已經強烈建議增加語音通話功能，蘋果的AirPods顯然天生就具有了通話的功能。這就產生了一個問題，Amazon和Google會接入現有的社交軟體嗎？蘋果是不是也要通過AirPods繼續強化自家軟體的社交能力？至少，這也是值得國內各大巨頭深入思考的問題。

5、語音交互技術和市場還有哪些不足？

國內普遍不太看好智能語音交互市場的原因其實很簡單：體驗不好，市場還早。的確，當前的語音交互技術，特別是遠場語音交互技術還沒有完全成熟，就連Echo至多也就是80分的水準。這主要是由於語音交互涉及了非常複雜的技術鏈條，包括了聲學處理、語音識別、語義理解和語音合成等核心技術。

聲學處理主要是模擬人類的耳朵，保證機器能夠聽得准真實環境下人的聲音，語音識別則是把聽到的人聲翻譯成文字，語義理解則分析這些文字的意義，語音合成就把機器要表達的文字翻譯成語音。這四項技術雖然獨立發展，但實際上無法割裂，同時在其他技術的配合下，才能形成一次語音交互的完整鏈條。

從當前的技術水平來看，這四項技術已經達到了商業初級可用的階段，但是距離我們滿意還應該有3-5年時間的距離。即便是被國內幾家公司號稱最為成熟的語音識別，其實也處在近場到遠場的技術升級期。

以Siri為代表的近場語音識別已經發展了60多年，特別是在2009年以後藉助深度學習有了實質性提高，但是正如扎克伯格所說的，當真正產品落地的時候，我們發現用戶真正需要的卻是類似Echo所倡導的遠場語音識別。顯然，這又是一個嶄新的技術領域，因為拾音距離的擴大帶來的問題不僅僅是語音信號的衰減，而且還帶來了複雜的真實環境以及複雜的用戶習慣。

以Siri為代表的近場語音識別要求必須是低雜訊、無混響、距離聲源很近的場景，比如用戶總是要對著手機講話才能獲得符合近場語音識別要求的聲音信號，同時還要求用戶滿足標準發音，其識別率才有可能達到95%以上。但是，若聲源距離距離較遠，並且真實環境存在大量的雜訊、多徑反射和混響，導致拾取信號的質量下降，這就會嚴重影響語音識別率。同樣的，我們人類在複雜遠場環境的表現也不如兩兩交耳的竊竊私語。

通常近場語音識別引擎在遠場環境下，若沒有聲學處理的支持，比如麥克風陣列技術的適配，其真實場景識別率實際不足60%。而且，由於真實場景總是有多個聲源和環境雜訊疊加，比如經常會出現周邊雜訊干擾和多人同時說話的場景，這就更加重了語音識別的難度。因為當前的語音識別引擎，都是單人識別模式，無法同時處理多人識別的問題。

遠場語音交互技術正在逐步成熟，Amazon通過Echo已經證明了遠場語音交互已經邁過用戶可接受的門檻，而國內的科大訊飛和聲智科技也在發力這個領域。

從市場層面來看，語音交互毋庸置疑是繼鍵盤、滑鼠和觸摸屏之後的主流交互方式，但是距離真正走入國內市場還總是差那麼一點。技術鏈條僅僅是其中一個小部分原因，從戰略認知、資金投入到需求挖掘，國內公司都欠缺了很大的火候，而國內各大巨頭更應該在戰略決心和技術鏈條上發力。智能語音交互的全球競爭之中，國內的AI巨頭似乎才剛剛蘇醒。