車載語音交互：從「花瓶」向「剛需」過渡

05-02

經過多年的漸進式發展，語音交互的價值正逐步走出單純「控制方式」的狹隘理解，向業內人眼中的「大連接」階段過渡。作為被連接的核心硬體之一，車載語音交互平台的爭奪戰近年來也正式進入白熱化，各方勢力頻頻出招，全球市場風起雲湧。前有亞馬遜、Nuance、Google等國際巨頭，後有科大訊飛、百度、思必馳及雲知聲等國內廠商，通過攜手全球各大巨頭車企，共同推動車載語音交互從「命令式」、「自然式」向「主動對話式」時代全面進擊。

「網聯化+智能化」大勢下語音交互搭上「順風車」

早在2017年CES，我們就切身感受到了車載語音技術的火爆。作為語音交互領域的領頭羊，亞馬遜頻頻出招，成功在福特、大眾、現代、寶馬、日產等全球多家著名車企旗下量產車上實現Alexa的商用，而且2018年的CES上亞馬遜又獲得了豐田、拜騰以及Jeep三家車廠的鼎力支持，Alexa的陣容空前。作為其強力競爭對手，谷歌也毫不示弱，依託自家車載系統Android Auto的高搭載率優勢，近日谷歌也正式宣布將旗下語音助手Google Assistant通過系統升級來大規模推送到福特、通用、日產、大眾及沃爾沃等40多個品牌的400多款車型上，誓與亞馬遜死磕到底。

視線轉向中國，作為全球汽車保有量最大的國家，國內語音交互戰場的競爭也十分激烈。早在去年CES，百度就首次發布了對話式人工智慧操作系統DuerOS，目前已經實現在車載場景的應用；科大訊飛的語音合成技術也於2017年成功實現了量產化，並與大眾、北汽以及沃爾沃等多家大型車廠都展開了合作；此外，思必馳也推出了升級版AIOS對話操作系統，雲知聲也發布了技術引擎3.0版本並開始切入後裝市場，而且出門問問與大眾中國成立了合資企業，將其語音識別、自然語言處理、垂直搜索和主動式搜索技術逐步下沉到車載硬體上，實現設備「大連接」的構想。

「2018全球自動駕駛論壇」上，科大訊飛智能汽車事業部總經理劉俊峰就指出：「近年來，國內的汽車保有量市場增長十分迅速，目前已經超過了2億台。預計未來三年，中國汽車產銷量將保持7%左右的複合增速，2020年有望突破3000萬輛。2016年，上市新車車聯網的配置比率已經從16%增長到了2017年的21%，以中國前裝市場的配置數量來計算，2017年大概有200多萬輛車具備了聯網功能，且前裝市場語音交互的裝配量達到260萬。而且，隨著汽車網聯化的進一步深入，交互模式上也一定會向語音方向轉變，更多一些服務的連接和一些交互方式的出現，都是為了滿足從智能車到聯網車向多樣化的模式上過渡。」

而從市場銷售的角度來看，近年來搭載語音交互技術的車型在銷量上也表現不俗。以奇瑞及榮威為例，這兩大品牌的旗下多款車型都分別搭載了「Clouddrive2.0智雲互聯車載系統」以及「Yunos for Car」等具有語音交互功能的系統，數據顯示奇瑞的艾瑞澤5自上市以來，每月銷量過萬（價格不到10萬），而榮威RX5推出3個月銷量就突破了2萬台以上。

武漢聲雲智能信息技術有限公司研發總監陳盛林

對此，武漢聲雲智能信息技術有限公司研發總監陳盛林認為：「2017年，我國乘用車銷量已經達到2438萬輛，預測未來可能會有三分之一的新車將裝備語音識別功能。雖然這個市場每年只有10億，但巨大機動車保有量背後的運營服務市場會高達數百億甚至更高，而車載語音識別技術就是進入這百億市場的鑰匙，是實現各大車載設備『大連接』的根本基礎。目前，由於前裝市場風險較高，傳統汽車廠商在變革中存在著周期長、帶入慢、檢驗慢等因素，冒著高風險切入前裝市場有點不太實際，因此我們的主要市場還是後裝領域，而前裝車廠涵蓋上汽、北汽、廣汽、吉利等國內主流廠商，其中不少項目已經實現大規模出貨，2018年開始也會有多款搭載我們語音交互系統的新車型陸續上市。」

軟硬兼施共克瓶頸商業化之路仍荊棘載途

不過，受制於當前車聯環境複雜、硬體配置參差不齊以及行車網路不穩定等因素，目前整個市場對語音系統的內存CPU消耗和網路處理能力的要求極高。而且，汽車是個難度很高的環境，其中的噪音、回聲的干擾非常大，對識別技術來說是一種極大的挑戰。有不少用戶反映，目前車載語音識別從準確率來看還是差強人意，尤其是雜訊情況下，因為車內雜訊和一般環境周圍雜訊還是有很大區別的，需要錄製行車過程中交互的音頻並標註，這就需要耗費很大的人力物力；另外，車內有些語音功能還需要用喚醒技術，其中的喚醒虛警率與誤判率也比較難控制，尤其是在充滿人聲的雜訊情況下，從而導致用戶體驗大打折扣。

對此，有業內人士表示：「針對諸如車載這類的嘈雜應用場景，目前晶元處理速率、識別率、預置方案匹配度〈演算法〉、麥克風陣列、伺服器、電源、結構件、揚聲器等反饋組件，各家的組合優化程度參差不齊。而就語音交互本身而言，當前最大的問題是如何通過軟硬體的設計提升系統的抗噪能力。比如演算法方面，乾淨環境（SNR較大）下，每種音素的數據分布比較穩定，即使有雜訊其導致的誤差也並不大，現有的演算法模型就足夠進行完美分類。但是，在嘈雜環境下（SNR較小），雜訊種類千變萬化，導致每種音素的分布在各個方向偏移較大，因此數據分布變得十分複雜，這就需要設計更為複雜的分類器演算法，比如目前用的比較多DNN演算法。不過，隨著分類器的複雜化，演算法開發成本也會隨之進一步提升，甚至最後還不一定能很好的實現對雜訊和有用信息的區分。」

而在硬體方面，目前主流的方案是採用多麥克風陣列技術來採集多個信號源的信號並綜合分析出雜訊和語音，從而實現信號分離以及語音增強的效果。陳盛林解釋到：「面對行車過程中的車外胎噪、風噪，車內空調聲、引擎聲等行車環境噪音，多麥克風陣列的設計宗旨是精準拾取說話人的語音信號、抑制雜訊和混響、對殘餘的車載噪音進行進一步處理，從而準確識別司機語音。由於麥克風陣列需要根據聲音到達的時間差來計算出聲源與陣列模塊之間的角度和距離，從而實現對目標聲源的定位與跟蹤，並利用麥克風陣列的空域濾波特性，在目標說話人的方向形成拾音波束，僅拾取波束的信號，抑制波束之外的雜訊和混響(反射聲)。因此在硬體設計上，麥克風陣列的定向設計、角度以及陣列中麥克風的數量配置就顯得至關重要，比如麥克風的數量越多定位的方位就能夠做的越窄，因此所受到的干擾也就會越小，而定向設計的好處是能夠讓硬體系統準確的識別到某個特定方向傳來的聲音，而當其他方向出現的語音命令輸入源干擾並不會對該方向造成影響。」

具體來講，陳盛林補充到：「由於車子所處的環境噪音會隨著車速、路段、路況、空調、乘客及音響等各種因素不斷改變，而背景降噪演演算法不易解決時時變動且突發性的聲音，所以我們在車用語音智能產品在硬體設計上會著重在一些細節方面進行升級，例如採用兩顆以上的麥克風陣列，以進行較佳的背景降噪演演算法；或採用訊噪比較高的麥克風，最好是SNR 58dB以上。其次，把麥克風置於離駕駛嘴巴最近的位置，如方向盤附近；但同時又要盡量縮短麥克風線材至主機的距離，且加強線材隔絕性，以減少外來的雜訊。最後，則是加上迴音消除、背景降噪以及麥克風自動增益等三種功能，來幫助提升語音辨識率。」

此外，在商業化的進程中，現有的技術想要成功下沉到產品上也並不容易。陳盛林強調：「實際上，現在的很多功能不能被實裝，並非是技術不到家，而是受限於成本、產品定位、研發周期等等一系列因素。就說麥克風陣列，麥克風的數量是越多越好，在車上裝成一個球形，360°檢測的識別效果是最好的，但是在實際的應用中要考慮成本問題，這些問題是需要方案設計者深入使用場景，提出合理的解決方案的；另一方面，就是目前車機的平台並不是一個開放的平台，既不是安卓的開源，也不是蘋果的封閉生態，很難在既定構架上簡單地進行功能的增減刪改，很多時候，一個更新換代，可能要做的工作是從頭再來；再者就是方案商與車企之間需要很多配合，如果車企已經有一套完成的車載系統，那麼需要對語音識別的應用打開介面，打開介面之後可能會發現介面無法直接對接，需要進行更改，而這個更改是否能被執行，要看汽車製造商的集成能力，以及對這套車載系統有多少期待，即便車企沒有這套系統，或者要開發一套新的系統，雙方在產品理念需求的定義上，也需要深度磨合。」

「AI+」賦能：主動式、多模態對話時代來臨

誠如上述，語音技術實現大規模車載化應用的確是荊棘載途，但這並不能夠阻擋全球各大車企與語音技術巨頭推動車載語音交互技術全面商業化的激情。隨著2018年新賽道的正式開啟、L2半自動駕駛時代的到來，加之AI軟硬體技術的縱深發展，未來幾年車載語音交互技術也將向多模態、主動式及精準化交互的目標更進一步。

對此，陳盛林表示：「事實上，目前車載語音交互整體上還處於初級試商用的階段，且市面上可見的大多數車載語音技術實際上並不成熟，在用戶體驗上還做的不夠好。不過，技術從單一模態到多模態（多種交互方式結合）方向、被動交互到主動交互（機器主動與人交互）方向轉變的勢頭仍然不會改變，且隨著越來越多的智能化量產車發布以及AI演算法技術的出現，我們認為從2018年開始車載語音系統的設計趨勢將更多的會去強調用戶體驗，技術上會採取更為精細化且定製化的設計模式，比如會藉助聲紋技術來傳遞個性化生物信息（識別男、女、老、幼），讓深度用戶更『有效』達到目的。」

另外，為更好的滿足用戶的高體驗需求，應用AI演算法技術對後端雲平台的篩選功能進行智能化也是另一大發展方向，陳盛林進一步補充到：「從避免炫技式的多輪對話以及反覆糾正，到推行特定場合免喚醒操作以及高精度自然語義理解等，無一不會用到當前的主流AI語音演算法比如DNN演算法，只是想要達到消費者的要求還有一段距離。而更進一步的話，可能還需要做更精準的語音交互反饋、符合高精定位的快速反應以及超視距、更精準的預言能力，並基於動態場景及用戶數據提供類似於目前新聞和廣告行業的那種個性化服務及個性化信息推送等。」