小鵬大講堂|淺談智能汽車的語音交互

08-01

小鵬大講堂|淺談智能汽車的語音交互

9 人贊了文章

無論是互聯網為時代，還是移動互聯網時代，都是GUI交互為絕對主導，但隨著AI的興起，新的交互方式也隨之熱門起來。完善的智能交互，應該是多模態的，例如語音交互、手勢交互，甚至通過眼神完成交互。對於當前階段的智能汽車來說，天生就適合語音、手勢等操作方式，而語音交互則更成熟，讓駕駛員可以雙手不離開方向盤，專註的開車，對安全駕駛來說，這很重要。

目前各大智能汽車廠商都重點投入到語音交互領域。那麼好的語音交互體驗，體現在哪些地方呢？我認為有3個方面：聽、理解、表達。只有這3方面做好，語音交互系統才算健康。

完整的語音交互流程

聽，就是能聽清楚，聽正確。這包括了硬體方面的回聲消除、降噪，軟體方面的合理的人聲檢測間隔，錄音時長，語音識別模型等。目前主流的語音識別廠商，如國內占最大份額市場的訊飛，還有在吳恩達加盟後，識別率大幅提升的百度，還有專攻智車載領域的思必馳等，都號稱識別率超過95%，但這些都是理想情況下的數據，實際環境中，由於環境的干擾等因素，會影響識別正確率。例如在車內環境中，空調風量、車內人聲、風噪、胎噪，說話人口音、方言，多人聲等，都會讓識別率打折扣。這是整個語音交互的第一個環節，目前不少智能機器人在這個環節就讓用戶產生挫敗感，這是入口，要讓用戶從一開始交互就感到快樂。

聽，就像人的耳朵，這個環節沒做好，拾音不正確，甚至不能拾音，那就等於人失聰。

那麼，要讓機器能聽清、聽正確，就得從源頭開始做文章，這樣才能保證為下一步能的語義理解提供乾淨的輸入。

語音識別流程

首先，從最前端來說，需要至少雙麥克風結合專門的DSP降噪晶元才能實現回聲消除、降噪、聲源定位的功能。獲得相對乾淨的語音信號後，就需要語音識別軟體進行語音到文字的轉換。語音識別，從李開復提出的基於統計的無特定人語音識別開始，到現階段的基於深度學習的方案，都早已達到商用級別。

而語音究竟如何變成文字？根據吳軍《數學之美》的介紹，以中文語音識別為例子，可以簡單理解為，語音經過一些列信號處理後，通過聲學模型，把語音映射成對應的拼音序列，再通過語言模型，把拼音序列，轉換為文字序列。語音識別系統經過大量標註預料的訓練，能得到當前語音對應的最大概率拼音序列，同樣也能得到當前拼音序列對應的最大概率的文字序列。

理解，就是聽到用戶語音，並識別為文字後，能正確理解用戶表達的真實意圖。目前各大廠商的語音識別，早已達到商用標準，但語義理解則還有大的進步空間，是整個智能語音交互中掉隊的一環。

雖然是車載環境，但其實是一個開放域，就是說，在車上用戶有可能問各種各樣的問題，例如路況、天氣、聽歌、導航、控制車內設備、閑聊等。由於中文的複雜性，有些問題甚至是人也難以理解，就算目前備受追捧的深度學習，在語義理解領域也還沒關鍵性突破，所以制約了語音交互的發展。目前各種智能音箱，智能助手，更多的是在特定領域的任務型對話機器人。

那麼對於特定領域，機器怎麼能正確識別到用戶的真實意圖呢？目前效果比較好的都是通過深度學習的方法對用戶的話進行處理。簡單來說，分為兩個步驟，分別是：

領域識別：例如用戶說「今天天氣怎麼樣」，這是屬於天氣領域的問題。
意圖識別及參數提取：上面問天氣的例子，用戶的真正的意圖，是讓機器人告知其今天的天氣情況。其中隱含的參數有，日期（今天），地點（當前城市）

機器人識別到用戶話語的領域、意圖，及相應參數後，就可以進行具體日期的天氣數據獲取，並返回展示給用戶。

表達，則是聽清、理解正確後，怎麼把結果展示給用戶。通常包括UI交互、展示方式，以及語音合成（TTS，Text to Speech）。由於目前業界語義理解能力的局限，提高用戶體驗的更合理方式應該從交互方式上入手。雖然傳統的GUI交互方式發展已經很成熟，從界面元件排布，字體字型大小，甚至顏色風格都有相應的成熟案例及標準，但CUI（Conversation User Interface對話用戶界面，也有稱為DUI、VUI）則是一個嶄新的領域，沒有現成的案例可以參考，更多的需要摸索和試錯。此外，智能，還體現在機器不只是被動接受用戶指令，還可以適當時候主動詢問用戶。例如，今天下暴雨了，系統判斷常走的路線會塞車，則主動建議用戶選擇另外一條順暢的路線。你責罵它的時候，它可以通過界面、燈光、聲音等表達自己的情感。這樣用戶才覺得和自己交流的不是生硬冷冰冰的機器，而是有自我感受的助手。目前的智能語音產品，需要等一方說完，一方才能開始說話，或者用特定的打斷詞中斷機器說話後，才能進行自己命令的表達。這與真實世界的對話方式是非常不同的，這也是目前語音交互讓人覺得笨的原因之一。

結語

一個語言交互系統，要稱得上智能，語音合成的效果也顯得很重要。目前大多數語音合成，都有比較明顯的機械感，例如多音字發音不準，朗讀平直，沒有抑揚頓挫的情感，不會根據用戶的情緒調整回復的音量、音調、音色等，讓用戶覺得是在跟一個機器在對話。與此相對的，智能的TTS應該是有情感的，能根據語境調整文字的朗讀，而不是只有一個音調，能流利的、抑揚頓挫的表達。目前已經有廠商提供多種情感的TTS服務，而在今年5月的Google I/O大會上發布的Google Duplex技術，驚艷了大片同行，其中的全雙工語音交互，非常接近真實的對話場景，其中的語音合成，也已經達到以假亂真的程度，有興趣的同學自行搜索。

總的看來，雖然目前語音交互還存在諸多不足，但不可否認的是，它是未來發展的趨勢。國內外眾多巨頭都跳進這個領域，企圖拿到語音交互流量入口的船票。再給點時間，或許三五年後，很多日常事情，談笑間便可解決。

作者鍾鴻飛 | 小鵬汽車大數據資深工程師

想了解更多小鵬汽車的信息，請關注小鵬汽車機構賬號

@小鵬汽車

更多精彩回答請點擊：

小鵬專業課|好馬配好鞍，好車配三電——電動車如何調試三電系統

小鵬連載|車聯網安全的前世今生

小鵬大講堂 | 「人機交互」——互聯網汽車大屏操機指南

小鵬專業課 | 車聯網——未來車禍「終結者」

小鵬大講堂|在電動汽車上聽12缸發動機聲浪是一種什麼樣的體驗？

小鵬汽車拿到第一塊互聯網汽車車牌，如何看小鵬汽車的發展前景？

小鵬專業課|如何給車挑一雙完美的「鞋子」

汽車冬季試驗都做哪些工作，有哪些有趣的事發生？

小鵬互聯網汽車是一家什麼背景的公司？

在小鵬汽車工作是一種怎樣的體驗？

小鵬汽車：如何評價「小鵬汽車 Beta 版」？

小鵬汽車：小鵬專業課|淺談新能源汽車的BMS開發

小鵬大講堂|淺談自動駕駛—寫在Uber事故之後