小鵬大講堂|淺談智能汽車的語音交互
9 人贊了文章
無論是互聯網為時代,還是移動互聯網時代,都是GUI交互為絕對主導,但隨著AI的興起,新的交互方式也隨之熱門起來。完善的智能交互,應該是多模態的,例如語音交互、手勢交互,甚至通過眼神完成交互。對於當前階段的智能汽車來說,天生就適合語音、手勢等操作方式,而語音交互則更成熟,讓駕駛員可以雙手不離開方向盤,專註的開車,對安全駕駛來說,這很重要。
目前各大智能汽車廠商都重點投入到語音交互領域。那麼好的語音交互體驗,體現在哪些地方呢?我認為有3個方面:聽、理解、表達。只有這3方面做好,語音交互系統才算健康。
完整的語音交互流程
聽,就是能聽清楚,聽正確。這包括了硬體方面的回聲消除、降噪,軟體方面的合理的人聲檢測間隔,錄音時長,語音識別模型等。目前主流的語音識別廠商,如國內占最大份額市場的訊飛,還有在吳恩達加盟後,識別率大幅提升的百度,還有專攻智車載領域的思必馳等,都號稱識別率超過95%,但這些都是理想情況下的數據,實際環境中,由於環境的干擾等因素,會影響識別正確率。例如在車內環境中,空調風量、車內人聲、風噪、胎噪,說話人口音、方言,多人聲等,都會讓識別率打折扣。這是整個語音交互的第一個環節,目前不少智能機器人在這個環節就讓用戶產生挫敗感,這是入口,要讓用戶從一開始交互就感到快樂。
聽,就像人的耳朵,這個環節沒做好,拾音不正確,甚至不能拾音,那就等於人失聰。
那麼,要讓機器能聽清、聽正確,就得從源頭開始做文章,這樣才能保證為下一步能的語義理解提供乾淨的輸入。
語音識別流程
首先,從最前端來說,需要至少雙麥克風結合專門的DSP降噪晶元才能實現回聲消除、降噪、聲源定位的功能。獲得相對乾淨的語音信號後,就需要語音識別軟體進行語音到文字的轉換。語音識別,從李開復提出的基於統計的無特定人語音識別開始,到現階段的基於深度學習的方案,都早已達到商用級別。
而語音究竟如何變成文字?根據吳軍《數學之美》的介紹,以中文語音識別為例子,可以簡單理解為,語音經過一些列信號處理後,通過聲學模型,把語音映射成對應的拼音序列,再通過語言模型,把拼音序列,轉換為文字序列。語音識別系統經過大量標註預料的訓練,能得到當前語音對應的最大概率拼音序列,同樣也能得到當前拼音序列對應的最大概率的文字序列。
理解,就是聽到用戶語音,並識別為文字後,能正確理解用戶表達的真實意圖。目前各大廠商的語音識別,早已達到商用標準,但語義理解則還有大的進步空間,是整個智能語音交互中掉隊的一環。
雖然是車載環境,但其實是一個開放域,就是說,在車上用戶有可能問各種各樣的問題,例如路況、天氣、聽歌、導航、控制車內設備、閑聊等。由於中文的複雜性,有些問題甚至是人也難以理解,就算目前備受追捧的深度學習,在語義理解領域也還沒關鍵性突破,所以制約了語音交互的發展。目前各種智能音箱,智能助手,更多的是在特定領域的任務型對話機器人。
那麼對於特定領域,機器怎麼能正確識別到用戶的真實意圖呢?目前效果比較好的都是通過深度學習的方法對用戶的話進行處理。簡單來說,分為兩個步驟,分別是:
- 領域識別:例如用戶說「今天天氣怎麼樣」,這是屬於天氣領域的問題。
- 意圖識別及參數提取:上面問天氣的例子,用戶的真正的意圖,是讓機器人告知其今天的天氣情況。其中隱含的參數有,日期(今天),地點(當前城市)
機器人識別到用戶話語的領域、意圖,及相應參數後,就可以進行具體日期的天氣數據獲取,並返回展示給用戶。
表達,則是聽清、理解正確後,怎麼把結果展示給用戶。通常包括UI交互、展示方式,以及語音合成(TTS,Text to Speech)。由於目前業界語義理解能力的局限,提高用戶體驗的更合理方式應該從交互方式上入手。雖然傳統的GUI交互方式發展已經很成熟,從界面元件排布,字體字型大小,甚至顏色風格都有相應的成熟案例及標準,但CUI(Conversation User Interface對話用戶界面,也有稱為DUI、VUI)則是一個嶄新的領域,沒有現成的案例可以參考,更多的需要摸索和試錯。此外,智能,還體現在機器不只是被動接受用戶指令,還可以適當時候主動詢問用戶。例如,今天下暴雨了,系統判斷常走的路線會塞車,則主動建議用戶選擇另外一條順暢的路線。你責罵它的時候,它可以通過界面、燈光、聲音等表達自己的情感。這樣用戶才覺得和自己交流的不是生硬冷冰冰的機器,而是有自我感受的助手。目前的智能語音產品,需要等一方說完,一方才能開始說話,或者用特定的打斷詞中斷機器說話後,才能進行自己命令的表達。這與真實世界的對話方式是非常不同的,這也是目前語音交互讓人覺得笨的原因之一。
結語
一個語言交互系統,要稱得上智能,語音合成的效果也顯得很重要。目前大多數語音合成,都有比較明顯的機械感,例如多音字發音不準,朗讀平直,沒有抑揚頓挫的情感,不會根據用戶的情緒調整回復的音量、音調、音色等,讓用戶覺得是在跟一個機器在對話。與此相對的,智能的TTS應該是有情感的,能根據語境調整文字的朗讀,而不是只有一個音調,能流利的、抑揚頓挫的表達。目前已經有廠商提供多種情感的TTS服務,而在今年5月的Google I/O大會上發布的Google Duplex技術,驚艷了大片同行,其中的全雙工語音交互,非常接近真實的對話場景,其中的語音合成,也已經達到以假亂真的程度,有興趣的同學自行搜索。
總的看來,雖然目前語音交互還存在諸多不足,但不可否認的是,它是未來發展的趨勢。國內外眾多巨頭都跳進這個領域,企圖拿到語音交互流量入口的船票。再給點時間,或許三五年後,很多日常事情,談笑間便可解決。
作者 鍾鴻飛 | 小鵬汽車大數據資深工程師
想了解更多小鵬汽車的信息,請關注小鵬汽車機構賬號
@小鵬汽車
更多精彩回答請點擊:
小鵬專業課|好馬配好鞍,好車配三電——電動車如何調試三電系統
小鵬連載|車聯網安全的前世今生
小鵬大講堂 | 「人機交互」——互聯網汽車大屏操機指南
小鵬專業課 | 車聯網——未來車禍「終結者」
小鵬大講堂|在電動汽車上聽12缸發動機聲浪是一種什麼樣的體驗?
小鵬汽車拿到第一塊互聯網汽車車牌,如何看小鵬汽車的發展前景?
小鵬專業課|如何給車挑一雙完美的「鞋子」
汽車冬季試驗都做哪些工作,有哪些有趣的事發生?
小鵬互聯網汽車是一家什麼背景的公司?
在小鵬汽車工作是一種怎樣的體驗?
小鵬汽車:如何評價「小鵬汽車 Beta 版」?
小鵬汽車:小鵬專業課|淺談新能源汽車的BMS開發
小鵬大講堂|淺談自動駕駛—寫在Uber事故之後
推薦閱讀:
※外觀讓奧迪覺得沒戲,內飾讓寶馬覺得丟臉,這款20萬的賓士能成?
※柴油車PK汽油車,兩者怎麼選?
※【NPC】How Far Is Too Far
※異國 看車(日本)下
※打開油箱蓋時若有吸氣聲,車主就要小心了!