盤點科大訊飛車載語音技術難點及解決途徑

04-27

語音識別+汽車系統，最早這一組合是在一些豪車上應用，例如2000年寶馬上就有語音控制；2004年在北美市場上市的Acura RL轎車將語音控制系統作為標準配置。現如今，功能豐富的車載智能互聯繫統會配備語音控制功能，成為越來越多主流車型的標配和賣點。

像科大訊飛的汽車智能車載系統——飛魚助理。該系統將遠場識別、全雙工、多輪交互、方言識別等技術應用於汽車，打造全新智能語音交互界面，大有刷新行業標準的野心。在科大訊飛語音識別準確率已經高達97%的今天，車載語音技術還有哪些難點，科大訊飛又是如何解決的，這是值得探討的一個問題。

車載語音技術的優點很明顯，它的應用一方面可以降低駕駛員對車內設備的操作難度，增加駕駛安全係數；另一方面可以增加駕駛的娛樂性。這些優點主要是體現在它的功能上，理論上來說車載語音可以完成以下功能：

（1）車載娛樂系統控制。比較基礎的功能，除了調節音量外，用戶可以通過語音搜索音樂名，也可以簡單地說出感興趣的收音頻道，系統就能調出相應的節目和頻道。

（2）導航控制。通過語音調出導航應用，免去了手動輸入的麻煩,可以通過語音輸入完成各項指令。這個是很實用的信息，尤其是在市內車多、路雜進行導航時，效果更為顯著。

（3）電話通訊控制。提供語音控制打電話、發簡訊、讀簡訊等功能。

（4）駕駛輔助控制。如語音控制空調、天窗、座椅、後視鏡等主動車道保持信息、巡航信息等，在使用車上高科技並進行調節的時候，這些信息可以顯示在HUD上，使得駕駛員不必低頭看儀錶進行調節。

（5）車聯網服務。為車主提供一些後服務的內容，如洗車、加油、餐飲類服務，如語音預約洗車、尋找加油站、美食訂餐等等。

但是在實現以上功能的過程當中，語音技術的實現是一部分，完整的功能實現還要靠車聯網的配套設備，就語音技術來說，車載語音的障礙主要體現在一下兩個方面。

（1）如何讓機器「聽懂」人的語言

如何讓機器「聽懂」人的語言，這是人機交互的第一步，要做到這一點，首先機器要能識別你說的話，在這個過程中，方言怎麼辨識？自然語言怎麼辨識？前後有邏輯關係的語音指令怎麼辨識？這些都是必須解決的問題。比如作為一名廣東人，我的普通話比較普通，語音識別要能準確識別我的口音並準確執行；我問完深圳今天的天氣怎麼樣，它能告訴我，但是如果我問：明天呢？機器要能知道我是在問它深圳明天的天氣怎麼樣。

簡單地說，機器要能聽到我說話，並能聽懂，智能語音應該是帶有人工智慧思維的。

（2）車內降噪

車內距離小，語音技術的難度不體現在距離上，現在的語音技術是想的距離已經足夠滿足車內使用。距離遠不是問題，車內空間小，反倒顯示噪音問題特別突出，，首先是車輛上存在很多非平穩雜訊。所謂非平穩，即是難以預測的。在汽車的環境下，來自於發動機、車輛在路面上行駛產生的噪音都是可預測的噪音，很容易在實驗中進行模擬並進行剔除，但更多的各種意外狀況下出現的雜訊：路過一家大聲放著音樂的CD店、旁邊的卡車突然按了下喇叭，車內孩子的突然哭喊聲……

周圍聲源混雜會大大降低語音識別的能力。

科大訊飛是怎麼解決這兩個問題的:

1、用資料庫和建立模型讓語音系統自我學習

相對完美的語義理解，是不設定規則或者語法，因為對於現實生活中遇到的情況，很難通過這種設定來窮舉出所有的情況。在科大訊飛的語音模型中，專門有一個模塊是去判斷一句語音命令裡頭的意圖，在語句中尋找關鍵字，科大訊飛把這些關鍵字叫做「參數」。意圖與參數，就構成了這條語音命令所要表達的信息。在這種模式下，你說「我要去天安門」或者「天安門在哪」對於系統來說，都是一樣的，參數是「天安門」，「在哪」和「要去」是意圖。

當然，這些模型並不需要人去手動一個個建立，而是通過大量的數據模型去訓練機器。用大數據打造語音識別的靈魂。」

在科大訊飛，有一個部門叫做語音資源部。資源部的工作是每天上街去採集數據，沒有數據就找不同口音的人去錄音，積累到了幾十個T的數據之後，這些數據就會用於機器的教學之中。

第一步是將單個字或者詞摘取出來讓機器學會，了解不同的人在發音上的差異；然後是在一定的語境中去理解這些詞，哪些屬於意圖的範疇，哪些屬於參數的範疇，哪些在意圖會在特定的情況下成為參數，哪些參數又有可能成為意圖。在這個過程中，對於數據的分析能力是關鍵。因為數據的基數太大，必須能依靠機器做到正確地剔除無用的數據，將有用的數據分門別類進行處理。

這還只是普通話的，如果是要識別方言，因為同一個字完全是不同的發音，就需要為其獨立建議一套識別模型，與漢語和英語的關係一樣，區別對待。再去收集相關的數據給系統學習，作為收集所有數據的語音雲平台，則需要有能夠對這些不同數據類型進行篩選的能力。

當然，現在科大訊飛的語音資料庫不再依賴於人工收集，在建立語音平台之後，科大訊飛每天能從不同的合作夥伴處獲得大量的數據，識別效果的迭代能做到一周一次。不過，雖然有語音平台，科大訊飛每天依然有兩三部車子在外面進行專門負責採集一些很難通過雲端傳回的使用場景的數據。

2、用麥克風陣列降低噪音干擾

針對噪音，科大訊飛拿出的解決方案是麥克風陣列，這個陣列由對著不同方向的數個麥克風組成。當你在車內開始說話時，第一個捕捉到你聲音的麥克風會對聲音進行定向，然後只識別這個特定方向傳來的聲音，這個麥克風也會成為這次語音命令的輸入源，如果這個時候，隔壁的麥克風聽到了副駕駛的說話聲，並不會對此次輸入造成影響。當陣列中的麥克風數量越多，其所定位的方位越狹窄，那麼所受到的干擾就會越小。

另外一個問題是對識別出命令的執行。在汽車上，語音識別系統的功能不僅在於識別，更在於將識別出的命令準確地下達到對應的模塊之上，這種命令的下達需要把語音識別系統與車載系統的應用之間的路打通，聽音樂就需要打通音樂的應用，導航就需要打通地圖和導航應用。

科大訊飛研發出的語音識別系統其實只是一個半成品，其中有語義理解的模塊，有與其他應用的介面，用在汽車上，需要把這些介面與車載系統進行對接。說來簡單，但在實際應用中，需要解決的問題就很多。

一是目前車機的平台並不是一個開放的平台，既不是安卓的開源，也不是蘋果的封閉生態，很難在既定構架上簡單地進行功能的增減刪改。很多時候，一個更新換代，可能要做的工作是從頭再來。

二是兩者之間需要很多配合。如果車企已經有一套完成的車載系統，那麼需要對語音識別的應用打開介面，打開介面之後可能會發現介面無法直接對接，需要進行更改，而這個更改是否能被執行，要看汽車製造商的集成能力，以及對這套車載系統有多少期待；即便車企沒有這套系統，或者要開發一套新的系統，雙方在產品理念需求的定義上，也需要深度磨合。

現在的很多功能不能被實裝，並非是技術不到家，而是受限於成本、產品定位、研發周期等等一系列因素。就說麥克風陣列，麥克風的數量是越多越好，在車上裝成一個球形，360°檢測的識別效果是最好的，但是在實際的應用中要考慮成本問題。

這些問題是需要方案設計者深入使用場景，提出合理的解決方案的。因此，為了推動智能語音的發展，激發工程師創客的設計激情，科大訊飛聯合我愛方案網、快包平台，強勢推出面向全國開發者的大型智能硬體設計大賽，借力科大訊飛成熟的人工智慧交互平台，應用語音合成、語音識別、語音喚醒、人臉識別、麥克風陣列和AIUI一站式解決方案，快速接入人工智慧風口，尋找創新的種子並共同孵化出創新的解決方案推向市場，幫助開發者實現業務創新落地，成就開發者創新夢想。

目前該活動正在火熱接受報名中，從收到的報名表格中，針對車載語音市場，我愛方案網從中篩選了兩項精選方案，和網友們分享：

方案一：多路語音採集降噪藍牙方案

項目簡介：多路語音採集降噪藍牙模組。主要用於從多路語音輸入中選擇其中一路語音進行採集，做降噪處理後通過藍牙無線傳輸給Android/iOS平台做語音識別；主要包括多路語音採集降噪模塊，音頻選擇處理模塊，藍牙無線傳輸模塊，電源模塊。擁有豐富的音頻輸入/輸出介面，各路音頻均可以routing到藍牙，包括：模擬輸入/輸出，I2S輸入（國內首創）/輸出，SPDIF輸入（國內首創）/輸出。

開發經歷：曾完成樂視車聯網，樂樂語音公司阿斯頓馬丁車內的語音降噪Mic陣列降噪系統。

日本斯巴魯車前產品開發商。設計符合日本車規的產品，並實現量產。華南理工大學電力學院產學研合作單位。

方案二：用於車載智能導航系統的語音方案

項目簡介：該項目將應用於車載智能導航系統，當用戶在開車行駛過程中，不用觸摸顯示屏，而通過語音識別系統進行調用所需要的行程，目的地，功能等。或者是用於智能機器人機交互。

開發經歷：黃工從事技術領域有20年，涉及有無線射頻，藍牙，車載音響，GPS Tracker,等，主要負責項目，硬體設計調試，軟體功能規劃，WINCE,ANDROID系統等,目前所具有的產品有：A20,A33,RK3288

你也有類似的運用到科大訊飛平台的項目嗎？

「握手AI，共創共享--2016訊飛智能語音設計大賽」報名入口? >>>產品外包與設計方案為一體的交易服務平台 -我愛方案網