3000餘人見證了這場人機互動,以後手機不用屏了!
在科大訊飛2015年度發布會的現場,3000餘人見證了這樣的一場人機互動。演示人員在5米開外,用聲音操控DingDong,完成了一系列高難度的訂票任務,引來台下陣陣驚嘆!(下方為現場演示視頻,時長大約為4分鐘)
現場那麼嘈雜,DingDong卻如此「聽話」,要讓DingDong聽懂這麼多聲音,而且具備遠場識別的功能,它必須聽的到,而且要聽的更加清晰,人類可以帶上助聽器,機器需要什麼呢?
【麥克風陣列】就充當了助聽器這樣的角色。這個名詞是不是很陌生,放心!下面小編和你嘮嘮這個【麥克風陣列】。
麥克風陣列(Microphone Array),從字面上,指的是麥克風的排列。也就是說由一定數目的聲學感測器(一般是麥克風)組成,用來對聲場的空間特性進行採樣並處理的系統。
早在20世紀70、80年代,麥克風陣列已經被應用於語音信號處理的研究中,進入90年代以來,基於麥克風陣列的語音信號處理演算法逐漸成為一個新的研究熱點。而到了「聲控時代」,這項技術的重要性顯得尤為突出。
麥克風陣列能幹什麼?
任何一項技術的發生髮展都伴隨著問題的提出及解決,麥克風陣列也是如此。那麼它主要應用在哪些場景下呢?又有著怎樣的功能!
◆【雜訊環境怎麼破?】—— 語音增強(Speech Enhancement)
語音增強是指當語音信號被各種各樣的雜訊(包括語音)干擾甚至淹沒後,從含雜訊的語音信號中提取出純凈語音的過程。所以DingDong在嘈雜環境下,也能準確識別語音指令。
通過麥克風陣列波束形成進行語音增強示意圖
從20世紀60年代開始,Boll等研究者先後提出了針對使用一個麥克風的語音增強技術,稱為單通道語音增強。因為它使用的麥克風個數最少,並且充分考慮到了語音譜和雜訊譜的特性,使得這些方法在某些場景下也具有較好的雜訊抑制效果,並因其方法簡單、易於實現的特點廣泛應用於現有語音通信系統與消費電子系統中。
但是,在複雜的聲學環境下,雜訊總是來自於四面八方,且其與語音信號在時間和頻譜上常常是相互交疊的,再加上回波和混響的影響,利用單麥克風捕捉相對純凈的語音是非常困難的。而麥克風陣列融合了語音信號的空時信息,可以同時提取聲源並抑制雜訊。
目前科大訊飛已經實現了基於線性陣列、平面陣列以及空間立體陣列的波束形成和降噪技術,效果均達到業界一流水平。
2013年科大訊飛車載降噪產品和國際競爭對手效果對比
◆【說話人老是變幻位置怎麼破?】——聲源定位(Source Localization)
現實中,聲源的位置是不斷變化的,這對於麥克風收音來說,是個障礙。麥克風陣列則可以進行聲源定位,聲源定位技術是指使用麥克風陣列來計算目標說話人的角度和距離,從而實現對目標說話人的跟蹤以及後續的語音定向拾取,是人機交互、音視頻會議等領域非常重要的前處理技術。所以麥克風陣列技術不限制說話人的運動,不需要移動位置以改變其接收方向,具有靈活的波束控制、較高的空間解析度、高的信號增益與較強的抗干擾能力等特點,因而成為智能語音處理系統中捕捉說話人語音的重要手段。
混響產生原因示意圖
◆【室內回聲太大怎麼破?】——去混響(Dereverberation)
一般我們聽音樂時,希望有混響的效果,這是聽覺上的一種享受。合適的混響會使得聲音圓潤動聽、富有感染力。混響(Reverberation)現象指的是聲波在室內傳播時,要被牆壁、天花板、地板等障礙物形成反射聲,並和直達聲形成疊加,這種現象稱為混響。
但是,混響現象對於識別就沒有什麼好處了。由於混響則會使得不同步的語音相互疊加,帶來了音素的交疊掩蔽效應(Phoneme Overlap Effect),從而嚴重影響語音識別效果。
影響語音識別的部分一般是晚期混響部分,所以去混響的主要工作重點是放在如何去除晚期混響上面,多年來,去混響技術抑制是業界研究的熱點和難點。利用麥克風陣列去混響的主要方法有以下幾種:
1、基於盲語音增強的方法(Blind signal enhancement approach),即將混響信號作為普通的加性雜訊信號,在這個上面應用語音增強演算法。
2、基於波束形成的方法(Beamforming based approach),通過將多麥克風對收集的信號進行加權相加,在目標信號的方向形成一個拾音波束,同時衰減來自其他方向的反射聲。
3、基於逆濾波的方法(An inverse filtering approach),通過麥克風陣列估計房間的房間衝擊響應(Room Impulse Response, RIR),設計重構濾波器來補償來消除混響。
現在科大訊飛實現的基於麥克風陣列的去混響技術能很好的對房間的混響情況進行自適應的估計,從而很好的進行純凈信號的還原,顯著的提升了語音聽感和識別效果,在測試對比中,多種混響時間下識別效果接近手機近講水平。
混響語音信號頻譜
經過去混響後的語音信號頻譜
◆【說話人太多怎麼破?】——聲源信號提取(分離)
家裡人說話太多,DingDong聽誰的呢。這個時候就需要DingDong聰明的辨別出哪個聲音才是指令。而麥克風陣列可以實現聲源信號提取,聲源信號的提取就是從多個聲音信號中提取出目標信號,聲源信號分離技術則是將需要將多個混合聲音全部提取出來。
通過麥克風陣列波束形成做語音提取和分離
利用麥克風陣列做信號的提取和分離主要有以下幾種方式:
1、基於波束形成的方法,即通過向不同方向的聲源分別形成拾音波束,並且抑制其他方向的聲音,來進行語音提取或分離:
2、基於傳統的盲源信號分離(Blind Source Separation)的方法進行,主要包括主成分分析(Principal Component Analysis,PCA)和基於獨立成分分析(Independent Component Analysis,ICA)的方法。
進擊的麥克風陣列
麥克風陣列技術雖然已經可以達到相當的技術水平,但是總體上還是存在一些問題的,比如當麥克風和信號源距離太遠時(比如10m、20m距離),錄製信號的信噪比會很低,演算法處理難度很大;對於便攜設備來說,受設備尺寸以及功耗的限制,麥克風的個數不能太多,陣列尺寸也不能太大。而分散式麥克風陣列技術則是解決當前問題的一個可能途徑。所謂分散式陣列就是將子陣元或子陣列布局到更大的範圍內,相互之間通過有線或者無線的方式進行數據的交換和共享,並在此基礎上進行廣義上的聲源定位、波束形成等技術實現信號處理。
相對於目前集中式的麥克風陣列,分散式陣列的優勢也是非常明顯的。首先分散式麥克風陣列(尤其無線傳輸)的尺寸的限制就不存在了;另外,陣列的節點可以覆蓋很大的面積——總會有一個陣列的節點距離聲源很近,錄音信噪比大幅度提升,演算法處理難度也會降低,總體的信號處理的效果也會有非常顯著的提升,因此分散式陣列有可能是未來智能家居和會議系統中的主流方案。目前科大訊飛已經開始了相關技術研究的布局工作。
在萬物互聯的今天,麥克風陣列技術已經深刻的走進了我們的日常生活。在智能車載、智能家居、機器人、可穿戴設備等應用熱潮正興起的時代,語音交互由於其便捷性,成了人機交互入口的第一選擇,麥克風陣列自然也成為其中非常重要的前端技術。
2015年5月25日上海CES展上亮相的DingDong音箱
DingDong音箱中的麥克風陣列方案
試想一下,未來,你身邊的智能機器人通過聲源定位技術找到主人的方位,通過降噪技術濾除環境雜訊和混響,你可以自由在任意場景中控制機器人,回聲消除技術也可用於消除設備自身播放的聲音,從而真正的實現正真意義上的交互!
-- END --
推薦閱讀:
※羊小版成為2011年特大行情最大黑馬之一的理由[郵票互動網論壇]
※武術家 ——馮志強 【互動百科】
※美朝互動進入摸底階段,為「彪炳史冊」特朗普或將再降調門
※[原創](吞寸木)適度炒作新郵是郵市大行情的先決條件[郵幣卡互動網論壇]
※龍,該如何同「下一隻亞洲小龍」互動