讓機器聽懂人類語言,主流麥克風陣列技術解讀
美國時間9月27日,亞馬遜再次引領了遠場語音交互的潮流,一口氣發布了5款Echo新品,包括第二代Echo和Echo Plus,2.5寸屏幕的Echo Spot,以及Echo Connect和Echo buttons。其中,最為引人關注的是Echo Spot,這個被稱為是Echo Show鬧鐘版的新品帶有一個2.5英寸的圓形屏幕,用戶可以用它來顯示圖像、歌詞、視頻聊天等,售價僅有129.99美元。
Echo Spot不同於新版Echo和Echo plus,並沒有採用環形6+1麥克風陣列,而是縮減了麥克風陣列的配置,選用了環形4麥的麥克風陣列技術。為什麼Echo Spot會選擇更換不同的麥克風陣列技術呢?
最新亞馬遜客廳產品家族:Echo和FireTV系列
全球量產麥克風陣列的陣型技術盤點
1、Amazon Echo
不管第一代還是第二代,Echo都採用典型的6+1麥克風陣列結構,即環形6個麥克風搭配中間1個麥克風,如下圖左所示。而且,Amazon一直非常喜歡採用TI的AD晶元TLV320ADC。目前,這種陣型國外主要是Amazon Echo使用,國內也只有聯想和科大訊飛曾經模仿過這種陣型,其中,1代聯想智能音箱採用的是環形6個麥克風+中間2個麥克風的結構。如下圖右所示。
這裡再說一下科大訊飛,其叮咚音箱系列產品都是模仿的這種結構,訊飛增加了1個麥克風,形成了環形7+1麥克風陣列的結構,如下圖所示。叮咚1代和2代的差別主要是1代採用的是駐極體麥克風,而2代換成了模擬的MEMS麥克風。相比Amazon來說,科大訊飛更喜歡科勝訊的晶元,1、2代叮咚產品全部採用科勝訊的AD晶元CX20810,另外,科大訊飛的雙麥演算法也是採用的科勝訊CX20921晶元。
2、Echo Show
Echo Show則採用了橢圓形麥克風陣列,國內一般也稱為跑道形,其實就是雙線形,如下圖左所示。這個陣型因為Echo Show的厚度問題所做了折衷處理,也是典型的技術妥協於產品設計的案例。目前,國內只有聲智科技供應類似陣型,即L型6麥陣列,見如下圖右所示。
3、Echo Spot
進一步縮減了麥克風陣列的配置,採用了環形4麥的技術,如下圖左所示,這個陣型既降低了成本但也保證了一定的效果,這是比較典型的根據場景選擇合適技術的案例。目前,國內的聲智科技也供應這種陣型的麥克風陣列產品,即兼容4麥和4+1麥的麥克風陣列及開發板,如下圖右所示。
相比6麥陣型來說,減少了2個麥克風之後,這個陣型僅是損失了一些4米以外的遠場語音交互性能。但是根據國外產品公司對用戶使用習慣的統計分析數據顯示,在1-3米的範圍是用戶最習慣的遠場交互距離,所以4麥也適合大多數用戶使用場景,尤其是酒店等行業的應用。
4、Apple HomePod
採用的是環形6麥方案,環形6麥的優點就是給產品ID設計更大的自由性,同時也兼顧了成本和遠場語音交互性能。國內小米AI音箱採用聲智科技的前端方案,其中的陣型就是環形6麥,同時為繼續降低成本,麥克風也全部採用數字麥克風,這樣就省掉了模擬麥克風必須搭配的AD晶元。國內採用這個陣型的還有天貓精靈、小雅音箱,然而,不同於小米AI音箱,天貓精靈為照顧演算法因素,依然採用了模擬麥克風+TI ADC的方案。
5、Google Home
Google Home則獨具一格,採用了雙麥克風的方案,國內出門問問的智能音箱也沿用了這個方案。國內雙麥技術提供商主要是科大訊飛和聲智科技。而聲智科技的雙麥方案主要應用在汽車等行業,其在消費電子領域的成熟應用方案則是單麥克風方案。
6、除此之外,還有一些特殊陣型。
科大訊飛曾經發布過雙層的麥克風陣列,以及4麥線形陣列。除了科大訊飛,聲智科技也推出了量產版的4麥線形陣列、3麥三角陣列以及分散式陣列。但是由於這些特殊陣列的產品目前銷量還較小,在市場上的影響還很小。
為何不同產品的麥克風陣列差異如此大?
從上面的盤點可以看出,Amazon幾乎每個新產品系列都會採用新的麥克風陣列技術,國內知名產品的麥克風陣型也多種多樣,即便相同的陣型,其陣元間距也會不同,為何會產生這個現象?
1、麥克風陣列技術
首先從麥克風陣列技術本身來看,麥克風陣列是指應用於語音處理的按一定規則排列的多個麥克風系統,也可以簡單理解為2個以上麥克風組成的錄音系統。麥克風陣列一般來說有線形、環形和球形之分,嚴謹的應該說成一字、十字、雙L、平面、螺旋、球形等。
至於麥克風陣列的陣元數量,也就是麥克風數量,可以從2個到上千個不等。由於成本限制,消費級麥克風陣列的陣元數量一般不超過8個,所以市面上最常見的就是6麥和4麥的陣型。
2、麥克風的質量、數量及布局
除了演算法,決定麥克風陣列性能的主要就是陣元麥克風的質量、數量及布局。這些基本都是硬體架構所決定,特別是麥克風的質量和數量,又與每個廠商的供應鏈緊密相關,這就非常容易造成每款產品的差異。比如叮咚1代為保證性能,選擇了性能指標更高的指向型駐極體麥克風,而Echo則為了保證量產質量,則選用了性能指標較低的MEMS麥克風。由於演算法的持續提升,對於麥克風的要求不再嚴格,因此MEMS麥克風是當前主流的應用。
3、遠場語音交互的場景
其次從遠場語音交互的場景來看,比如智能音箱、智能中控和智能汽車的場景肯定不一樣,其需求自然也不同。智能音箱一般都是放置桌面,需要360度響應指令,所以環形陣列比較適合,而智能中控一般貼牆固定,僅照顧180度範圍即可,這時候線形陣列就能滿足。
當然這裡也有特殊,比如手機和平板,一般也是3麥或4麥的矩形,這種陣型恰當利用屏幕導向而只是重點滿足某個扇形角度的性能。智能汽車又分了兩種情況,一種情況是僅滿足駕駛員的語音交互需求,則單麥/雙麥基本就能滿足,另外一種情況則是滿足所有乘員,而且重點照顧後排,則需要採用分散式陣列。
4、產品設計美觀和約束
再次從產品設計美觀和約束來看,剛才提到了陣型,這就約束了產品的ID設計,但是產品若有差異就必然需要不同的ID,那麼自然就需要形態各異的麥克風陣列。不同的陣元間距和分布會對麥克風陣列性能產生重大影響,所以這個設計過程中是技術和藝術互相妥協的過程。同時麥克風陣列對於遮擋也有一定的要求,當前的麥克風陣列主要是放在頂部,就是為了避免這個問題,當然這個約束也會隨著演算法技術的不斷提高而弱化。
5、產品成本及生產工藝
最後從產品成本及生產工藝來看,比如麥克風的選型問題,駐極體麥克風的性能指標更好,但是由於生產需要大量人工介入導致成本較高,因此當前主要採用MEMS麥克風。MEMS麥克風又分為模擬和數字兩種,模擬麥克風+專業ADC的性能指標也更好,但是同時也讓成本上升。數字麥克風的難點就是採集的信號相對最差,需要演算法處理更多以達到與其他方案同樣的效果。
為什麼Google Home要選擇雙麥方案?
偶爾會聽到行業人士做的一個類比,人類有兩隻耳朵,所以兩個麥克風就能達到同樣性能。這實際上是一個誤解,以現在技術來看,即便用100個麥克風,也未必能達到人耳的效果。人耳是極其複雜的一個結構,至今為止實際上科學也沒搞清楚所有原理,更談不上用簡單的麥克風進行模擬了。現在的麥克風,實際上都是標量麥克風,所獲取的僅僅是聲壓變化轉成的電信號,而且還沒有耳廓,更無法根據場景變化隨動調整。
那麼為什麼Google Home要採用雙麥方案呢?這和麥克風陣列有何差異?事實上,這要從各家不同的技術架構來探討,當前市面上主要存在三種遠場語音交互技術架構。
1、以Google為代表的純雲端技術架構
首先就是以Google為代表的純雲端技術架構,Google並非不想採用麥克風陣列,因為陣列相比雙麥方案具有了波束形成的功能,自然就擁有了更好的雜訊和去混響能力,當距離較遠或者環境複雜的時候依然能夠保證遠場識別率。但是由於麥克風陣列涉及了前端硬體,這並非Google所擅長,因此Google就希望能通過雲端機器學習的方式來達到類似功能。
但是麥克風陣列的陣元較多,產生的數據容量太大,而當前的網路上傳帶寬嚴重不足,所以只能權衡選擇更少的麥克風。實際上若採用前端方案,大部分場景下單麥克風方案也能達到雙麥方案的性能。當然多一路麥克風信號對於雲端演算法來說也是很重要的。
2、以科勝訊為代表的純前端技術架構
其次就是以科勝訊為代表的純前端技術架構,雙麥降噪實際上是非常成熟的方案,在智能手機和藍牙耳機上已經廣泛應用,但是直接應用到語音交互則需要大量適配工作。純前端方案的優點就是容易集成到晶元上,缺點就是很難升級以及擴展,這恰好與人工智慧不斷迭代的趨勢不太兼容,也是當前這種方案無法流行的主要原因。
3、以Amazon為代表的前端+雲端方案
最後就是以Amazon為代表的前端+雲端方案,這種方案是把演算法分別放置到前端和雲端,根據具體場景可以調配優化,更容易優化性能並擴展功能。這種方案考慮了麥克風陣列與喚醒和識別技術一體化的問題,由於喚醒和識別嚴重依賴麥克風陣列的演算法處理效果,實際上這三種技術是無法完全分割的,特別是麥克風陣列和喚醒技術更是渾然一體。
所以國內廠商開發的Amazon Alexa產品,若選用Sensory等提供的喚醒詞,總是會比Echo差不少,有意思的是,Alexa與Echo兩個團隊之間的互相較量,以致於產生了產品接入Alexa平台卻要接受更差性能的尷尬。
如何正確選擇麥克風陣列陣型和技術?
從上面的分析來看,遠場語音交互產品確實比較複雜,僅僅選用麥克風陣列就有如此多的問題。那麼應當如何選擇合適的麥克風陣列和技術呢?
1、從產品實際角度出發,先定前端方案再定後端技術
首先還是應該從產品實際角度出發,先定前端方案再定後端技術,前端技術包含了麥克風陣列、喚醒和識別技術,後端技術則包含了自然語言理解和內容服務。
前端主要解決了產品是否聽得準的問題,這其中有五個核心指標:遠場語音喚醒率、複雜環境 誤喚醒率、遠場語音識別率、總體延遲時間和總體穩定性。這五個核心指標決定了用戶的第一體驗。
由於用戶無法忍受前端技術出現任何問題,所以前端技術的穩定性也是至關重要,這個指標需要大規模量產的驗證。後端技術主要解決了產品是否聽得懂的問題,但是僅有自然語言理解還不夠,必須和內容服務串聯成反饋才能達到用戶滿意的目的,事實上,產品的智能主要就體現在後端,而且涉及內容服務,當前也僅有BAT等巨頭做的比較完善。
目前來看,全球經過量產驗證的前端技術主要掌握在Amazon、Apple、科大訊飛、聲智科技等廠商手中,而後端技術特別是內容及服務則主要被Google、Microsoft、Apple、Amazon、百度、騰訊、阿里等巨頭所掌控,思必馳和雲知聲等語音識別廠商也相繼轉型發布了平台戰略。
2、根據應用場景選取合適的陣型
其次應該是根據應用場景選取合適的陣型,比如產品定位的場景是否需要360度拾音?產品的用戶群體大概都是什麼年齡?產品的主要交互距離又是多少?產品的ID採用什麼形狀?產品是否考慮低功耗問題?
根據這些指標,可以由專業的技術方案商提供具體方案,比較複雜的場景可能還需要定製開發,但是以當前技術進展來看,比如聲智科技已經不再約束陣型的尺寸和結構。
3、在滿足效果的前提下再考慮降低成本
最後應該是在滿足效果的前提下再考慮降低成本,這和具體場景還是有密切關係的,比如兒童故事機,由於兒童與機器之間的距離約束,成本實際上是第一考慮要素,那事實上用單麥克風方案就可以解決。對於技術實力比較雄厚的廠商,則可以兼顧成本與性能,向技術方案上定製專用麥克風陣列和優化技術。
對於大部分產品廠商來說,產品研發速度和穩定是第一考慮要素,那可以優先選擇陣列的模組方案,這樣更容易集成,成本也容易控制。這樣可以讓廠商騰出更多精力專註後端智能方面的開發,當前端技術穩定可靠後,真正體現產品差異的一定是後端技術。
從Amazon來看產品與平台廠商的博弈
亞馬遜做完Echo家族的產品發布會,其電商網站似乎只賣Echo產品了,而且價格幾乎腰斬,這是一個很有意思的事情。因為Amazon同時還在鼓勵Alexa的生態,力求把Alexa打造成一個AI平台。但是從當前的窘境來看,Alexa的平台進展似乎一直不太如意,Amazon似乎只對推廣自家產品更有興趣,何況Alexa還故意給產品開發廠商製造了很多困難。
這也很容易理解,平台的開放和封閉本來就是難以兼容的關係,平台的天性就是開放,而產品的天性容易封閉,這是兩類生態的競爭,還沒有一家公司能夠兼容並包。比如Apple依賴iPhone系列構建了封閉的平台體系,而Google則依賴Android建立了開放的平台體系。
以Amazon當前的表現來看,其走向Apple的可能性更大一些,這樣實際開放的只是內容和服務,更像Apple的Apple Store。這也很容易理解,因為平台需要積累大量客戶,肯定傾向於能夠帶來大量客戶的生態夥伴,若這個生態夥伴恰好還是自家的,沒有理由不扶持自家產品。
所以Echo持續降價,銷量不斷攀升,這個結果導致其他生態夥伴無法生存,但是從Amazon來看也不重要,因為不管用戶從哪來,其核心訴求實際上達到了。當Amazon的用戶積累到一定規模,自然也就形成了平台優勢,反而會給後端開發的用戶帶來盈利的空間,這樣也能形成正向的邏輯。
從正向的邏輯出發,Amazon的野心就很清晰了,這絕對是要挑戰其他巨頭的意思,因為一旦語音流形成,不管是搜索還是社交,Amazon絕對是有興趣染指一把的,當然電商本來就是Amazon的優勢。所以,Amazon和Google最近在Youtube較勁也就見多不怪了,相信這個事情還會發生很多。
這對於我們國內遠場語音交互生態有什麼啟示?
這可能會影響三類廠商:產品廠商、前端技術提供商和後端技術提供商,後端技術提供商實際上就是平台。其中這對前端技術方案商沒有太大影響,畢竟麥克風陣列、喚醒和識別都是一種管道型技術,同時服務於產品和平台兩大廠商,其核心訴求更多是賺錢,並沒有太多其他變現的價值,也就是說這部分用互聯網思維來做也沒有什麼落腳點。
但是產品廠商和平台廠商就比較糾結,產品和平台廠商都需要用戶,當用戶量足夠大的時候,產品和平台的後端變現價值就會凸顯。但是實現這個目標都是實力的硬硬對坑,是走向開放模式還是封閉模式?開放模式必然意味著要放棄自家產品鼓勵生態,帶動生態夥伴一起發展。封閉模式則需要重金投入同時打造產品和平台,搞不好兩敗俱傷。這是一個難題,也是一家公司的戰略決策,很難說哪種模式未來能夠絕對制勝,但是搖擺於兩種模式之間的廠商必然沒有發展空間。所以,很多時候,戰略判斷和決策才是一家公司的核心能力。
推薦閱讀:
※AI(I)語音(I):MFCC特徵參數提取
※如何在國內學習Amazon Echo的成功經驗?
※信號處理需要什麼電路的知識?
※當下流行的語音識別技術是不是發展錯了方向?
TAG:AmazonEcho | 人工智能 | 语音识别 |