智能音箱漫談
首先請各位思考一下,除了聲音,人類還有其他隔山打牛的本領嗎?
之前我在很多文章里都講過,對於智能家居系統來講,手機APP控制僅僅是一個過渡,語音入口才是未來。拿到Amazon Echo後,我寫了文章《這就是未來》,果然,現在遍地開花的智能AI音箱已經印證了這一點。
其實這道理很簡單,人類要想控制智能家居系統,必然需要一個介面,而這個介面如果是人之外的設備,例如手機或者控制台,那麼人需要拿出手機或者走到控制台那裡,都不夠方便。如果這個介面不需要接觸,可以隔山打牛,那麼就會更方便一些。但是如何在不接觸的情況下獲取人類的想法等信息呢?我們可以思考一下,信息傳遞靠的是波,人能發出或者反射的可以傳遞信息的波不過就是紅外線、光線和聲波,當然,你要是天線寶寶發射腦電波那就得另外考慮了。探測人類發出的紅外線能夠檢測有無人員活動,但無法傳輸複雜信息;探測人類反射的光線可以通過手勢等實現交互和控制,但是光線波長短,衍射能力差,牽扯到方向性且容易被阻擋;唯有聲波這種機械波,波長足夠長,衍射能力強,方便發射接收,符合人類幾百萬年形成的自然語言的習慣。
所以基於自然語言的智能AI音箱迅速風靡也就不足為奇了。
「有點冷,幫我打開空調」,空調自動開啟;「來點輕鬆的音樂吧」,音樂緩緩飄過來;「來段相聲樂呵樂呵」,有趣的相聲就會來拯救無聊的你;「唉,我今天有點不高興呢。」AI就會陪你聊天說笑一直到你高興;「我要看電影,馮小剛導演的《芳華》」,家庭影院系統自動啟動,為你播放電影《芳華》;「我要睡覺了」,無關設備自動關閉,空調自動調整為睡眠模式,燈光緩緩熄滅,助你好夢。有了智能AI音箱,以上這些都是「一句話的事」。
了解一個東西,我們必須首先知道它的基本原理。
智能音箱的技術原理並不複雜。硬體上主要就是主控板、通訊組件、麥克風陣列、喇叭以及按鍵、燈光指示等等,硬體構成和普通手機、平板等產品類似,都是處理器、內存、Flash存儲、WiFi通訊晶元等這些通用的東西。所不同的就是智能音箱更專註於語音處理,麥克風更多,構成了陣列,音箱喇叭更多,音腔更大,音質更好而已。
從軟體來講,智能音箱對人類說出的自然語言進行處理,然後發出相應控制指令或者給出語音反饋。軟體主要包括:語音檢測(VAD)、降噪、喚醒、識別(ASR)、理解(NLU)、產生語言(NLG)、合成語音(TTS)這幾個過程。
語音檢測用於判斷是否有人類的語言,如果檢測到人類語言,那就對這部分信號進行降噪(包括回聲消除AEC、聲源定位DOA、波束形成BF)處理,然後識別其中是否有喚醒詞,如果沒有則丟棄,如果有,則進入交互狀態。交互狀態主要包括識別(ASR)、理解(NLU)、產生語言(NLG)、語音合成(TTS)這幾個部分。其中識別(ASR)和理解(NLU)主要依靠雲服務,也就是智能音箱將這部分語音信號處理後發送給後台雲服務,然後進行識別,識別後的語音信號就變成了字和詞,對這些字和詞進行分析識別,就理解了用戶的意圖。理解意圖後就可以發送一些控制信號、搜索相關信息、查找相關內容,然後產生應答的語言,再通過語音合成變成自然語言由智能音箱的喇叭輸出,如此完成交互過程。
明白了原理,我們就可以分析一下市場上的這些智能音箱產品了。語音不同於其他,Echo足夠優秀,但是國內使用它的人並不多,因為它不能識別中文,更別說方言了。所以,對於這類產品的分析,只能局限於國內產品。
智能音箱是在某種場景下的產物,比如Echo的購物,蘋果HomePod的智能家居入口等等,所以本質上只有有應用場景,智能音箱才有市場,沒有任何內容支持和Iot聯動,是沒有多大意義的。所以,生態對於智能音箱來說至關重要。結合智能家居生態,大概可以把國內主流智能音箱產品劃分為小生態和大生態兩大類。
小生態的代表是若琪和小雅。不得不說,若琪是比較早期起步的智能音箱,在AI演算法方面有了不少的積累,表現不錯,但是對於智能家居系統來講,它能聯動的組件並不多,局限於Lifesmart、Broadlink、Orvibo和Philips的小部分產品。喜馬拉雅的小雅主打內容,有靠山喜馬拉雅FM的支持,內容足夠豐富,宣稱是有情感有溫度的人工智慧圖書館,但是從智能家居控制來講,它幾乎不支持智能家居組件,是典型的小生態產品。
大生態的代表就是小愛同學、天貓精靈、叮咚和哇歐AI音箱。小愛同學以299元的價格殺入智能音箱市場,與小米生態鏈眾多智能硬體產品的聯動,讓小愛同學有著甚佳的智能家居體驗。然而,一個小遺憾就是你現在很難以299元的價格買到它。天貓精靈和京東叮咚,背靠各自平台。天貓精靈兼容阿里智能旗下的諸多產品,大到美的的大家電,小到控客的智能插座,類目非常豐富。叮咚則兼容京東微聯旗下的產品,Haier、Honeywell、三星等都是京東微聯的合作廠商。天貓精靈和叮咚都構成了各自較為齊全的生態,如果說劣勢,那麼就是目前這些生態的廠商之間有待磨合,特別是一些比較大的廠商的產品,在兼容和穩定性方面還有一些問題,在體驗上還有較大提升空間,但是生態基本上完整了。哇歐家居AI音箱屬於後起之秀,來自克路德機器人公司,之所以說它是大生態,是因為它兼容整套海爾的智能家居產品,包括海爾齊全的大家電產品線。小的智能組件研發周期短,可以迅速開發上市,然而齊全的大家電產品線可不是一朝一夕所能搞定的。克路德機器人的哇歐家居AI音箱,是在先有智能家居(有屋蟲洞)、智慧酒店(溫德姆)、智能健身房(力方體)等具體場景需求後才有的,這也是和另外幾個平台不同的地方。克路德機器人屬於少海匯生態企業之一,少海匯是一個不同於小米、阿里等傳統生態系統的「去中心化」新生態系統。之所以有如此多的場景需求,正是因為少海匯生態圈關注的就是智慧住居產業的場景需求,專攻智能家居,有眾多智能家居相關廠商加盟且互相兼容,現在看來具有強大的生命力,有了它的加持,哇歐家居AI音箱的前景應該會不錯。
當然,如果說現在智能音箱產品已經成熟,肯定為時過早。就目前的產品來講,前途光明,道路曲折。在語義解析、遠場拾音、Iot聯動、聲紋識別、內容和生態圈方面還具有巨大的提升空間。
語義解析方面,目前主流產品只能達到識別相對簡單的對話的水平,稍微複雜的語句很難精準的理解意圖,這也是為什麼有人稱智能音箱為「智障音箱」,是下一步要解決的重點之一。遠場拾音方面,目前的產品在普通環境下,5米之內都表現良好,但是再大的距離就普通出現識別率的急劇下降,影響體驗。聲紋識別(VPR)只有少數幾款產品能夠實現,但是聲紋識別作為語音入口重要的身份識別方式,安全意義重大。Iot聯動、內容和生態圈三者是互相緊密聯繫的,也是智能音箱能夠廣泛應用迅速普及的關鍵所在。小米、阿里、京東的生態愈加完善,以少海匯為代表的新生態的出現也為行業帶來的新的活力,相信不久的將來,智能音箱會真正成為一個不可撼動的入口。
功成不必在我,未來已經到來。智能音箱作為新的入口,已經有了相對成熟的硬體結構,迅速發展的AI支持,展現出了強大的生命力。語義解析、遠場拾音等技術迅速突破,Iot聯動和內容迅速豐富,以小米、阿里等為代表的各種老生態圈臻於完善,以少海匯為代表的新生態圈活力迸發。不得不說,AI智能音箱是一次深刻的革命,且這革命絕不僅僅是在智能家居領域。
___________________________
本文選自我的回答:xinhe sun:AI智能音箱會不會是智能家居的一次革命?
未經許可,禁止轉載!
為方便閱讀,已開通微信訂閱號「家+智能」:homeandsmart,頭條號:「家+智能「,新浪微博:@Henix_Sun
推薦閱讀:
※歡樂頌|「五美」個性家居養成記
※這個房子面積一樣,價格卻便宜一半,還有這等好事?
※夏天到了,有沒有讓很瘦很瘦男生穿衣服好看點的辦法?
※有哪些傢具類用品方便攜帶外出且適合組合拆裝?