國內的智能音箱後台都是用自己的技術嗎?
國內的智能音箱,比如天貓精靈、小米音箱、喜馬拉雅小雅等,他們的語音識別、理解等是用自己的技術嗎?還是訊飛等第三方服務?
天貓精靈:asr不清楚,nlu、tts自研的小米:asr主用獵戶星空、nlu小米大腦、tts獵戶星空
小雅:asr、nlu、tts獵戶星空
叮咚:asr、nlu、tts科大訊飛若琪:全自研出門問問:全自研渡鴉:asr、nlu、tts百度dueros
訊飛的,術業有專攻
多數音箱都不是自己花時間研發語音引擎。也沒必要,現階段絕大多數智能音箱體驗根本可以說是非常不理想,再發展個十年也不太可能值得花大價錢研發定製的語音引擎。
也許等你把所有通電的都用語音控制後以及空間內數百個感測器,和成千上萬項結合運算這些感測器及用電器每秒產生的數據並篩選出可以播報的語音報告。等你用過後會發現,這個工程量不是幾家公司可以勝任的,這需要整個社會人均的編程基礎達一定程度後才有可能實現。這又涉及到教育問題了,十年樹木百年樹人,等吧。
謝邀,語音人工智慧萌新,強行回答一發,適合跟我一樣的小白和萌新閱讀??
————————————分割線————————————————
我們現在使用的智能音箱,大致需要以下幾方面的技術組成(不考慮本地處理的晶元這些,屬於都電子產品都有的部分):
(音頻)→前端聲學硬體(麥克風,包括各種線性/圓形等麥克風陣列和單/雙麥克風)→( 多路合一降噪後的音頻)→ASR(Automatic Speech Recognition,語音識別引擎)→(文字)NLP(Natural Language Processing,自然語言處理,包括NLU,Natural Language Understanding自然語言理解和NLG,Natural Language Generating,自然語言生成)→(文字)→TTS(Text to Speech,將文字轉語音)
顧名思義,這些技術大致的功能是:
麥克風:唱過K的都知道麥克風是什麼吧,籠統來說就是收音的設備,但智能音箱包含的麥克風,是由4/6/8麥克風按照一定設計組成的一個模組,聲學是一個非常複雜的系統,它受到環境、說話人的干擾因素太多(雜訊、混響)。想像一下人為什麼進化出2隻耳朵,耳朵里為什麼會有耳蝸等複雜精密的構造,這都是聲學傳播時的複雜性訓練出來的,為什麼在有其他人說話的情況下,還能聽到一個正在跟你說話的人的聲音,對於麥克風陣列也一樣。這裡不多贅述,以免出錯。
ASR:將人所說的話識別為具體的文字,比如"jin1tian1xing1qi1ji3",根據長期學習語料之後,判斷出比較可能的文字是"今天星期幾",而不是"金添興欺己";。語料學習得越多,越容易判斷出哪幾個音節在一起所代表的文字最可能出現。但即使識別出來了"今"、"天"、"星"、"期"、"幾"這5個文字,在ASR階段,這5個字沒有任何含義,只是文字本身,後台仍然不知道你是在問今天是一周7天里的哪一天。
NLU:理解"今"、"天"、"星"、"期"、"幾"這5個字組合在一起後代表著什麼意思,這同樣需要學習語料,知道"今""天"大概率會在一起組成一個詞——"今天+星期幾",而不是"今"+"天星"+"期幾",諸如此類。當然,我是把其中的過程拆開來說,後台在判斷的時候不是把所有可能都窮舉一遍然後選出最優。
NLG:按照上面NLU同理可證,把機器想說的話,通過人類的語言,生成出來。
TTS:Text to Speech,將文字轉語音,就是將NLU之後得到的文字,模擬成人聲,比如高德地圖裡郭德綱和林志玲都是提取了二人的聲音特徵(錄音、標註、建模、優化)再進行模擬的,不然難道要讓林志玲把全國地名念一遍嘛(前方路口左轉,進入後廠村路)。
現在國內麥克風陣列代表公司有科大訊飛、聲智科技等,ASR有科大訊飛、阿里、百度、思必馳、雲知聲等,NLP有海知智能等。(包含但不限於,因為有些公司是說自己做全棧,這裡只提及其部分業務)
當然,也有與上述處理路徑不太一樣的技術,比如我的東家語智科技,並不通過麥克風陣列的方式將遠場語音音頻在本地進行預處理在上傳雲端call傳統的近場ASR,而是直接把帶著雜訊的原始音頻上傳到雲端進行處理,這樣就不用受到麥克風陣列的體積、成本、硬體設計的局限,可以讓更多產品擁有語音交互能力啦。
答主所說的後台,大概就是硬體以外的部分吧,以上也是我自己對入行後了解到一點淺顯的認識的簡單梳理。
如有錯誤和紕漏請大神來批評指導哇~在此先致謝!給大家拜個早年~——————————再度分割——————————
評論中有知乎er提出質疑,以上回答有沒有針對這個問題,為了照顧一些人的閱讀理解水平,我解釋一下為什麼問"後台技術都是用自己家的嗎"而我卻回答了後台技術都有哪些。
因為問題中的"後台技術"和"都"問得比較籠統,不太適合直接回答"是"or"不是"。
因為假設A公司做了其中一個環節而不是全部,那算不算是沒有自己的技術呢?所以我把智能音箱後台技術整個鏈條進行了拆解,然後順帶解釋一下每個技術用來做什麼的,並提供了每個技術對應哪些公司在做。
都是第三方,我之前的項目用的是科大訊飛的sdk,有網路版和離線版
天貓精靈用的是思必馳的, 小米應該也是思必馳
喜馬拉雅應該也是第三方的
語音部分大多數使用的是訊飛、百度等的雲服務,而且如果不是特別有錢或者特別在意商業秘密的泄露,都不會選擇自己從頭開發,雖然現在門檻有所降低。
各種音箱體驗不佳,大部分問題不能怪語音技術,看看文字對話機器人的智商就明白了。語音識別的識別錯誤只是進一步降低了智商而已,從現在語音識別的準確率來講,這點損失基本可以忽略不計。
理解部分,因為定製化特性明顯,基本都是自己搗鼓,沒有通用的服務可用,字元串匹配、搜索、關鍵詞、槽、語義相似度度量、意圖分類、LSTM...林林種種,在自己領域上的FAQ語料上,總是能夠做出來。至於好不好,大家都知道的。
你問的問題太籠統,容易回答文不對題,是不是首先應該說明,用到什麼技術,然後再說是不是自助開發
推薦閱讀:
※Home Assistant + 樹莓派:強大的智能家居系統 · 設備接入篇
※"Smart" 和 "Conscious",用於描述未來家居,哪個詞更恰當?
※為何說新風系統將成為2018年不可或缺的智能家居?
※鎖言極是 | 你家的門適合安裝智能鎖嗎?
※鑒別與製作水晶頭(RJ45)
TAG:智能家居 | 智能音箱 | AmazonEcho |