微軟有哪些語音識別技術積累,Cortana 能否跟 Siri 和 Google Now 抗衡?
微軟正研發一款名為 「Cortana」 語音助手,它將融入微軟未來任何系統的服務中。報道。回到6月份,Windows Phone 操作系統的截屏遭泄露,當時,一個名為 Cortana 的應用程序沒引起人們重視。 via 微軟正在為Windows移動系統研究一款「Siri」
Microsoft Research在語音識別方面一直還是處於較為領先的位置的。Frank Seide他們弄的深度神經網路(DNN)語音識別模型(http://research.microsoft.com/pubs/153169/CD-DNN-HMM-SWB-Interspeech2011-Pub.pdf)效果與其它方法相比有了很大提高,而且現在已經在某種程度上DNN已經成為了做ASR的通用方法,在業界有不小的影響。
除了論文,微軟官方也有一些新聞稿,比如Speech Recognition Leaps Forward和Deep-Neural-Network Speech Recognition Debuts
另外,去年我在MSRA的時候,我們組和Frank Seide以及Frank Soong他們合作做了一個實時(語音識別+翻譯+語音合成)的speech-to-speech translation demo,雖然不成熟,但是可以看到做得差的主要是我們翻譯的部分。。。 = =b,語音識別效果還是很好的。
精華部分(自己錄的):http://www.youtube.com/watch?v=3aSgLYgLnSY全部(MSR官方賬號發的視頻:)http://www.youtube.com/watch?v=Nu-nlQqFCKg最後,關於你說的Cortana,我不是很了解,但是相信靠著MSR在語音方面的底子,應該還是有一定競爭力的。語音識別做的再好也快到瓶頸了。
難得還是在語義識別,以及和具體業務的結合,這一點上Siri和Google Now也都沒有什麼驚喜。個人淺見,對比分析如下:
Siri
【核心價值】:省時間、省精力。通過語音(語音識別+語義理解),更便捷地交互+獲取信息。
【優勢】:最好的服務聚合體驗。向上,整合進硬體(手機、汽車……);向下,深入整合服務數據;中間,每個界面的UI都定製化。
【劣勢】
必須用戶主動想到需求,而不能主動提供結果
語音交互,在公共場合不方便尷尬
語音識別、語義解析的技術瓶頸影響體驗、而且耗時
以上3點,導致移動場景下(碎片化、非私密、不好用),siri用不起來;目前可用的功能,主要是定備忘、打電話發簡訊
Google
now【核心價值】:信息更有用,更及時。個性化及時推薦。
記錄用戶過去行為及資料、興趣(from搜索歷史、常去地點、Gmail內容……)
及時推薦信息或服務。卡片+通知欄+launcher、Windows和Mac的Chrome瀏覽器。推薦邏輯,本質是IFTTT。
【優勢】
移動場景更有用。一定程度規避了語音相關技術的當前瓶頸、不需要用戶主動問、可用的潛在場景也更多。
能結合google自身的產品和數據優勢,其他公司無法快速copy
【劣勢】用戶不容易立即感知產品價值——需要先使用一段時間,才可能遇到驚喜推薦。而且對技術要求太高(定位、實時信息收集分析、大數據),可用場景也比較分散。
Cortana
【核心價值】偏向siri的定位,但更強調「私人」、並加了google now的一些特點(微軟也有搜索產品基礎,bing),還加了情感化(參見電影《her》)
【優勢】更擬人的情感變化及語音朗讀效果、能接入第三方服務
【劣勢】感覺是siri+google
now的結合體,但有用的特點不突出。
總結
目前看不到Cortana能勝出的原因。相比siri,個人認為google now更有價值;但雙方都非常善於利用自己優勢,siri也有機會。
Ps,國內的語音助手們,本質上大都是siri模式,但目前無法解決那幾個劣勢問題,所以。。
技術積累很強,北京、西雅圖研究院各有一個語音組,每年都有很多高質量的論文,西雅圖產品部門還有一個研發組(做偏產品應用方面的研究,也發論文)。但是具體到產品,做得不是一般的爛。
最早用深度學習技術在語音識別取得重大突破,果實卻被谷歌和百度收穫……
推薦閱讀:
※想學語音識別技術用什麼教材入門比較好?
※如何理解迅雷新產品「心聲」和「心膜」?
※如何自己寫個語音識別系統?
※能否訓練一個狗語 AI,讓它理解我的狗在對我說什麼?
※語音識別中區分性訓練(Discriminative Training)和最大似然估計(ML)的區別?
TAG:微軟Microsoft | 語音識別 | Cortana |