微軟有哪些語音識別技術積累，Cortana 能否跟 Siri 和 Google Now 抗衡？

01-08

微軟正研發一款名為「Cortana」語音助手，它將融入微軟未來任何系統的服務中。報道。回到6月份，Windows Phone 操作系統的截屏遭泄露，當時，一個名為 Cortana 的應用程序沒引起人們重視。 via 微軟正在為Windows移動系統研究一款「Siri」

Microsoft Research在語音識別方面一直還是處於較為領先的位置的。Frank Seide他們弄的深度神經網路(DNN)語音識別模型（http://research.microsoft.com/pubs/153169/CD-DNN-HMM-SWB-Interspeech2011-Pub.pdf）效果與其它方法相比有了很大提高，而且現在已經在某種程度上DNN已經成為了做ASR的通用方法，在業界有不小的影響。

除了論文，微軟官方也有一些新聞稿，比如

Speech Recognition Leaps Forward

和

Deep-Neural-Network Speech Recognition Debuts

另外，去年我在MSRA的時候，我們組和Frank Seide以及Frank Soong他們合作做了一個實時（語音識別+翻譯+語音合成）的speech-to-speech translation demo，雖然不成熟，但是可以看到做得差的主要是我們翻譯的部分。。。 = =b，語音識別效果還是很好的。

精華部分（自己錄的）：

http://www.youtube.com/watch?v=3aSgLYgLnSY

全部（MSR官方賬號發的視頻：）

http://www.youtube.com/watch?v=Nu-nlQqFCKg

最後，關於你說的Cortana，我不是很了解，但是相信靠著MSR在語音方面的底子，應該還是有一定競爭力的。

語音識別做的再好也快到瓶頸了。

難得還是在語義識別，以及和具體業務的結合，這一點上Siri和Google Now也都沒有什麼驚喜。

個人淺見，對比分析如下：

Siri
1. 【核心價值】：省時間、省精力。通過語音（語音識別+語義理解），更便捷地交互+獲取信息。
2. 【優勢】：最好的服務聚合體驗。向上，整合進硬體（手機、汽車……）；向下，深入整合服務數據；中間，每個界面的UI都定製化。
3. 【劣勢】
  1. 必須用戶主動想到需求，而不能主動提供結果
  2. 語音交互，在公共場合不方便尷尬
  3. 語音識別、語義解析的技術瓶頸影響體驗、而且耗時
  4. 以上3點，導致移動場景下（碎片化、非私密、不好用），siri用不起來；目前可用的功能，主要是定備忘、打電話發簡訊
Google
now
1. 【核心價值】：信息更有用，更及時。個性化及時推薦。
  1. 記錄用戶過去行為及資料、興趣（from搜索歷史、常去地點、Gmail內容……）
  2. 及時推薦信息或服務。卡片+通知欄+launcher、Windows和Mac的Chrome瀏覽器。推薦邏輯，本質是IFTTT。
2. 【優勢】
  1. 移動場景更有用。一定程度規避了語音相關技術的當前瓶頸、不需要用戶主動問、可用的潛在場景也更多。
  2. 能結合google自身的產品和數據優勢，其他公司無法快速copy
3. 【劣勢】用戶不容易立即感知產品價值——需要先使用一段時間，才可能遇到驚喜推薦。而且對技術要求太高（定位、實時信息收集分析、大數據），可用場景也比較分散。
Cortana
1. 【核心價值】偏向siri的定位，但更強調「私人」、並加了google now的一些特點（微軟也有搜索產品基礎，bing），還加了情感化（參見電影《her》）
2. 【優勢】更擬人的情感變化及語音朗讀效果、能接入第三方服務
3. 【劣勢】感覺是siri+google
  now的結合體，但有用的特點不突出。
總結
1. 目前看不到Cortana能勝出的原因。相比siri，個人認為google now更有價值；但雙方都非常善於利用自己優勢，siri也有機會。
2. Ps，國內的語音助手們，本質上大都是siri模式，但目前無法解決那幾個劣勢問題，所以。。

技術積累很強，北京、西雅圖研究院各有一個語音組，每年都有很多高質量的論文，西雅圖產品部門還有一個研發組（做偏產品應用方面的研究，也發論文）。但是具體到產品，做得不是一般的爛。

最早用深度學習技術在語音識別取得重大突破，果實卻被谷歌和百度收穫……