如何看待Baidu的Deep Speech 2語音識別系統入選MIT科技評論十大突破?
01-08
最近看到MIT科技評論公布了2016十大科技突破,百度的Deep Speech 2入選其中,請問百度在語音識別方面做到現在的這種地步處於世界上一種什麼樣的水平?原文中提到百度的系統應該是universial 的,可以適用於大部分語言的,事實上真的是這樣的么?百度是如何把深度學習技術應用到工業化環境下,並能夠scale到同時服務上百萬條query?
參考原文鏈接:10 Breakthrough Technologies 2016Conversational Interfaces百度公眾號自己提供的譯文:百度深度語音識別系統入選MIT 2016十大突破技術
之前和組裡的小夥伴們聊過類似的問題,我們一致認為deep speech 2的設計思路違背deep speech 1。 deep speech 1雖然創新不多然而模型非常漂亮,簡單好使,deep speech 2卻在把模型搭的越來越深的道路上越走越遠。。Deep speech 2的成功不能否認,但是啥「十大突破」還遠遠談不上。
屬於知乎不知道怎麼黑的水平……
性能優化的工作做得很多很好
首先,的確是有創新,特別是最上層損失函數的設計。
然後百度的數據量的確是大,依託整個產品體系,獲取訓練數據的方式優勢也非常大。
模型創新+大數據,出成果也是正常的,絕對不是強行吹。推薦閱讀:
※對於圖像識別和語音識別,其各自的深度學習框架的實現差異大嗎,假如理解了其中之一,轉向另一邊容易嗎?
※現有的語音識別技術能否達到自動輸出嚴式國際音標的水平?
※行為識別(action recognition)目前的難點在哪?
※基於深度學習的目標跟蹤演算法是否可能做到實時?
※如何評價谷歌的xception網路?
TAG:百度 | 機器學習 | 語音識別 | 深度學習DeepLearning |