你怎麼看當前中文語音識別技術在國內的應用？

01-20

國內有哪些主流應用集成了語音識別技術？
語音智能助手是未來移動互聯網的標配嗎？
想開發中文語音技術相關的應用，科大訊飛是比 Siri 更好的選擇嗎？
記憶之中 IBM、Motorola 也有語音識別的，怎麼好像銷聲匿跡了？
我最近在用@訊飛語音輸入法，我的湖南普通話識別率超過90%，在開車的時候尤其實用。

但它僅是一個工具，用戶更想要的可能是一個像Siri樣的智能助手，甚至藉助它控制別的應用。
那麼還有那些技術點要突破？

題主的問題很好，中文語音識別這個行業正需要這樣的用戶才能更好地發展。

國內有哪些主流應用集成了語音識別技術？

我個人接觸到的中文語音識別產品主要有：搜狗輸入法、訊飛輸入法、Apple Siri、Google Now（被牆了）和出門問問。後兩者主要是我在 Moto 360 上用的手機上還是比較偏好搜狗輸入法。

語音智能助手是未來移動互聯網的標配嗎？

無論是從鋼鐵俠還是到星際迷航，從 007 到變形金剛，機器語音識別和人工智慧永遠是被科幻電影用來打造酷炫效果的標誌之一。所以你問現在是不是移動互聯網的標配，我恐怕只能說還不是，畢竟我看不到大街上整天有人對著 Siri 說話，但我相信未來一定會是，只要這個技術能更成熟、更靈活，未來的人機交互上，語音會佔到更大的份額，也會成為移動互聯網的標配。

想開發中文語音技術相關的應用，哪個是比 Siri 更好的選擇？

Siri 沒用過不評價。早些年我分別用過科大訊飛和搜狗的語音雲服務，個人感受是搜狗速度快，科大訊飛的準確率高，但最近幾年看到搜狗的語音識別發展確實很快，畢竟搜狗輸入法用戶量大，提供的數據量足夠多，可以保證更好的迭代（看財報目前每天有1.9億次的語音調用），在準確率上下了狠功夫，不吹不黑，題主可以自己做一些橫向比較，這裡給一些鏈接做參考：

搜狗語音雲開放平台

訊飛開放平台

王小川首秀搜狗語音糾錯：突破語音識別最後3%-搜狐科技

用戶更想要的可能是一個像Siri樣的智能助手，甚至藉助它控制別的應用。那麼還有哪些技術點要突破？

這裡要突破的點從大範圍上講無非就是：

1、語音識別準確率；

2、NLP（自然語言處理）水平。

對於第一點而言，以目前的技術，只要有足夠的語音訓練數據 + 足夠強的計算力，提高到一個非常可觀的準確率已經不是一件難事。這一點從今年7月份王小川的演講上就可見一斑，準確率基本已經穩定在97%以上，只要不是太重的方言都沒什麼問題，還能實時轉寫。這明顯得益於近來興起的 Deep Learning 技術，儘管最近創投圈張嘴就是 AI 和 DL 有點倒胃，但比起前幾年什麼 O2O、雲計算、大數據這種噱頭還是要更紮實一些，就算有 Caffe 有 TensorFlow，也不是阿貓阿狗都能玩得起來的嘛。

對於第二點，感覺上就是更難的一個話題了，畢竟漢語博大精深。我最近接觸到一個項目，是醫學領域數據挖掘相關的，目的就是讓機器去理解患者描述的句子。比如患者的描述是「肚子疼」，那麼對應應該理解為「腹痛」再去檢索相關資訊才會顯出專業度。這當中可能就會涉及到中文的詞向量空間、核心詞的提取能力、近似詞的檢索速度等等細分專業領域。儘管目前從大體上來看，語音識別技術上有了長遠的進步，但是離人仍有很大的差距，在各個細分領域上都有非常大的進步空間。

最後值得一提的是，如果我自己做 VC / PE 的話，還是很看好這個產業的。比如前面有提到的出門問問，去年完成C輪融資估值3億美金。思必馳，目前估值20
億人民幣。當然還有前面提到的搜狗，昨天還在某財經公眾號上看到搜狗
Q3 的財報，單季度營收 11.1 億元，營收增速已超某度。

好了好了，還是趕緊搬磚爭取早日財務自由去做快樂的 VC / PE 吧。或許下次我會試試語音寫稿發到知乎上。

發一下我今天頭條的文章吧。

VR還早呢，或許聲控交互才是移動終端的下一個風口

——互聯網女皇的預言會成就訊飛與喜馬拉雅們的輝煌嗎

眼下，怕是互聯網最糾結的時刻：智能手機帶來的人口紅利將盡，彷彿所有人們日常生活中該有的應用都已經被開發出來、用戶們也同時失去了嘗試新鮮產品的動力；與此同時，向線下的突進因為過重燒錢沒有護城河的模式和諱莫如深看不懂的體制深水紛紛受阻，互聯網加了半天還是湊不上去；本來年初VR給諸位打了不少雞血、彷彿商用指日可待，但現在看來目前的終端too young、恐怕至多也才剛剛達到「塞班的階段」；而最近一直在提的內容、直播、網紅等伴隨著政策的收緊、大平台制霸和數據造假的曝光，看起來越來越不像是真正的風口……除去以上的種種，一場資本寒冬讓投資機構們徹底懵逼了，失去了往日的格局和耐心，歸根結底快沒錢了。

那麼問題來了，下一個機會在哪裡呢？

恰在此時，互聯網女皇來了，最新的年度趨勢報告十分之一的篇幅給了「語音」。女皇陛下是這麼說的：語音正在被重塑，成為人機交互的新範式，在過去75年里，每10年就有一次人機交互的重大革新，人類對機器的操作，從物理手柄按鍵，到物理鍵盤滑鼠，再到觸摸屏，而現在語音成為了重要的交互方式。她的案例是Amazon的硬體：Echo。其內置了Amazon Alexa語音助手，目標是佔領家居、汽車、手機的麥克風，還能智能購物。這款產品銷量已突破400萬台。女皇更是大膽指出：語音拐點已經到來，在2015年智能手機銷量下滑之後，Echo銷量或將騰飛。（以上引自《超過十分之一的篇幅給語音，互聯網女皇為何看好麥克風？》）

遙相呼應，最新一屆蘋果全球開發者大會WWDC上，庫克也放言將逐步向第三方開發者開放siri，如果這一切不是「講故事」的話，不出意料我們將看到iphone上出現更多的聲控APP，庫布斯是要玩一個「聲音版的生態化反」嗎？與此同時，谷歌公司也提出了雄心勃勃的Google Home計劃，利用語音和自然語言查詢技術的結合侵入用戶的客廳。那麼問題又來了，對於中國市場而言，聲音會是新的機會嗎，聲控交互會成為VR到來前大熱的交互模式嗎？中國的訊飛和喜馬拉雅們會一路插上翅膀開始騰飛嗎？

在此，菜狗必須首先潑一潑冷水，我最痛恨的莫過於照搬西方、哄抬賽道的路數打法，就像過去在文章中寫過的那樣，中國版的instagram、中國版的snapchat、中國版的……這些故事後來呢？所以如果今天是在這裡放言要有一個中國版的Echo，那就是我自抽耳光、忽悠大家。但是，儘管我們不能照搬照抄西方流行的產品模式，卻完全可以分析他背後的東西——需求、心理和社會趨勢：snapchat的崛起印證了im的高頻（臉書你反應慢了給了機會，但騰訊不會）、社交壓力帶來的發布反悔（騰訊有微信消息可撤回）、年輕人尋求沒有父母的個性空間（騰訊有QQ空間）。所以，不論有沒有人會去copy to china，這背後有一個話題非常值得探討：

聲控交互的商業價值有多大？以語音信息和交互為主打的平台，將有怎樣的市場潛力？

一、當下的聲音行業怎麼了？

有人要說，這回你外行了，聲音的故事早就被我們玩爛了，結果也就那樣。確實，印象中從許朝軍做啪啪的那一天開始，移動互聯網似乎就已經進入了「聲音時代」，然並卵。

1、工具領域，科大訊飛強大的語音喚醒、識別、輸入和交互技術從實驗室走上前台，領先是領先，但似乎並沒有得到太多的應用，讓人印象最深刻的恐怕就是訊飛輸入法和最近非常文藝好用的語記平台，問題不在於訊飛有沒有成為中國的siri（漢語領域肯定強於siri），問題在於即便siri也遠遠沒有達到預期的效果、成為人們主流的交互方式，只是一個可有可無的玩具。

2、社交領域，湧現出唱吧、啪啪、抬杠、陪我、比鄰、偶爾、派派等一批聲音社交平台，然而幾年下來誰也沒有真正達到「社交平台」的標準和要求。啪啪們的圖片加語音成了一種錦上添花的存在，遠遠沒有達到高頻剛需的狀態，更何況其閱讀成本奇高，遠遠不能和立刻一目了然的圖片視頻相比；更多的平台成了當年的168聲訊台、色情熱線，或者當年的碧海銀沙聊天室；即便在主流的微信平台上，動不動發語音的人、一發發一串的人也常常變成不受人們待見歡迎的存在。唯一做得好的可能就是唱吧，因為唱K這樣一種生活中常見的社交模式真的只能靠聲音。

3、內容領域，這可能是目前唯一可圈可點的區域，喜馬拉雅、echo、聽書、得到們從不同的角度切入，通過基於聲音的媒體內容吸引了一票擁孬：比如根據易觀智庫的《中國移動電台市場年度綜合報告2016》，作為行業領跑的喜馬拉雅，其日活用戶滲透率已經高達74.3%，這麼好的DAU數據即便放在整個移動互聯網領域也是不多見的，而最近這家平台剛剛通過售賣奇葩說老殭屍們的《好好說話》語音節目賺得盆缽滿溢。

那麼這裡就有一個問題，為什麼唯一做起來的是聲音內容呢？同時，在內容生態領域最強的莫過於「兩微一端」（微信、微博、新聞客戶端），主打聲音的內容平台能做成那樣的體量嗎，以後有一天人們會說「兩微一端一電台」？

二、當前聲音的癥結在哪裡？

有人又要說，聲音的內容是還不錯啊，但遠遠沒有到離不開的地步吧？而且，聲音這東西啊，太麻煩！是的，就是這個太麻煩！嚴重製約了聲音的發展。

（一）語音識別交互領域，聲音一直沒有多少存在感。

1、相關的技術要求太高。中國人說話遠不像老外那樣一個單詞一個意思，而且各地的口音又完全不同，所以語音的識別、喚醒、輸入、交互都是問題，當然強如科大訊飛已經可以破譯粵語、上海話、四川話了，但是還會有後面的問題。

2、使用場景有限。視覺和觸覺的交互隨時隨地都可進行，只要你低頭悄悄打開手機就行了，但是聲音呢，嘈雜的地方不行，人多的地方也不行，甚至晚上一個人了、對著冷冰冰的機器說話，也會有太裝太怪的感覺。

3、交互模式不自然。不論是siri的長按喚醒，還是傻乎乎地「嘿Siri」，感覺都比較違和，當你看著屏幕上siri正處於「傾聽錄音」狀態，心一下子就緊繃了，生怕說錯或者說得不及時，說完以後機器開始識別了，你看著進度條又莫名其妙地焦慮不安起來、它能不能聽懂呢，會不會聽錯呢？結果識別出來，果然是錯的，日了狗了……

4、應用生態遠未形成。儘管訊飛們已經開始開放語音功能和介面，但市面上並沒有出現很多的聲控交互應用，特別是——沒有出現有影響力的第三方應用。

（二）語音終端遠未成型，能夠大規模商用的中國版Echo還沒有出現，即便非常厲害的可能也市場影響有限，養在深閨人不識吧。

（三）語音內容成本過高。

1、信息獲取成本過高。看文字可以一目十行，看圖片可以盡收眼底，看視頻基本3秒內就可以判斷值不值得看下去。但是語音完全不是這樣，你聽一段語音（如果不是歌聲），往往得聽三分之一以上才能判斷是否值得聽，而這個過程是漫長的、聽的時候還動不動走神、左耳朵進右耳朵出，如果再加上漫長的前奏簡直令人抓狂。這還只是一段語音，如果我又在很多語音中來回播放暫停選擇想聽的內容呢？這個過程簡直繁瑣得崩潰了！

2、使用場景有限。一樣的道理，文字圖片可以在任何地方看吧，但是語音呢？

3、差異化價值「貌似」不高。既然都能看文字解決，為何要用語音呢，難道就是為了主播磁性的嗓音？如果是為了這些感性的體驗，視頻是不是更好一些呢？

這樣看起來，好像聲音一無是處，可真的是這樣嗎？解決幾個癥結就好了。

三、聲音的核心價值和競爭力

回到開頭，我們來看Echo這個產品。它和siri最大的不同在於：這是一個純粹通過聲音、完全不需要屏幕的產品，看起來就像一台音響，用起來就像和人對話一樣。進一步說，它解放了人們的眼睛和雙手，你可以一邊做別的事情，一邊用聲音和它交互。

這樣一說就清楚了，歸根結底siri和訊飛們並不是純粹的聲控交互產品，他們頂多只能算半聲控交互產品，因為從喚醒他們到判斷語音輸入準確與否到最終的結果顯現，你幾乎都要用到眼睛和手，聲控交互的核心價值「解放眼和手、不再低頭族」完全得不到顯現。換句話說，他們都是視觸覺交互的補充而已，所以本身就錦上添花、可有可無。

你用siri打開微信，比自己親手打開能方便多少呢？你用語音輸入法輸入一段話，錯了還得回刪，這真的比打字輸入更方便嗎？

但是Echo展現出的是純粹聲控交互完全不同的價值，並且這幾乎是一個「高頻剛需」。

1、抓住了不適宜使用手和眼睛的人群。比如中老年人、殘疾人、不擅長打字輸入的人群，除非有一天人類技術發達到腦波交互，否則聲音都是最適合他們的交互模式。

2、抓住了不方便使用手和眼睛的場景。這就是我們常說的「低頭族場景」，走在路上、正在開車、晚上睡前、保護視力。由於以往的聲控交互產品做得太差，中國人以強大的適應能力，練就了在這些場景「眼疾手快、目不離機」的超能力，哪怕視力下降、頭昏眼花、低頭撞人也在所不惜。但是試想一下，如果聲控交互真的做上去了，聲音真的成了喬布斯口中的「自然延伸」，他們還會這樣嗎？

3、創造了全新的伴隨式場景。小的時候，我們為何早上起來會聽收音機，因為可以邊聽邊做其他事情，一心兩用。對，就是這個一心兩用！今天我們為何會一邊跑步一邊開車一邊聽喜馬拉雅——像筆者年初一邊在虹橋火車站辦手續一邊在喜馬拉雅聽羅胖的跨年演說、一邊熱淚盈眶……這都是一心兩用呀！簡言之，聲控交互解放了人的手和眼，不僅在不適宜使用眼手的「低頭族場景」，更在其他豐富的時刻。通過聲控交互，你可以邊聽邊說，一邊干其他事情，這種一心多用的方便效率是不可抵禦的。本來這些事，你要不停切換APP來完成，或者放下手機、把視線移到別的地方，但是現在完全可以並行不悖、同步推進了。

4、聲音有其獨有的魅力。Echo首先是音響，可以播放音樂。而在人與人的溝通中，影響最大的是身體語言帶來的氣場（可惜隔了手機屏幕就完全體現不出來了），其次就是聲音（音調音色節奏），最後才是內容。從這個角度說，聲音的成本確實比文字高，卻遠比文字「有溫度」，黃執中的辯詞如果打成文字你未必讀得下去，但只要他魔鬼般的嗓音響起，你立刻覺得他什麼都是對的了；聲音確實沒有視頻一目了然，但成本卻遠比視頻要低，你不需要打瘦臉針玻尿酸弄出一張網紅臉，因為當你的聲音響起，沒有人在意發聲的人有沒有羅胖帥。這也是為什麼最近大火的分答會用語音，一來「盜版」成本高一點，二來聽到名人真實的聲音、這滿足感是不同的。

四、全新的機會，聲控領域的BAT

BAT？有人要說了，你這不是在拉大旗做虎皮嗎，說到底還是忽悠我們開發中國版的Echo呀。

恰恰相反，我並不認為Echo是創業者們最好的選擇，但是「基於純聲控交互」的APP卻可以成為一個機會，關鍵在於訊飛和喜馬拉雅們能不能迅速「醒轉」，構建出一個對第三方更加友好的生態。

什麼是基於「純聲控交互」的APP，說白了就是整個APP的使用過程都完全不需要通過屏幕觸摸、不需要動用眼睛和雙手，最好連喚醒他們都可以用聲音。這樣的APP一旦出現，我們就根本不需要購買Echo，因為手機就是個簡易版的Echo了，我把手機放在一邊，一邊做別的事情，一邊就可以使用聲控交互了。如果你使用與聲控系統匹配的專用耳麥，如果這個耳麥可以隨時響應、識別你微小的聲音（在人群中大聲很傻比），那麼耳麥就是Echo，就是手機之後真正的可穿戴智能硬體，比手錶之類強多了。

基於目前已經研發出的漢語語音識別喚醒技術，訊飛完全具備這樣的能力，但是成果多半在實驗室里睡大覺。如果能早一步開放出來，如果能搞好與蘋果安卓廠商們的合作不被「雪藏」，那麼接下來的勢能是非常可怕的。在筆者看來，一旦聲控交互成熟了，接下來在這五個區域有明顯的機會。

1、新一代的語音助理，各個聲控應用的統一調用入口。這是訊飛和siri們的機會，喜馬拉雅這樣的高活躍產品也可以向此進擊。簡言之就是聲控版的appstore、應用寶。只要這個入口處於開啟狀態，就可以隨時通過語音對話的方式調用各個聲控應用，而不需要打開屏幕用眼睛找到那個應用再點開——這就是軟體版的Echo。他的喚起和使用都應該是毫不費力、自然而然的，不要像siri那樣喊起來用力、用起來發急。可以想像，這個平台會是未來聲控交互的入口，是整個聲控應用生態的命脈。

2、聲控類的工具。在子不語的《下一代交互革命是語音：Voice In Voice Out》一文中，描述了這樣的場景：你可以和她交談，她可以幫你控制關於房子的一切，燈光、溫度、微波爐、冰箱……Echo 已經能做到什麼了呢？播放音樂、創建提醒、播報新聞自然不在話下，Echo 還能根據你在亞馬遜上的購物記錄，智能地幫你下單。甚至，藉助於前面提到的 Skills，已經有人用 Echo 控制了家中的幾乎所有電器：燈光、溫控、電視機、Apple TV、安保監控、熱水壺、車庫……當然，這裡就涉及到智能家居組網、車聯網等問題，後面會提到。

3、聲控類的社交。

a、熟人通訊方面，我們應該都見過這樣的場景，計程車上司機們通過對講平台互相勾兌、插科打諢。路上匆忙的低頭族，很多都在回微信，而如果通過聲控交互構建一個對講平台，這個體驗就完全不一樣了，你不需要用眼和手也可以隨時給某某捎去一段話，別人給你發來語音、聲控交互會提示你是否接聽，而如果這個交互可以通過耳麥自動識別微小的語音（並根據接聽者情況適度放大），那麼以後走在路上就可以輕鬆而不違和地與人通話了，這個事情的意義在於將從另一個角度接管用戶的關係鏈，形成大網優勢。

b、陌生人社交方面，當下社交產品最大的痛點就是社交質量差、低效社交多、效率遠遠趕不上用戶預期，一個突出表現就是搭訕無人理睬、理睬也在若干小時之後（所以人們為何喜歡直播，因為美女主播至少會說謝謝反饋下），但是語音溝通是一個更加強調即時性和真實性的場景，又不像視頻那麼需要「化妝和端著」，所以反而可能成為新的突破口。至於當下的語音社交平台為何多數做的不好，因為太像色情聲訊台了！到底應該怎麼做，筆者後頭的產品會做出回答。

4、聲音類的內容。前面已經說過，聲音內容是目前做的最好的區塊，那麼接下來的重點是：

a、改善交互。現在的模式是打開列表、看標題內容簡介、點播放鍵、再點暫停鍵、再看列表，這個過程太累了。但是試想一下，為什麼我們小時候調收音機換台不會這麼累呢？為什麼我們走在人群中偷聽不同人的對話不會這麼累呢？因為這都是步驟更少、更加自然而然地交互，實際上美國已經有一款非常厲害的可視化聲音應用解決了交互成本問題，是什麼先不表。

b、興趣推薦。如果選擇值得一聽的聲音節目成本如此之高，那麼一個比較好的辦法就是基於興趣的推薦來降低選擇難度。比如喜馬拉雅已經推出了「猜你喜歡」系統，可以通過深度學習、進行類似今日頭條那樣的個性化推薦。那麼再進一步，如果以後這個推薦可以不需要通過眼睛完成呢，直接傳來一個聲音：「小喜根據你的愛好搜到了幾個節目，下面念下標題，你感興趣就喊要這個……」

c、時空觸發。這個意思是，應該給更多的信息賦予時空屬性，比如在某一時刻放出，或者在某一位置放出。舉一個例子，你今天剛到一家商場，連上wifi，耳麥里立刻提醒你有最新的優惠活動信息、要不要聽。你像即刻那樣設置一些關注節點，比如某股又跌了，當這個消息到來，耳麥里立刻提醒你要不要聽。你到達某個景點，耳邊響起景點的典故。你晚上睡不著了，耳邊響起周圍人的聲音，像不像《her》？

d、做強參與。同為視頻，直播爆火的勁頭遠遠強於當年的視頻平台和短視頻，這也釋放了一個信號，用戶並不滿足於成為單向的內容接受者，他們也希望成為內容的參與者甚至再創作者，他們也希望得到更多的互動和回饋，來滿足參與感、存在感和歸屬感，所以類似電台的互動直播很重要。

e、聲紅生態。如何俘獲聲音領域的「網紅」們，通過更豐富的辦法幫助他們獲取規模精準流量、降低內容生產門檻、維護粉絲社群、持續多樣化盈利。比如喜馬拉雅的PUGC生態戰略，已經擁有400萬主播、8萬認證主播，這個供給端的大棋該怎麼下下去？

f、製作成本。事實上製作成本的問題完全可以解決，一個是更加靈活強大的聲音編輯工具，另一個其實是文字到聲音的轉化工具——你聲音不好？你不會抑揚頓挫？那麼訊飛正在嘗試在語記一類的平台推出文字轉化成聲音的功能，不是冰冷死板的普通話，而是可以轉成蘿莉的聲音、方言的聲音、林志玲的聲音、單田芳的聲音……

5、聲控類的終端。儘管菜狗對硬體終端充滿了「恐懼心理」，但是說到底，如果這個聲控交互能強大到佔領你的客廳，佔領你的卧室，佔領你的駕駛室，甚至更強大一些，可以無處不在，像《her》中那樣在雲端接受和處理不同人的信息，你可以在任意的咖啡館、寫字樓、商店、公交上喚起他……那麼毫無疑問，這一切都需要終端領域的進擊。如果這個事情有人能做起來，那就是真正的「生態化反」了。

五、聲控交互還有多遠？

聲控交互不是簡單的YY，事實上未來已經到來。

以智能終端為例，科大訊飛已經推出了一款名為叮咚的智能wifi音箱，也許用不了多久這種漢語聲控的設備就會出現在你的身邊。同時進軍音箱領域的喜馬拉雅FM一方面將內容植入Sonos、哈曼、漫步者、Misfit等智能產品中，另一方面通過收購國內頂尖音箱廠商海趣科技，自主研發了3D降噪耳機等產品。

在應用場景方面，兩家聲音領域的巨頭聯合推出了語音開放平台，喜馬拉雅FM的「喜馬拉雅inside」開放平台直接對接各類下游硬體研發和生產企業，打造應用生態、拓寬應用場景的野心一目了然。喜馬拉雅FM的海量音頻內容已經植入智能家居、汽車、音箱等超過300家品牌，包括寶馬、福特、比亞迪、百度Carlife在在內的幾乎所有主流車廠（車載系統）已全線接入喜馬拉雅FM；車生活系列的隨車聽正在侵入用戶的駕駛室，家聲活系列的故事機、聽書寶、接入喜馬拉雅的智能冰箱已經開始覬覦用戶的家居生活。與此同時蜻蜓FM和考拉FM的車聯網、智能家居戰略已經磨刀霍霍。

這就是不久的將來，聲音將像水和電一樣，隨取隨用，自由流動在每一個人的耳朵和心裡。明確的人群和場景、高頻應用的可能、進一步侵入住家私車進而無處不在的潛力、明確的技術和標準門檻，這個故事看來很美好。但是最後菜狗還是必須提醒大家，這一切的前提是：技術足夠強大並且向第三方開放、聲控交互的全面優化和規範形成、蘋果安卓們願意讓出這塊肥肉、有影響力的聲控應用的出現。這裡面每一步的實現都不是輕而易舉的，但正如互聯網女皇說的那樣，聲音正在成熟，目前是最接近這個機會的節點。

本人張俊，野路子產品菜狗一枚，創業在上海，測試打磨全新的消費向興趣社區中，運營sns lab社群，事件營銷研究者，微信號：biohazard2015，歡迎勾兌，吵架不回。

這方面最傳統的應用是在醫學領域給一些聽力有障礙的人交流用近年來開始進入大眾視野主要是一些技術的應用使識別率大幅提升不過感覺大部分都是賣個新鮮沒有什麼實用性

語音輸入法，比如訊飛口訊。還有使用Google Voice的搜狗語音輸入法。

想要開發第三方應用的話，訊飛應該是比較好的平台，Google Voice也不錯。Siri是平台嗎？我還真不知道還能用Siri開發第三方應用呢。

國內目前有哪些主流應用集成了語音識別技術？

新浪微博、以及面向駕車用戶的導航軟體基本上都集成了訊飛語音識別

語音智能助手會不會是未來移動互聯網終端的標配？

是的，終端做平台

想要開發中文語音技術相關的應用，科大訊飛是比 Siri 更好的選擇嗎？

Siri 如果支持中文並開放，是個選擇。否則只能選用目前更擅長中文聽寫的科大訊飛或其它平台。

此外，我們的產品在選型時對科大訊飛和其競品進行了覆蓋幾百個案例的簡單測試，訊飛以微弱優勢勝出。而從合作的支持程度和易操作性言，訊飛確是目前最好的選擇。比如訊飛會向合作方要後者的用戶請求進行訓練，以提高識別率。姑妄猜測，如果大家的技術都差不多，那麼訓練越多的更容易勝出。

通常衡量語音識別技術的幾個技術指標有準確率、反應時間以及處理性能。目前中文的通用語音連續識別準確率能達到95%。識別率提升的關鍵是模型的訓練。由於發表文章都是公開的，大家的演算法差異不顯著。主要是比誰的訓練數據更多、更好。業界公認從目前水平提升至99%甚至100%的路還很長。這主要是語音的一些特性決定的。一、受場合、情緒、身體狀況、內容上下文的影響，導致字或詞的語音特性（重音、音調、音量和發音速度等）產生改變。二、
語音的模糊性。漢語在會話中不同的詞可能聽起來是相似的。人有時也會聽不清楚更何況機器。三、漢語的複雜性，對於相同發音的字、詞，有時基於語言模型不能確定究竟是哪個字，如章麗麗/張莉莉。四、環境環境雜訊干擾，對語音識別有嚴重影響，尤其是出現多個人聲將對正常識別造成很大幹擾。

對於一些比較牛氣的應用有：移動互聯網上的應用你可以試試雲知聲語音助手，是目前比較精準的語音助手，語音識別+語義理解，支持超過30多個領域。

就語音識別，想說其實語音是人類的聲音，其中包含了太多的富有信息，如果單純看識別文字，可能用途會受限。從廣義上看語音識別為識別出語音包含的諸多「信息」，如聲紋、語種、關鍵詞、情緒、唱歌調子....等等，其實應用很廣泛～

情況還很複雜，很難說誰會是最後的贏家，看不見的對手才真正可怕。

目前國內的各大主流應用均集成了訊飛語音雲提供的語音技術，微博類應用如新浪微博、紅圍脖、搜狐微博，簡訊類應用如米聊、瓦力簡訊、語音發簡訊等，搜索類應用如盤古搜索等，娛樂類應用如樂么樂么，還有包括日程管理類的應用如365日曆、挖財，閱讀類應用如掌閱、91熊貓看書，各大導航類應用也全部採用了訊飛的語音技術。

訊飛在智能語音尤其是中文語音方面一直走在國際IT巨頭的前面：在美國國家標準技術研究院舉辦的「NIST語音識別大賽」連續4年（2008-2011）名列前茅；在「Blizzard Challenge」全球英文合成大賽中，連續6年（2006-2011）蟬聯冠軍。

3.22日，在國家會議中心，訊飛將發布新一代語音雲平台，讓大家感受到語音核心技術的新的進展。

真的要想普及語音識別系統，需要至少兩年的時間，機器人工業最需要語音識別系統了。。

語音識別從上世紀五十年代一直發展到現在，已經從一個啼哭的嬰兒成長為一個20歲出頭的青年，接下來的十年將是ASR的成熟期和播種期，Nuance是這個產業的領頭羊，訊飛是中國的Nuance！

中文的語音識別和英語的語音識別簡直是兩種概念。

由於中文的複雜性，比如同一個拼音不同的聲調代表著不同的很多字，還有在不同的語境內使用不同的字和語氣，甚至包括隱語之類的東西，在英文里都是很少有的。所以開發一個中文的語音識別軟體的難度要比開發英文的大得多。這也是為什麼siri遲遲不出中文的原因。

科大訊飛應該是業內做的最好的一個了，這真的不容易，我認為科大訊飛的潛力很大，完全可以超越siri，我期待著這一天。

這個不是自吹自擂啊，現在百度的語音識別技術，在吳恩達加盟後，通過深度學習，已經做的非常好了。新的百度語音開放平台也上線了，永久免費~~~

1、訊飛的能力在語音合成，而且是中文語音合成，但是語音識別，訊飛差Nuance不是一個等級，這是兩個等級。

2、Nuance商用很多年了。siri用的也是Nuance的方案！

3、中文環境有其特殊性，但是我不看好訊飛能夠比Nuance及其他機構做得更好！

4、我接觸的國內做NLP，識別領域的專家學者的了解，訊飛真是挺能忽悠的，能不能成事是另外一回事！

BTW：

科大訊飛的高管瘋狂減持股票，用腳投票是對其能力的最好反映！