大家怎麼看待現在市面上的智能語音產品?訊飛語點、智能360、口袋語音助手、小i機器人

訊飛的語音識別很厲害,基本都用的他家的。但是每家都有自己的語義識別,口袋語音助手貌似做得很不錯。訊飛的界面很炫,感覺產品比較成熟


發一下我今天上頭條的文章吧。

VR還早呢,或許聲控交互才是移動終端的下一個風口

——互聯網女皇的預言會成就訊飛與喜馬拉雅們的輝煌嗎

眼下,怕是互聯網最糾結的時刻:智能手機帶來的人口紅利將盡,彷彿所有人們日常生活中該有的應用都已經被開發出來、用戶們也同時失去了嘗試新鮮產品的動力;與此同時,向線下的突進因為過重燒錢沒有護城河的模式和諱莫如深看不懂的體制深水紛紛受阻,互聯網加了半天還是湊不上去;本來年初VR給諸位打了不少雞血、彷彿商用指日可待,但現在看來目前的終端too young、恐怕至多也才剛剛達到「塞班的階段」;而最近一直在提的內容、直播、網紅等伴隨著政策的收緊、大平台制霸和數據造假的曝光,看起來越來越不像是真正的風口……除去以上的種種,一場資本寒冬讓投資機構們徹底懵逼了,失去了往日的格局和耐心,歸根結底快沒錢了。

那麼問題來了,下一個機會在哪裡呢?

恰在此時,互聯網女皇來了,最新的年度趨勢報告十分之一的篇幅給了「語音」。女皇陛下是這麼說的:語音正在被重塑,成為人機交互的新範式,在過去75年里,每10年就有一次人機交互的重大革新,人類對機器的操作,從物理手柄按鍵,到物理鍵盤滑鼠,再到觸摸屏,而現在語音成為了重要的交互方式。她的案例是Amazon的硬體:Echo。其內置了Amazon Alexa語音助手,目標是佔領家居、汽車、手機的麥克風,還能智能購物。這款產品銷量已突破400萬台。女皇更是大膽指出:語音拐點已經到來,在2015年智能手機銷量下滑之後,Echo銷量或將騰飛。(以上引自《超過十分之一的篇幅給語音,互聯網女皇為何看好麥克風?》)

遙相呼應,最新一屆蘋果全球開發者大會WWDC上,庫克也放言將逐步向第三方開發者開放siri,如果這一切不是「講故事」的話,不出意料我們將看到iphone上出現更多的聲控APP,庫布斯是要玩一個「聲音版的生態化反」嗎?與此同時,谷歌公司也提出了雄心勃勃的Google Home計劃,利用語音和自然語言查詢技術的結合侵入用戶的客廳。那麼問題又來了,對於中國市場而言,聲音會是新的機會嗎,聲控交互會成為VR到來前大熱的交互模式嗎?中國的訊飛和喜馬拉雅們會一路插上翅膀開始騰飛嗎?

在此,菜狗必須首先潑一潑冷水,我最痛恨的莫過於照搬西方、哄抬賽道的路數打法,就像過去在文章中寫過的那樣,中國版的instagram、中國版的snapchat、中國版的……這些故事後來呢?所以如果今天是在這裡放言要有一個中國版的Echo,那就是我自抽耳光、忽悠大家。但是,儘管我們不能照搬照抄西方流行的產品模式,卻完全可以分析他背後的東西——需求、心理和社會趨勢:snapchat的崛起印證了im的高頻(臉書你反應慢了給了機會,但騰訊不會)、社交壓力帶來的發布反悔(騰訊有微信消息可撤回)、年輕人尋求沒有父母的個性空間(騰訊有QQ空間)。所以,不論有沒有人會去copy to china,這背後有一個話題非常值得探討:

聲控交互的商業價值有多大?以語音信息和交互為主打的平台,將有怎樣的市場潛力?

一、當下的聲音行業怎麼了?

有人要說,這回你外行了,聲音的故事早就被我們玩爛了,結果也就那樣。確實,印象中從許朝軍做啪啪的那一天開始,移動互聯網似乎就已經進入了「聲音時代」,然並卵。

1、工具領域,科大訊飛強大的語音喚醒、識別、輸入和交互技術從實驗室走上前台,領先是領先,但似乎並沒有得到太多的應用,讓人印象最深刻的恐怕就是訊飛輸入法和最近非常文藝好用的語記平台,問題不在於訊飛有沒有成為中國的siri(漢語領域肯定強於siri),問題在於即便siri也遠遠沒有達到預期的效果、成為人們主流的交互方式,只是一個可有可無的玩具。

2、社交領域,湧現出唱吧、啪啪、抬杠、陪我、比鄰、偶爾、派派等一批聲音社交平台,然而幾年下來誰也沒有真正達到「社交平台」的標準和要求。啪啪們的圖片加語音成了一種錦上添花的存在,遠遠沒有達到高頻剛需的狀態,更何況其閱讀成本奇高,遠遠不能和立刻一目了然的圖片視頻相比;更多的平台成了當年的168聲訊台、色情熱線,或者當年的碧海銀沙聊天室;即便在主流的微信平台上,動不動發語音的人、一發發一串的人也常常變成不受人們待見歡迎的存在。唯一做得好的可能就是唱吧,因為唱K這樣一種生活中常見的社交模式真的只能靠聲音。

3、內容領域,這可能是目前唯一可圈可點的區域,喜馬拉雅、echo、聽書、得到們從不同的角度切入,通過基於聲音的媒體內容吸引了一票擁孬:比如根據易觀智庫的《中國移動電台市場年度綜合報告2016》,作為行業領跑的喜馬拉雅,其日活用戶滲透率已經高達74.3%,這麼好的DAU數據即便放在整個移動互聯網領域也是不多見的,而最近這家平台剛剛通過售賣奇葩說老殭屍們的《好好說話》語音節目賺得盆缽滿溢。

那麼這裡就有一個問題,為什麼唯一做起來的是聲音內容呢?同時,在內容生態領域最強的莫過於「兩微一端」(微信、微博、新聞客戶端),主打聲音的內容平台能做成那樣的體量嗎,以後有一天人們會說「兩微一端一電台」?

二、當前聲音的癥結在哪裡?

有人又要說,聲音的內容是還不錯啊,但遠遠沒有到離不開的地步吧?而且,聲音這東西啊,太麻煩!是的,就是這個太麻煩!嚴重製約了聲音的發展。

(一)語音識別交互領域,聲音一直沒有多少存在感。

1、相關的技術要求太高。中國人說話遠不像老外那樣一個單詞一個意思,而且各地的口音又完全不同,所以語音的識別、喚醒、輸入、交互都是問題,當然強如科大訊飛已經可以破譯粵語、上海話、四川話了,但是還會有後面的問題。

2、使用場景有限。視覺和觸覺的交互隨時隨地都可進行,只要你低頭悄悄打開手機就行了,但是聲音呢,嘈雜的地方不行,人多的地方也不行,甚至晚上一個人了、對著冷冰冰的機器說話,也會有太裝太怪的感覺。

3、交互模式不自然。不論是siri的長按喚醒,還是傻乎乎地「嘿Siri」,感覺都比較違和,當你看著屏幕上siri正處於「傾聽錄音」狀態,心一下子就緊繃了,生怕說錯或者說得不及時,說完以後機器開始識別了,你看著進度條又莫名其妙地焦慮不安起來、它能不能聽懂呢,會不會聽錯呢?結果識別出來,果然是錯的,日了狗了……

4、應用生態遠未形成。儘管訊飛們已經開始開放語音功能和介面,但市面上並沒有出現很多的聲控交互應用,特別是——沒有出現有影響力的第三方應用。

(二)語音終端遠未成型,能夠大規模商用的中國版Echo還沒有出現,即便非常厲害的可能也市場影響有限,養在深閨人不識吧。

(三)語音內容成本過高。

1、信息獲取成本過高。看文字可以一目十行,看圖片可以盡收眼底,看視頻基本3秒內就可以判斷值不值得看下去。但是語音完全不是這樣,你聽一段語音(如果不是歌聲),往往得聽三分之一以上才能判斷是否值得聽,而這個過程是漫長的、聽的時候還動不動走神、左耳朵進右耳朵出,如果再加上漫長的前奏簡直令人抓狂。這還只是一段語音,如果我又在很多語音中來回播放暫停選擇想聽的內容呢?這個過程簡直繁瑣得崩潰了!

2、使用場景有限。一樣的道理,文字圖片可以在任何地方看吧,但是語音呢?

3、差異化價值「貌似」不高。既然都能看文字解決,為何要用語音呢,難道就是為了主播磁性的嗓音?如果是為了這些感性的體驗,視頻是不是更好一些呢?

這樣看起來,好像聲音一無是處,可真的是這樣嗎?解決幾個癥結就好了。

三、聲音的核心價值和競爭力

回到開頭,我們來看Echo這個產品。它和siri最大的不同在於:這是一個純粹通過聲音、完全不需要屏幕的產品,看起來就像一台音響,用起來就像和人對話一樣。進一步說,它解放了人們的眼睛和雙手,你可以一邊做別的事情,一邊用聲音和它交互。

這樣一說就清楚了,歸根結底siri和訊飛們並不是純粹的聲控交互產品,他們頂多只能算半聲控交互產品,因為從喚醒他們到判斷語音輸入準確與否到最終的結果顯現,你幾乎都要用到眼睛和手,聲控交互的核心價值「解放眼和手、不再低頭族」完全得不到顯現。換句話說,他們都是視觸覺交互的補充而已,所以本身就錦上添花、可有可無。

你用siri打開微信,比自己親手打開能方便多少呢?你用語音輸入法輸入一段話,錯了還得回刪,這真的比打字輸入更方便嗎?

但是Echo展現出的是純粹聲控交互完全不同的價值,並且這幾乎是一個「高頻剛需」。

1、抓住了不適宜使用手和眼睛的人群。比如中老年人、殘疾人、不擅長打字輸入的人群,除非有一天人類技術發達到腦波交互,否則聲音都是最適合他們的交互模式。

2、抓住了不方便使用手和眼睛的場景。這就是我們常說的「低頭族場景」,走在路上、正在開車、晚上睡前、保護視力。由於以往的聲控交互產品做得太差,中國人以強大的適應能力,練就了在這些場景「眼疾手快、目不離機」的超能力,哪怕視力下降、頭昏眼花、低頭撞人也在所不惜。但是試想一下,如果聲控交互真的做上去了,聲音真的成了喬布斯口中的「自然延伸」,他們還會這樣嗎?

3、創造了全新的伴隨式場景。小的時候,我們為何早上起來會聽收音機,因為可以邊聽邊做其他事情,一心兩用。對,就是這個一心兩用!今天我們為何會一邊跑步一邊開車一邊聽喜馬拉雅——像筆者年初一邊在虹橋火車站辦手續一邊在喜馬拉雅聽羅胖的跨年演說、一邊熱淚盈眶……這都是一心兩用呀!簡言之,聲控交互解放了人的手和眼,不僅在不適宜使用眼手的「低頭族場景」,更在其他豐富的時刻。通過聲控交互,你可以邊聽邊說,一邊干其他事情,這種一心多用的方便效率是不可抵禦的。本來這些事,你要不停切換APP來完成,或者放下手機、把視線移到別的地方,但是現在完全可以並行不悖、同步推進了。

4、聲音有其獨有的魅力。Echo首先是音響,可以播放音樂。而在人與人的溝通中,影響最大的是身體語言帶來的氣場(可惜隔了手機屏幕就完全體現不出來了),其次就是聲音(音調音色節奏),最後才是內容。從這個角度說,聲音的成本確實比文字高,卻遠比文字「有溫度」,黃執中的辯詞如果打成文字你未必讀得下去,但只要他魔鬼般的嗓音響起,你立刻覺得他什麼都是對的了;聲音確實沒有視頻一目了然,但成本卻遠比視頻要低,你不需要打瘦臉針玻尿酸弄出一張網紅臉,因為當你的聲音響起,沒有人在意發聲的人有沒有羅胖帥。這也是為什麼最近大火的分答會用語音,一來「盜版」成本高一點,二來聽到名人真實的聲音、這滿足感是不同的。

四、全新的機會,聲控領域的BAT

BAT?有人要說了,你這不是在拉大旗做虎皮嗎,說到底還是忽悠我們開發中國版的Echo呀。

恰恰相反,我並不認為Echo是創業者們最好的選擇,但是「基於純聲控交互」的APP卻可以成為一個機會,關鍵在於訊飛和喜馬拉雅們能不能迅速「醒轉」,構建出一個對第三方更加友好的生態。

什麼是基於「純聲控交互」的APP,說白了就是整個APP的使用過程都完全不需要通過屏幕觸摸、不需要動用眼睛和雙手,最好連喚醒他們都可以用聲音。這樣的APP一旦出現,我們就根本不需要購買Echo,因為手機就是個簡易版的Echo了,我把手機放在一邊,一邊做別的事情,一邊就可以使用聲控交互了。如果你使用與聲控系統匹配的專用耳麥,如果這個耳麥可以隨時響應、識別你微小的聲音(在人群中大聲很傻比),那麼耳麥就是Echo,就是手機之後真正的可穿戴智能硬體,比手錶之類強多了。

基於目前已經研發出的漢語語音識別喚醒技術,訊飛完全具備這樣的能力,但是成果多半在實驗室里睡大覺。如果能早一步開放出來,如果能搞好與蘋果安卓廠商們的合作不被「雪藏」,那麼接下來的勢能是非常可怕的。在筆者看來,一旦聲控交互成熟了,接下來在這五個區域有明顯的機會。

1、新一代的語音助理,各個聲控應用的統一調用入口。這是訊飛和siri們的機會,喜馬拉雅這樣的高活躍產品也可以向此進擊。簡言之就是聲控版的appstore、應用寶。只要這個入口處於開啟狀態,就可以隨時通過語音對話的方式調用各個聲控應用,而不需要打開屏幕用眼睛找到那個應用再點開——這就是軟體版的Echo。他的喚起和使用都應該是毫不費力、自然而然的,不要像siri那樣喊起來用力、用起來發急。可以想像,這個平台會是未來聲控交互的入口,是整個聲控應用生態的命脈。

2、聲控類的工具。在子不語的《下一代交互革命是語音:Voice In Voice Out》一文中,描述了這樣的場景:你可以和她交談,她可以幫你控制關於房子的一切,燈光、溫度、微波爐、冰箱……Echo 已經能做到什麼了呢?播放音樂、創建提醒、播報新聞自然不在話下,Echo 還能根據你在亞馬遜上的購物記錄,智能地幫你下單。甚至,藉助於前面提到的 Skills,已經有人用 Echo 控制了家中的幾乎所有電器:燈光、溫控、電視機、Apple TV、安保監控、熱水壺、車庫……當然,這裡就涉及到智能家居組網、車聯網等問題,後面會提到。

3、聲控類的社交。

a、熟人通訊方面,我們應該都見過這樣的場景,計程車上司機們通過對講平台互相勾兌、插科打諢。路上匆忙的低頭族,很多都在回微信,而如果通過聲控交互構建一個對講平台,這個體驗就完全不一樣了,你不需要用眼和手也可以隨時給某某捎去一段話,別人給你發來語音、聲控交互會提示你是否接聽,而如果這個交互可以通過耳麥自動識別微小的語音(並根據接聽者情況適度放大),那麼以後走在路上就可以輕鬆而不違和地與人通話了,這個事情的意義在於將從另一個角度接管用戶的關係鏈,形成大網優勢。

b、陌生人社交方面,當下社交產品最大的痛點就是社交質量差、低效社交多、效率遠遠趕不上用戶預期,一個突出表現就是搭訕無人理睬、理睬也在若干小時之後(所以人們為何喜歡直播,因為美女主播至少會說謝謝反饋下),但是語音溝通是一個更加強調即時性和真實性的場景,又不像視頻那麼需要「化妝和端著」,所以反而可能成為新的突破口。至於當下的語音社交平台為何多數做的不好,因為太像色情聲訊台了!到底應該怎麼做,筆者後頭的產品會做出回答。

4、聲音類的內容。前面已經說過,聲音內容是目前做的最好的區塊,那麼接下來的重點是:

a、改善交互。現在的模式是打開列表、看標題內容簡介、點播放鍵、再點暫停鍵、再看列表,這個過程太累了。但是試想一下,為什麼我們小時候調收音機換台不會這麼累呢?為什麼我們走在人群中偷聽不同人的對話不會這麼累呢?因為這都是步驟更少、更加自然而然地交互,實際上美國已經有一款非常厲害的可視化聲音應用解決了交互成本問題,是什麼先不表。

b、興趣推薦。如果選擇值得一聽的聲音節目成本如此之高,那麼一個比較好的辦法就是基於興趣的推薦來降低選擇難度。比如喜馬拉雅已經推出了「猜你喜歡」系統,可以通過深度學習、進行類似今日頭條那樣的個性化推薦。那麼再進一步,如果以後這個推薦可以不需要通過眼睛完成呢,直接傳來一個聲音:「小喜根據你的愛好搜到了幾個節目,下面念下標題,你感興趣就喊要這個……」

c、時空觸發。這個意思是,應該給更多的信息賦予時空屬性,比如在某一時刻放出,或者在某一位置放出。舉一個例子,你今天剛到一家商場,連上wifi,耳麥里立刻提醒你有最新的優惠活動信息、要不要聽。你像即刻那樣設置一些關注節點,比如某股又跌了,當這個消息到來,耳麥里立刻提醒你要不要聽。你到達某個景點,耳邊響起景點的典故。你晚上睡不著了,耳邊響起周圍人的聲音,像不像《her》?

d、做強參與。同為視頻,直播爆火的勁頭遠遠強於當年的視頻平台和短視頻,這也釋放了一個信號,用戶並不滿足於成為單向的內容接受者,他們也希望成為內容的參與者甚至再創作者,他們也希望得到更多的互動和回饋,來滿足參與感、存在感和歸屬感,所以類似電台的互動直播很重要。

e、聲紅生態。如何俘獲聲音領域的「網紅」們,通過更豐富的辦法幫助他們獲取規模精準流量、降低內容生產門檻、維護粉絲社群、持續多樣化盈利。比如喜馬拉雅的PUGC生態戰略,已經擁有400萬主播、8萬認證主播,這個供給端的大棋該怎麼下下去?

f、製作成本。事實上製作成本的問題完全可以解決,一個是更加靈活強大的聲音編輯工具,另一個其實是文字到聲音的轉化工具——你聲音不好?你不會抑揚頓挫?那麼訊飛正在嘗試在語記一類的平台推出文字轉化成聲音的功能,不是冰冷死板的普通話,而是可以轉成蘿莉的聲音、方言的聲音、林志玲的聲音、單田芳的聲音……

5、聲控類的終端。儘管菜狗對硬體終端充滿了「恐懼心理」,但是說到底,如果這個聲控交互能強大到佔領你的客廳,佔領你的卧室,佔領你的駕駛室,甚至更強大一些,可以無處不在,像《her》中那樣在雲端接受和處理不同人的信息,你可以在任意的咖啡館、寫字樓、商店、公交上喚起他……那麼毫無疑問,這一切都需要終端領域的進擊。如果這個事情有人能做起來,那就是真正的「生態化反」了。

五、聲控交互還有多遠?

聲控交互不是簡單的YY,事實上未來已經到來。

以智能終端為例,科大訊飛已經推出了一款名為叮咚的智能wifi音箱,也許用不了多久這種漢語聲控的設備就會出現在你的身邊。同時進軍音箱領域的喜馬拉雅FM一方面將內容植入Sonos、哈曼、漫步者、Misfit等智能產品中,另一方面通過收購國內頂尖音箱廠商海趣科技,自主研發了3D降噪耳機等產品。

在應用場景方面,兩家聲音領域的巨頭聯合推出了語音開放平台,喜馬拉雅FM的「喜馬拉雅inside」開放平台直接對接各類下游硬體研發和生產企業,打造應用生態、拓寬應用場景的野心一目了然。喜馬拉雅FM的海量音頻內容已經植入智能家居、汽車、音箱等超過300家品牌,包括寶馬、福特 、比亞迪 、百度Carlife在在內的幾乎所有主流車廠(車載系統)已全線接入喜馬拉雅FM;車生活系列的隨車聽正在侵入用戶的駕駛室,家聲活系列的故事機、聽書寶、接入喜馬拉雅的智能冰箱已經開始覬覦用戶的家居生活。與此同時蜻蜓FM和考拉FM的車聯網、智能家居戰略已經磨刀霍霍。

這就是不久的將來,聲音將像水和電一樣,隨取隨用,自由流動在每一個人的耳朵和心裡。明確的人群和場景、高頻應用的可能、進一步侵入住家私車進而無處不在的潛力、明確的技術和標準門檻,這個故事看來很美好。但是最後菜狗還是必須提醒大家,這一切的前提是:技術足夠強大並且向第三方開放、聲控交互的全面優化和規範形成、蘋果安卓們願意讓出這塊肥肉、有影響力的聲控應用的出現。這裡面每一步的實現都不是輕而易舉的,但正如互聯網女皇說的那樣,聲音正在成熟,目前是最接近這個機會的節點。

本人張俊,野路子產品菜狗一枚,創業在上海,測試打磨全新的消費向興趣社區中,運營sns lab社群,事件營銷研究者,微信號:biohazard2015,歡迎勾兌,吵架不回。


其實,這些公司不能放在一個層面來比較。

小i機器人是做語義的;以科大訊飛為代表的企業是做語音的,大家本來就不在一個領域裡。這也解釋了為何跟蘋果siri打官司的是小i機器人,不是別人。

關於語音跟語義的區別,網上可以找到,不累述。

從另一個層面看看這些企業的商業模式,也大概能了解他們做什麼?科大訊飛是大企業,涉獵面很廣,大家熟悉的訊飛語點,訊飛輸入法,其實就是發揮了他在語音識別上的長處,已經強大到能識別多種方言。

小i機器人在C端的應用只是很湊熱鬧的出了個語音助手,企業本身也沒放多少精力在這上面。他們的模式是B2B2C,客戶基本都是對callcenter有很高要求的,很多的金融企業,包括招行、建行、平安等等吧,還有三大運營商,在Web端、微信、甚至QQ上,都用的小i的智能機器人技術,說白了就是給這些企業的客服系統裝個「大腦」,讓系統自己能搞明白這些客戶到底想要什麼,然後給出反饋。招行的微信一天的交互量大概五六十萬,要全靠人工,無法想像。

其他的那幾家公司,呵呵,目前不知道能怎麼用。


訊飛是國家863技術。中國最好的語音識別和輸出技術,沒有之一。

但是並不意味著沒有競爭者。

IBM和微軟很多年以前就在搞這類研究。後來谷歌和蘋果推向市場化,在這之前,訊飛也就算是面向行業的軟體,民用普及度較低。


科大訊飛作為國內領先的語音識別公司,其技術優勢非常不錯,但是也可以看到目前國內也有很多家語音識別及合成廠商的出現,語音識別是依託互聯網才得到迅速的發展,因為要獲取語料庫,科大訊飛在傳統行業,其在專有語音識別領域因為其運營能力,各類的垂直市場佔有率非常不錯,真正托起語音識別的民用化時代,還得是語音輸入法的問世,所有的用戶都在用語音輸入法的時候,語料庫出現大規模增長,使得傳統領域能用而垂直領域根本不能用的語音識別能力得到了大幅度的提高,這點可以從訊飛語音輸入法的問世後,識別率的不斷提高提現出來;

目前市面上出現的很多類似siri的軟體,本質上需要解決的是兩個問題,一個是語音識別,這個階段已經包括有訊飛、盛大、google提供中文語音識別,其中還有很多小公司在做,在技術層面,從網上可以知道,語音識別技術世界上有開源的演算法,經過不斷優化來細微的調整,還有就是語料庫,這個的積累更加重要,像智能360接訊飛的介面,智能360接近500萬的用戶量,給訊飛帶去了大量的語料庫積累,當然後續智能360也在和google、盛大加強合作,從反向鏈條來看,智能360將為谷歌和盛大語音識別帶去巨大的語料庫,這個對於語音識別公司來說,尤其是起步階段的公司,將是非常寶貴無價的財富;

另外一個是語義識別,這是智能360需要做的事情,也是核心,同時也建立資料庫,智能360目前開發的語義雲系統就是集語義引擎及資料庫的一個內容精準搜索整合平台,平台的作用就是像語料庫一樣放量豐富內容及上下文交互!

http://www.360iii.com


我只能告訴你智能360、口袋語音助手、小i機器人用的都是訊飛的語音識別和合成技術。


最近開始使用出門問問,感覺識別不錯,可以語音搜索路線、機票、吃飯的地方


語音轉文字 還是用速錄寶靠譜


反對廣告。。。


飛豬俠智能語音機器人也是值得入手的,孩子很喜歡,有原創的內容還聊天功能


根據收集的數據來看國內語音識別率最高為科大訊飛開發的靈犀語音助手,識別率已高達97%。當語音識別率這一大難題被解決後,只需等靈犀,siri這類的語音助手打通更多的生活場景變得更加實用,便捷,將會吸引更多的用戶,而且敢說這種用戶增長必將是呈現爆髮式的。

暢想下,如果當你的語音能直接控制汽車,直接指導你的學習甚至直接診斷身體的健康狀況,真真正正的成為一個語音小管家。我想這對每個人都將產生無可抵擋的吸引力。

從我的角度來看,並不是很看好微軟小冰這類偏重交流的語音助手,坦白說,如果往極致的體驗去談,這些人工智慧助手大部分用起來還是很像「人工智障」,多輪對話也並不是一個能輕易攻克的難題。

正如吳恩達之前說,人工智慧的自然語言理解與交互,如果要達到流暢,起碼還要三五年。像訊飛的靈犀,蘋果的siri能切實的幫助到人們的生活,偏工具類的語音助手,更貼近用戶的核心需求,更符合當下對人工智慧定位。


科大訊飛做得還好的,sdk接入比較簡單。

附上接入訊飛語音SDK的項目地址參考下:基於科大訊飛SDK開發的一款智能語音機器人,可以聊天、打開應用、播放音樂、查詢天氣


訊飛語音的確很厲害,我現在就用訊飛的靈犀產品


科大訊飛語音的確很好,超越同行業其他產品。


樓主說的那些我還沒用過,不過我用了一款新出的智能產品叫呼貝,使用效果還不錯。之前聽宣傳的時候,打動我的是產品的出發點,公司老總之前是做軍品的,跟軍人打交道的比較多,之前軍屬家院有一個老人走失了,老人不會用手機,老總就想著發明一款可以定位還使用起來比較方便的智能產品,來解決老人走失事件。

現在市面上太多的智能產品同質化嚴重,根本么有自己的亮點和出發點,很容易被替代。


我需要一些數據,比如語點小V的市場佔有率有多少?這麼多年來,國外在這方面和語點小V類似的產品有哪些?市場佔有率如何?


智能語音產品還沒有啥實際用途,一旦有的話,訊飛可以立即掐死其它對手。


推薦閱讀:

搜狗的語音交互引擎「知音」技術水平如何?
訊飛語點和 Siri 在體驗和技術上有哪些區別?
Siri 將通過什麼方式支持中文?
建立語音評價系統需要學習哪些知識?

TAG:移動互聯網 | Android應用 | Android開發 | 語音識別 | 移動搜索 | 科大訊飛 |