一文讀懂中國智能語音語義產業問題、格局與趨勢 | 行業洞見
語音識別作為人工智慧發展最早、且率先商業化的技術,近幾年來隨著深度學習技術的突破,識別準確率大幅提升,帶動了一波產業熱潮。繼科大訊飛、捷通華聲之後,行業內又湧現出思必馳、雲知聲、出門問問等後起之秀,在教育、客服、電信等傳統行業之外,開闢出了車載、家居、醫療、智能硬體等語音技術應用新天地。
與此同時,自然語言處理(NLP)作為人機交互技術的重要一環,也為此提供了助力。Siri的推出打開了語音交互的先河,不僅催生了一批語音語義創業公司,還激發了百度、搜狗等大型互聯網公司在語音語義技術上的投入。
由於NLP和語義理解技術能夠讓機器理解人的意圖和需求,並把相應內容反饋給用戶,因此在客服行業得到了廣泛應用,有效降低了人力成本,提高了企業運營效率。
那麼,中國智能語音語義產業主要涉及哪些技術?技術發展水平如何?存在哪些問題?有哪些應用領域、玩家和商業模式?行業格局和未來發展趨勢又將如何呢?本文將為您一一解答。
一、技術篇:語音識別和NLP技術仍不成熟
智能語音語義包含語音合成、語音識別和自然語言處理(NLP)三項主要技術。
語音合成技術發展最早,應用已較為普遍,除了合成音仍偏機械之外,基本不存在太大技術問題;語音識別在2012年卷積神經網路(CNN)應用之後,準確率大幅提升,已經在C端、B端得到了廣泛應用,但效果和體驗還不夠理想;NLP技術雖然在搜索引擎中早有應用,但在人機交互領域仍屬於淺層處理。
語音識別「魯棒性「問題顯著
在生物學中,有個術語叫做「魯棒性」,是指系統在擾動或不確定的情況下,仍能保持它的特徵行為。這一問題在語音識別領域也存在。
語音識別整個過程包含語音信號處理、靜音切除、聲學特徵提取、模式匹配等多個環節。由於語音信號的多樣性和複雜性,系統只能在一定限制條件下才能獲得滿意效果。在真實使用場景中,考慮到遠場、方言、噪音、斷句等問題,準確率會大打折扣。目前業內普遍宣稱的97%識別準確率,更多的是人工測評結果,只在安靜室內的進場識別中才能實現。
要解決語音識別魯棒性問題,需要在技術和產品兩方面進行優化。一方面,在語音增強、麥克風陣列以及說話人分離等多項技術領域持續投入,並結合後端語義,促進對上下文的理解,從而提升識別效果;另一方面,需要從產品設計上進行優化,比如通過進一步交互,使語音識別變得更為準確。
語義分析仍是淺層處理
NLP技術大致包含三個層面:詞法分析、句法分析、語義分析,三者之間既遞進又相互包含。
圖:NLP分析技術詞義消歧是NLP技術的最大瓶頸。機器在切詞、標註詞性、並識別完後,需要對各個詞語進行理解。由於語言中往往一詞多義,人在理解時會基於已有知識儲備和上下文環境,但機器很難做到。雖然系統會對句子做句法分析,可以在一定程度上幫助機器理解詞義和語義,但實際情況並不理想。
目前,機器對句子的理解還只能做到語義角色標註層面,即標出句中的句子成分和主被動關係等,它屬於比較成熟的淺層語義分析技術。未來要讓機器更好地理解人類語言,並實現自然交互,還是需要依賴深度學習技術,通過大規模的數據訓練,讓機器不斷學習。當然,在實際應用領域中,也可以通過產品設計來減少較為模糊的問答內容,以提升用戶體驗。
由於人工智慧技術對數據依賴性極高,因此,這一領域的技術進步和產業化推進是一種協同關係——通過工程化的方法提升技術效果和體驗,從而促進產業化應用,再根據實際應用中的數據和反饋,反過來推動技術實現突破。那麼,智能語音語義在產業化方面都有哪些應用領域,又存在哪些問題?
二、應用篇:C端提升體驗,B端提升效率
以問答和聊天為服務形式,智能語音語義在多個使用場景和行業領域都有廣泛應用,我們可以簡單從C端和B端兩個方向分別來看。
圖:語音識別/NLP技術應用領域
C端應用方面,主要用於移動設備、汽車、家居三大場景,用來變革原有人機交互方式;B端則針對垂直行業需求,提升人工效率,比如幫助醫生做電子病歷錄入,或代替部分人力工作,比如回答大部分簡單重複的客服問題。由於兩大領域解決的問題不同,因此遇到的挑戰也各不相同。
C端應用:變革交互方式,需求和體驗是關鍵
智能語音為C端提供了一種全新的交互方式,但應用和普及又跟具體場景和需求掛鉤。目前,三大場景中,移動設備中的智能手機,以及車內語音交互應用最為廣泛。家居領域中,雖然各種家電企業也在廣泛布局,但實際使用情況並不理想。
移動設備
智能語音語義在智能手機和可穿戴設備中的應用不盡相同。可穿戴設備雖然沒有屏幕或屏幕較小,更適合語音交互,但大多(比如智能手錶)都是非生活必需品,本身銷量就很有限,再加上一些可穿戴設備並沒有太多交互需求,因此實際應用量較少。
智能手機中的各類應用軟體大多都配備了語音功能,但相比觸摸和文字交互,使用率也不算高。很多人仍然沒有經常使用語音的習慣,或者還沒有使用語音的意識。究其原因,主要由於語音交互在效果和效率上都不夠理想。
從效果上看,語音在開放場景下識別準確率並不高。對於用戶來講,結果不可預期,產生錯誤後糾錯成本很高,所以寧願打字。再者,用戶在手機端對於打字和觸摸已經非常習慣,因此缺乏改變習慣的動力。
從效率上看,語音在智能手機和各類軟體上的應用主要以輸入、搜索和調取服務為主,輸入信息量並不大,而且大多移動應用都是基於觸摸和文字做的交互設計,有文字推薦、按鍵選擇等友好設置,因此原有交互方式本身已經非常便捷,語音交互效果不好,容易出錯,並不能很好地提升效率。
目前,除了重度文字使用者,比如作家、記者、編輯等,對語音輸入和轉化有著剛性需求,其他人使用語音更多還是在無法打字或不方便觸摸時,比如走路、開車等情況下。不過,隨著語音識別和交互體驗不斷提升,會有越來越多的人在移動端使用語音。
汽車
由於人在車內雙手和雙眼被佔用,而需求又十分明確,因此智能語音成了這一場景下最合適的交互方式。
智能語音在車內的應用主要以車載導航為主,輔以查詢和用車。對於業界熱炒的「以語音為入口連接各種服務,從而構建車聯網生態」的暢想,目前看來還距離較遠。核心困難在於,整個行業尚未找到車內場景下用戶的剛性、高頻需求。或許等到自動駕駛汽車普及之後,人的雙手雙眼以及大腦解放出來,才有條件搭建包含各種服務的車內生態。
對於涉足汽車領域的語音企業來說,當前最重要的是,把導航等剛性需求的體驗做到位,再去考慮如何延伸服務。
家居
在家居場景下,智能語音應用主要圍繞智能電視、音箱、家用機器人展開,解決的需求包括搜片、聽歌、提醒、簡單交互、應用調取等。
亞馬遜Echo面世,帶動了語音交互在家居領域應用的熱潮。從2014年下半年至今,Alexa平台應用數從最初20多個增加到7000多個,並在過去半年內以每月1000個左右的速度增加。據CIRP報告估計,截止2016年11月,Echo累計銷量超過510萬台,2016年Q1-Q3共銷售約200萬台,較前三季度增長18%(2015Q2-Q4數據來源於Mary Meeker《2016互聯網趨勢報告》)。
圖:亞馬遜Echo銷量估計,來源:MaryMeeker, 2016 Internet Trends Report
家居環境的天然特性使得語音成為最合適的交互方式,類似於Echo Alexa這樣的平台將吸引越來越多的應用,不斷豐富其產品功能,完整智能家居生態環境。隨著用戶習慣不斷養成,這樣的「智能家居控制中心」和「流量入口」有望快速普及,成為iPhone級爆款。不過,由於語音是一種全新的交互方式,除了技術所需的提升,各類應用在開發設計時還將面臨用戶體驗和價值考量等全新挑戰。
除了音箱、檯燈等小家電智能產品,家用機器人也成了創業者爭相押注的對象。擬生物形態智能產品的火熱某種程度上承載著人類對於機器人的美好願望,但創業者還是要從價值和實用性角度考量其產品形態的設計邏輯。最終哪種形態的智能產品會「笑到最後」,還得市場說了算,但語音會成為家居交互主流這一點,已經毋庸置疑。
值得一提的是,一些傳統家電,如空調、冰箱、洗衣機、抽油煙機等,也開始配備語音交互功能,事實上並不理性。無論是控制開關、調節設置,還是對話溝通,從現有技術水平所能解決的需求和效率來看,都價值有限,或許等到語音交互成本下降,效率提升,才有可能在各種家電終端上普及。不過更多行業人士傾向於認為,智能家電的語音控制要麼通過一個中樞設備來進行,要麼通過房屋前裝分體式設計來實現。
除了以上三大領域,商用服務機器人的逐漸成熟,有望為語音語義在商場、醫院等各類服務場所開闢新的應用領地,點餐機、訂票機等傳統形態服務設備也將會以語音這種全新的交互方式服務大眾,市場之廣闊,可想而知。
B端應用:提升效率、解放人力,深耕垂直行業是根本
智能語音語義在B端的應用主要集中於客服、教育、醫療、旅遊等領域。
客服
客服作為勞動密集型行業,對於一些大公司來說,成本依然很高。智能機器人客服的出現可以在很大程度上解決簡單、重複性工作,幫助企業節省人工和坐席成本,提升運營效率。
由於客服問題主要聚焦在特定產品或單一垂直領域,因此需要企業擁有完整的結構化知識庫,幫助機器人更好地查詢和匹配問答內容。目前,按照行業平均水平,機器人客服可以解決70%左右問題,其餘由人工處理。
機器人客服是主要戰場。從成立較早的智臻智能(小i機器人)、捷通華聲,到後來的圖靈機器人、智齒科技、驀然認知,以及從雲客服轉型智能客服的UDesk等,都希望在智能客服市場分得一杯羹。
由於業務量大、付費能力強,且知識庫完整,金融、電信、航空公司等大型客戶成了智能客服的主要應用群體。要更好地滿足這些群體的需求,各家公司需要針對不同行業對演算法和技術做相應的改進和優化,在實際應用中,用更大的數據量去提升產品體驗和效果。
教育
教育領域,包括中英文口語評測,以及部分教育機器人的交互功能。科大訊飛作為智能語音和教育市場的龍頭企業,通過為一些全國性考試提供技術支持,已經成為中英文口語測評方面的主要玩家。2016年底,科大訊飛與新東方聯合成立東方訊飛,用新東方的數據+訊飛的技術,推動教育、培訓、學習的智能化進程,智能語音測評技術有望在其中發揮重要作用。
在訊飛的廣泛布局之下,脫胎於老牌語音公司思必馳,後被網龍(HK 00777)全資收購的馳聲科技,也通過2B2C的模式,在培訓、出版、考試服務、教育軟硬體等領域持續發力,欲通過中高考口語考試解決方案、人機英語對話模擬考輔系統打入學校市場。
體制之外,以英語流利說為代表的口語評測應用也廣受C端用戶好評。依靠四年時間積累的3000萬用戶數據、500萬小時練習錄音,流利說於2016年推出可替代口語老師的自適應移動英語課堂「懂你英語」,加上輔助在線答疑及外教上課,有望領先一步實現自適應口語學習的商業化落地。
智能語音在教育領域的價值,一方面在於提高教師工作效率,另一方面在於幫助學生提升學習效果。通過大量語音數據的積累,並和後端大數據分析、機器學習相結合,智能語音有望在機器輔助學習和自適應學習方面發揮重大作用,為教育行業帶來顛覆性變革。
醫療
醫療領域的應用目前主要是電子病歷錄入。醫生在臨床診斷時使用專業麥克風,可將診斷信息實時轉化成文字,錄入醫院HIS(Hospital Information System)系統,方便後續查詢和問答,提高醫生工作效率。
由於專業性強、識別難度高,國外語音巨頭Nuance最早主要是通過後台人工轉寫,而隨著語音識別技術有了突破性進展,國內智能語音在國內醫療領域的應用也開始起步,訊飛和雲知聲是該領域典型代表。
訊飛正在和安徽省立醫院、上交大附屬第六醫院南院以及北大口腔醫院等合作,讓醫生使用定製麥克風,通過定向和降噪,先將語音轉成文字,再用NLP技術對文字進行結構化處理(比如分段),醫生只需再做簡單修改即可形成電子病歷。此外,訊飛還在醫療影像翻譯、醫療大數據分析方面展開布局,欲將AI技術廣泛用於智慧醫療領域。
雲知聲的智能醫療語音錄入系統也已經在協和醫院、西京醫院試點使用。同時,其醫療語音技術還上線了「平安好醫生」20多個科室,讓醫生通過語音方式,更便捷地與患者進行線上溝通。
當前,語音在醫療領域的應用還處於語音轉文字的初級階段,在實際使用中的部分識別錯誤還需要醫生手動修改。不過,以語音為入口所積累的大量醫療數據會在未來產生巨大價值。此外,隨著醫療技術和語音分析技術的進步,通過聲音診斷病情也將成為可能。南加州大學已經開發出一套新的機器學習工具,可以通過患者的特定語音特徵,輔助醫生診斷抑鬱症等心理疾病。
金融
由於金融行業帶有明顯的客戶服務屬性,加上完整而龐大的業務及數據積累,因此成為智能語音語義的重要應用陣地。當前,一些商業銀行已經通過使用語音識別技術,實現了語音導航、語音交易、業務辦理等基礎服務。
除了在線客服和呼叫中心,智能語音技術還被應用於語音/語義分析、大數據挖掘、身份認證等領域。捷通華聲的智能語音分析系統就通過將語音數據轉化為文本,而後建立語義索引、自動提取特徵關鍵詞,再對文本數據進行自動分類,生成結構化的客服大數據,為銀行等金融機構提供客服質檢、大數據挖掘與分析服務。
此外,隨著聲紋識別技術的進步,智能語音也將被應用於金融領域的身份認證,通過語音認證實現業務辦理、支付等功能,未來有望和指紋、虹膜、人臉等其他生物特徵識別方式一起使用。
除了上述四大領域,智能語音語義技術也逐漸滲透到安防、旅遊、法律等行業,在效率效果提升、解放人力等方面發揮越來越重要的作用。
三、業務模式及行業格局篇:巨頭優勢明顯,創業公司垂直突圍
從業務和規模來看,語音語義類公司大致可分為三類:大型互聯網公司、行業技術巨頭、創業公司。
圖:智能語音語義行業業務模式對比
大型互聯網公司
由於NLP是搜索引擎的關鍵技術之一,因此百度、搜狗自然而然地成為頭號玩家。兩家公司依託其強大的搜索引擎和輸入法應用,不僅將語音技術用於自身產品,還通過與行業其他技術和產品提供方合作,推出面向C端的產品和應用。比如,搜狗聯合四維圖新、飛歌等,推出全語音交互的車載導航產品,百度度秘攜手小魚在家,推出Duer OS以及家用視頻對講機器人。
由於互聯網公司擅長直接服務用戶,因此不會輕易涉足教育、金融等傳統垂直行業,而是會把重心放在消費類產品和應用上,其模式主要包括2C和2B2C兩種,最終都會落地到消費領域。
技術巨頭
技術類公司中,科大訊飛一直以來都是做2B業務,向教育、電信、客服、政府等垂直行業輸出語音合成和識別技術,經過十多年積累,訊飛已經積累了相當大的市場份額。近兩年,訊飛一方面在智能車載、智能家居、智能機器人等新興市場加大布局,另一方面也在努力向消費端傾斜,通過訊飛語音輸入法、錄音寶等產品打入C端市場,逐漸加強品牌認知度。因此,其商業模式既有2B、2C,也有2B2C。
技術類創業公司
其他技術類創業公司大多以2B或2B2C為主。比如,雲知聲的智能醫療業務完全2B,而智能車載和智能家居則是2B2C。值得注意的是,出門問問作為一家擁有智能語音語義技術的公司,獨樹一幟地選擇了2C模式,通過智能手錶、智能後視鏡以及智能語音助手等產品和應用,直接切入消費級市場。
NLP技術公司也包括2C和2B兩種模式。語音助手和聊天機器人等2C產品,無論是技術還是產品都不成熟,因此並不適合創業公司做。圖靈機器人從最早的蟲洞語音助手,轉型到2B的語義平台和操作系統,也說明了這一問題。聊天機器人由於使用場景和需求尚不明確,目前仍是微軟等大公司在探索和嘗試。相較2C,2B對於創業公司來說是一條更現實的路,可以在技術發展早期段彌補產業薄弱環節。
整體格局
截止當前,在智能語音語義領域,除了訊飛擁有多年技術積累,在某些前沿技術上處於領先水平,其他互聯網公司和創業公司在技術上並沒有本質差別,技術本身已經不足以成為其核心競爭力,大多公司很難單純依賴技術建立成熟可靠的商業模式。
要想更好地實現商業化,這些公司只能通過往上下游延伸來創造價值。上游可以把語音和搜索引擎結合起來,為垂直行業提供內容和服務,下游可以把語音和硬體產品相結合,依靠產品銷售實現營收。哪怕是訊飛這樣擁有前沿技術的大公司,也在向垂直行業和產品延伸,來挖掘新的利潤增長點。
教育、金融、客服等領域需要和行業進行高度定製,大型互聯網公司不會輕易涉足,因此會成為技術類公司的主要陣地。但是在智能車載、智能家居、智能機器人等2B2C甚至2C的領域,技術類創業公司則要面對互聯網公司的直接競爭。因為,互聯網企業具有天然的C端優勢。
首先,無論是通過自有2C產品,還是藉助合作,大型互聯網公司依靠其龐大的用戶量、大量真實場景下的數據積累、以及背後強大的搜索引擎和完整的知識庫,可以極大提高語音識別在真實環境下的識別準確率,以及語義分析和理解能力。
其次,互聯網公司擁有豐富的C端產品經驗,加上對用戶消費數據的迭代,能夠更好地提升產品體驗。對於體驗至關重要的消費端,一旦產品或應用形成良好的行業口碑,快速的走量也會水到渠成。
當然,巨頭的優勢並不能阻擋創業公司的成長機會,通過深耕垂直領域和細分賽道,實現自我造血和快速成長,創業公司也有機會在這一新興產業中逐漸做大。接下來,隨著語音識別和NLP技術的逐步成熟,智能汽車、智能家居、智能機器人產業的日漸完善,定會有一批優秀的技術類公司在智能語音產業的浪潮中順勢而起。
愛分析是一家專註於創新企業研究和評價的互聯網投研平台。愛分析以企業價值為研究內核,以獨特的產品形態,對創新領域和標杆企業長期跟蹤調研,服務於企業決策者、從業者及投資者用戶群體。關注愛分析公眾號ifenxicom,及時獲取重要信息。
添加愛分析群小秘微信(ID:ifenxi502)即刻加入愛分析行業討論群。
推薦閱讀:
※風險投資投什麼?
※乾貨 | 如何從零學習人工智慧?最好的資源都在這裡了
※第一期 | 人工智慧技術情報分享
※成為未來人的五種小策略
※2018塗鴉將開啟「生態夥伴」招募計劃:智能化商業迅速升溫