阿里鄢志傑博士：「達摩院」要做下一代顛覆性的人機交互

01-28

人機之間的自然交互一直是人工智慧領域的一個美好願景，而語音是人機交互中最重要的手段之一。隨著人工智慧的迅速崛起，新一輪語音技術變革已經躍然眼前，成為科技巨頭們爭相攻下的堡壘。

近日，記者對阿里iDST (Institute of Data Science and Technologies) 智能語音交互團隊總監鄢志傑博士進行了專訪，從阿里iDST發展戰略、平台建設、自然人機交互技術等多角度揭開阿里智能語音交互的神秘面紗。

「達摩院」要做下一代顛覆性的人機交互

PC時代，人們與機器通過鍵盤和滑鼠交流，與機器「溝通」需要學會打字、按鍵操作；移動互聯網時代，人們與智能手機通過觸摸屏幕交流，只需滑一滑手指即可完成任務；未來智能時代，機器將更像人類的一員，與它之間的交互方式將更趨同於與人之間交互。而要做到像「人」一樣交流，機器就必須具備語音識別技術。

因此，語音識別將是未來人機交互的入口，如果沒有這個入口的話，你可能反而會覺得這台機器不夠「智能」。為了能夠在這個即將到來的生態系統中搶佔制高地，各大科技巨頭越來越重視語音技術發展，Google有Assistant，亞馬遜有Alexa，微軟有Cortana，Facebook有ParlAI，無不在加大語音識別的研發力度。

阿里在今年的雲棲大會上宣布千億元成立「達摩院」，研究領域包括：量子計算、人工智慧、機器學習、視覺計算、自然語言處理、下一代人機交互等。而鄢志傑博士所在的IDST，則被外界稱為阿里最神秘的部門，它是達摩院在下一代顛覆性人機交互技術和用戶體驗方面的核心團隊，其中還包括鄢志傑博士負責的智能語音交互。

鄢志傑博士看來，達摩院要做的是面向未來10年、20年後的下一代的人機交互，將是突破現有「一問一答」層面的全新一代交互，人機交互會越來越自然，而實現這一突破的關鍵在於「多模態和主動交互兩大技術的融合」。

「相比傳統單一的交互模式，阿里IDST更重視多模態和主動交互技術的融合，它主要基於感測器技術，融合了視覺、聽覺、觸覺、嗅覺等多種交互方式，機器可以更象人，表達效率和表達的信息完整度更高，是智能交互的發展趨勢。」

鄢志傑博士舉了一個例子，通過感測器技術可以感知我們所處環境的溫度，比如天氣熱時室內溫度比較高，機器就會幫我們把空調打開，而現在的智能家居，還只能被動的接受指令。

這樣的應用場景看似簡單，但實現起來還是有諸多技術難點需要解決的。鄢志傑博士表示，要做到下一代的人機交互體驗，還需要解決三大問題：

1、怎麼把感測器採集到的信號進行融合，從而產生融合以後的交互體驗，這個是有距離的。因為現在感測器收集的信息是割裂的，比如攝像頭在做人臉識別，麥克風在做語音設別，真正融合的還沒看到。

2、感測器採集的信息還處於感知層面，相對還是比較淺層的，真正認知層面還是有距離的。

3、交互形式單一，現在無非是屏幕或TTS（從文本到語音），怎麼把視覺、聽覺、觸覺、嗅覺等多種交互方式融合到人機交互中還沒有突破。

鄢志傑博士表示，人機交互其實就是用戶獲取服務的過程，而阿里智能語音交互扮演的是中間橋樑的作用，它通過語音連接多端，跟互聯網上廣泛的服務對接，為用戶提供所需的服務。

通過阿里雲輸出語音能力

阿里的iDST部門除了負責建立自然語音交互平台，另外一個重要任務是通過阿里雲輸出語音能力，幫助阿里及其合作夥伴去做具體業務。

「我們最開始做這樣的能力，完全是從阿里內部客服中心的需求來出發的，因為阿里每天淘寶、天貓和支付寶每天都有上百萬次的客服電話，而且這一數字還在快速增長。所以，當我們把語音能力引入到電話客服呼叫中心，就可以把語音轉換文字，做服務質量的質檢，並將一些自動化的規則和模型引入進去，使得服務質量能夠保證。目前，通過阿里語音質檢系統已經輸出有1.2億個電話，客服機器也有超過1億的處理量，阿里的語音能力已經把傳統的客服呼叫中心，打造成智能的呼叫中心。」

鄢志傑博士表示，阿里整套AI的能力就是幫助傳統行業提升效率，而且原來在比拼準確識別率，而阿里要比拼的是大規模低成本的定製能力，能夠對各個垂直領域進行定製，並和其他的模態進行融合，形成例如電話客服系統或庭審系統，來提升整體的生產效率。

此外，針對直播網站，阿里語音還在業內一個推出了語音審核的產品，和圖像審核是放在一起的，主要來監測視頻內容是否違規或有不良的內容，這一技術可以幫助視頻網站節省70%的人工成本。在政府部門，阿里語音技術也有廣泛應用，例如司法系統，有這樣的生產力工具可以大大提升效率。

在2C領域，通過Link-Voice平台將語音能力進行輸出，鄢志傑博士表示，「我們是站在端和雲的中間，端就是各類終端，包括電視、汽車、音箱、IOT設備等，雲端就是阿里過往布局的互聯網內容和服務，Link-Voice配合阿里雲IoT的智能生活開放平台，使得廠商在設備智能化過程中能一站式地集成語音交互，極大地縮短了開發周期，幫助廠商佔據市場先機。」

目前阿里雲IoT團隊和iDST團隊已經深度共建從設備端的喚醒、拾音到雲端的語音識別、語義理解及服務執行和語音合成整體語音交互解決方案，並通過Link-Voice平台把能力開放給所有合作夥伴。

在平台建設方面，Link-Voice平台已經具備完善的生態產業鏈，已覆蓋音樂、智能家居控制、生活服務、個人助手等核心高頻服務及內容。擁有Rokid、LinkPlay、芯中芯、慶科等行業內經驗豐富的合作夥伴，產出了單麥、雙麥、四麥、六麥等一站式軟硬體一體解決方案。傳統音箱及其他家電廠商可以快速基於Link-Voice平台的體系完成智能語音交互升級。

據了解，阿里雲IoT平台的設備出貨量在國內排名第一，已經覆蓋一百多個品類，合作一千多家品牌，已經有20餘款音箱產品及跑步機、按摩椅、家庭中控屏幕等產品使用Link-Voice的服務進行售賣，出貨量達千萬規模。

智能家居需要「統一語言」來交流

近兩年，亞馬遜Echo的出現引爆了智能音箱市場。據統計，亞馬遜Echo在2016年銷售量超過650萬台，預計2017年超過1000萬台，繼亞馬遜之後，谷歌發布Google Home智能音箱，蘋果也發布了HomePod智能音箱。與此同時，阿里、京東、聯想、喜馬拉雅等也紛紛入局。

巨頭們的殺入以及中小廠商的蜂擁而上，一度提升了智能音箱市場成為風口的可能性。對此，鄢志傑博士表示，智能音箱的火爆是因為在美國市場Echo取得了優異的成績傳導到國內市場的結果，我們也希望在國內市場能智能音箱行業能儘快取得爆髮式增長，目前各大巨頭都已經布局該領域，我們不排斥競爭，這個市場需要大夥一起來培養和教育。

除了智能音箱，鄢志傑博士認為傳統設備的語音交互升級也是個巨大的市場。「用戶可能很難為一個類似智能音箱的新物種買單，但容易接受以稍高一些的價格購買帶有語音交互的傳統家電設備。比如我們在雲棲大會前夕發布的智能語音跑步機，在市場上就取得非常好的反饋。」

但是，智能語音也面臨一些挑戰。目前智能家居平台各自為戰，擁有各自的通訊協議，用戶購買不同平台的設備就要安裝各自新的App，很難集合各家平台到統一的控制中心。阿里雲IoT擁有國內最大的智能家居平台，並主導成立ICA互聯互通聯盟，目前已經有100餘家廠商加入該聯盟，越來越多的設備正在採用統一的「語言」來交流，這為語音控制家居打下了非常好的基礎。

原文鏈接

更多技術乾貨敬請關注云棲社區知乎機構號：阿里云云棲社區 - 知乎