AI預測技術在語音交互的落地 | 微軟新一代全雙工語音交互技術 | 智能語音 | 解讀技術

AI預測

近日,微軟(亞洲)互聯網工程院宣布率先推出新一代的語音交互技術:全雙工語音交互感官(Full-duplex Voice Sense),與既有的單輪或多輪連續語音識別不同,這項新技術可實時預測人類即將說出的內容,實時生成回應並控制對話節奏,從而使長程語音交互成為可能。

更多AI資訊,關註:九三智能控

通俗的講,機器不再單純被動的接受命令,通過建立預測能力引入預測信息,機器開始學會理解人的意圖,給人以積極的反饋和響應,使得機器與人的關係不再是「小受」和「小攻」的關係,而逐漸變成一種夥伴的關係,大大提升了人對於語音交互手段的適應性。

在應用方面,米家生態鏈Yeelight語音助手是全球首個搭載全雙工語音交互感官的智能設備,也是內置微軟小冰的首個「雙AI」智能設備。這裡插一句,所謂的「雙AI」,就是在音箱里同時載入了小米的「小愛」和微軟的「小冰」,說是生活問題找「小愛」,情感問題找「小冰」,至於為什麼這麼做,小編感覺還是在於「小愛」語音識別性能有待提高,找人幫忙撐場子了。不過對於宅男是個福音,因為同時擁有了兩個二次元女友,而且很便宜,可以樂不思蜀了,呵呵呵……

米家生態鏈Yeelight語音助手

在日本市場,小冰凜菜(りんな)也已通過該技術實現在直播平台中的落地,首個車載智能項目也已開始路試,微軟計劃於未來六個月內,完成該技術在更多產品線中的覆蓋。

背後的技術變革:從「Turn-oriented框架」轉向「Session-oriented框架」

3月28日,微軟在北京微軟亞太研發集團大樓舉辦了小冰技術交流會,會上微軟(亞洲)互聯網工程院副院長李笛表示,現在對話式人工智慧基礎框架的理念之爭正在發生變化,由之前的Turn-oriented命令框架,面向單個任務,轉向基於Session-oriented框架,面向整個對話全程的技術變革。

對話式人工智慧基礎框架正在發生變化

如何理解這種技術變革,目前大多數的智能音箱或智能語音助手採用的是Turn-oriented框架,在這種框架下,對話如十字路口,當用戶提出問題後會將其引導到特定的場景並最大理想化完成特定任務。而小冰和微軟研究發展的Session-oriented框架,對話如河流,在整個過程中既包含任務,也包括一些「無用的」對話,但這些對話中也可能引申出新的任務,並以更加自然交互的方式完成整個對話。

關鍵技術細節披露

語音交互模式對比圖

在小冰技術交流會上,微軟小冰全球研發負責人、首席架構師周力在披露了部分技術特徵:

(1)邊聽邊想:預測模型,現在無需等待用戶把一句話說完,再進行語音識別,現在可以聽到語音後就會提前預測用戶的完整意思,與此同時,開始思考回應,以實現更快的響應速度和改口能力;動態回應,不再是用戶輸入一條,人工智慧回應一條的回合制,而是根據預估思考時間、複雜任務的完成時間,有選擇的將回答分成多段,減少用戶感知的等待時間。這在搭載小冰的Yeelight語音助手等IoT等物聯網設備使用體驗上至關重要,使用自然交互,減少一些等待時間就能感覺到舒爽。(2)節奏控制器:節奏協調,包括與人工智慧自己的協調,與人類對話的協調,還有和其他語音助手的協調,時機和內容同等重要。另外人工智慧能否主動引導拋出新話題,提供新內容,打破沉默是重要特徵;還有隨著全雙工語音交互技術的普及,和人類一樣的非對稱對話模式。(3)聲音場景的理解:全雙工語音交互場景包括分類器,比如語音身份的識別(男、女、兒童),觸發不同內容的對話,語音情緒識別、音樂/歌聲識別等;環境處理,針對背景的雜訊識別與回聲消除,小冰作為內容提供者和小冰語音助手混合狀態,動態音量識別與調整,比如在小冰講故事的時候,讓音箱聲音變小變大,小冰只是默默執行任務,但並不會打斷講故事這一場景;對象判斷,支持了語音聲紋識別,每個設備對應數個主要用戶和新用戶,是否在和小冰說話等,比如多人聊天、電視背景音,判斷用戶對話節奏來進行開始或停止響應。(4)自然語言理解與生成模型:實現更好的容錯性、與語音合成更好地串列、基於整個對話場景的上下文理解,主動掛斷的動態判斷,基於時間、整個對話的內容、用戶意圖分類,動態決定小冰是否主動結束session。

語音交互是對話式人工智慧及智能硬體設備的基礎之一。全雙工語音交互技術的應用,有望實現用戶體驗的下一次飛躍,並成為人工智慧語音交互的新「標準配置」。 暢想一下,未來家裡的冰箱、電視、檯燈、窗帘、按摩椅、掃地機器人、電飯鍋都可以跟你暢聊,並且給你你想要的結果,會是什麼樣的一種感受。

參考資料

1、環球網科技頻道:tech.huanqiu.com/intell

2、系統粉:win7999.com/news/292992

微信群&商業合作

  • 加入微信群:不定期分享資料,拓展行業人脈請在公眾號留言:「微信號+名字+研究領域/專業/學校/公司」,我們將很快與您聯繫。
  • 投稿(無稿費)、商業合作請留言聯繫。

weixin.qq.com/r/AC91bd- (二維碼自動識別)


推薦閱讀:

解讀《淺談人工智慧:現狀、任務、構架與統一》·第一期
當AI變得無處不在,人類社會將發生這五大變化!
【線上直播】AI行業需要什麼樣的人才
這麼牛掰的智能電話機器人你不用就out了

TAG:微軟Microsoft | AI技術 | 智能音箱 |