【Video】微軟小冰全雙工技術:讓對話像河流一樣進行

3月29日下午消息,一周前,微軟正式宣布「全雙工語音交互感官」已完成產品化落地。與既有的單輪或多輪連續語音識別不同,這項新技術可實時預測人類即將說出的內容,實時生成回應並控制對話節奏,從而使長程語音交互成為可能。

昨天,微軟(亞洲)互聯網工程院副院長、微軟小冰全球負責人李笛和微軟小冰全球研發負責人、首席架構師周力,與媒體分享了微軟對這項新技術底層框架設計的探索。

李笛介紹,目前全球範圍內,對基礎框架的基本理念可以分為兩種:Turn-oriented和Session-oriented,對應的產品分別是小娜和小冰。

Turn-oriented框架支持下,每一次對話進入後都會面對一個十字路口,路口中心有指揮交通的民警,當一個命令輸入,民警負責根據指令進行引導。

比如詢問小娜天氣,她會迅速把你引導至「天氣」方向,提煉相關內容,然後輸送出來。當天氣的任務完成以後,「民警」重新回到十字路口中心,一切歸零,下一個問題會是個新的開始。

當遇到解決不了的問題時,小娜會通過control引導到搜索引擎來完成。這種方式可以更便捷地解決問題,卻不是很好的對話。Turn-oriented的上限決定了她未來的發展空間有限。

小冰的設計,是把EQ作為基礎來展現IQ

所以有了小冰,她的技術底層框架是Session-oriented,使得「完成任務」與「無用聊天」混合在一起,讓對話像河流一樣不間斷進行,從一個turn往下一個turn走。整個Session的質量要優於單一任務完成的質量。

這樣的小冰,在夫妻爭論誰應該做家務時,甚至可以參與討論。

李笛認為,AI本身應該先於硬體成為讓人們依賴的最重要的因素。當小冰這樣的人工智慧系統出現,無論是IOT、車載、家庭等環境,都是人工智慧的一個載體,而非人工智慧成IOT、音箱等硬體產品的一個功能。

「一旦你使用過微軟小冰,就很難退回到過去的Turn-based的體驗。」李笛說到。

對於Session-oriented,周力在會上進行了四點技術方面披露。

1、邊聽邊想

全雙工語音具有流式思路,又叫預測模型,具有這項技術的小冰對語音的識別不再是一條消息、一條消息的識別,而是一個字、一個字的識別,同時識別出目前可能的話,預測對方整句話是什麼。這就讓操作與對話都更流暢。

2、節奏控制器

這點的作用,是小冰會根據人話量大小與內容,調整自己的話量。

3、對聲音場景的理解

https://www.zhihu.com/video/962799336002846720

這點包括對對話對象性別、情緒的識別,對背景聲音、歌聲與任務下達的差別、與第三方對話等等的識別與理解,等等。

4、自然語言理解與生成模型

深度學習中,有一種循環的神經網路,叫RNN,衍生出的技術如GLU、LSTM等等。它會把輸入話的每一字或單詞轉化成向量,在這個向量中,人每多說一個字就進行一次迭代計算。

這就讓輸入、輸出以流的形式進行,生成模型更適於引流性交互。

在這種生成模型下,對話可以實現更好的濃縮性,當人說出第一個詞,小冰已經開始生成對應的語音音頻的文件,她的上下文在整個session完成之前就已經被計算過了。

該生成模型也可以幫助理解場景,更好的判斷何時結束對話。

李笛最後表示,自己最近聽到一個說法,現在的硬體要成功,30%靠內容,30%靠價格和銷售渠道,30%靠工業設計和語音質量等等,剩下的,並沒有給人工智慧留下很大空間。而這次微軟小冰全雙工技術的分享會,正是這些多年沉迷人工智慧技術的研究者們在向外界傳遞一個信息:當我們聊人工智慧的時候,技術或許才是真正的核心。(辛苓)

本文來自新浪科技


「關於Microsoft資訊」

Microsoft資訊是 Microsoft 微軟愛好者的聚集地~

在Microsoft資訊,

您可以獲取Microsoft 微軟技術與產品的最新動態!


推薦閱讀:

硬菜不動手(料理機+廚師機)番茄煲牛肉圓
有哪些很好用的小眾 app?
袁隆平:一次次的突破,卻換來一句「吃飽了撐的」
IBM 因何可以連續 24 年領跑美國專利獲得量?其專利的營收情況如何?
中海、龍湖、萬科等地產公司是如何培養工程崗的新人的?

TAG:微軟Microsoft | 科技 | 人工智慧 |