【Video】微軟小冰全雙工技術：讓對話像河流一樣進行

04-07

3月29日下午消息，一周前，微軟正式宣布「全雙工語音交互感官」已完成產品化落地。與既有的單輪或多輪連續語音識別不同，這項新技術可實時預測人類即將說出的內容，實時生成回應並控制對話節奏，從而使長程語音交互成為可能。

昨天，微軟（亞洲）互聯網工程院副院長、微軟小冰全球負責人李笛和微軟小冰全球研發負責人、首席架構師周力，與媒體分享了微軟對這項新技術底層框架設計的探索。

李笛介紹，目前全球範圍內，對基礎框架的基本理念可以分為兩種：Turn-oriented和Session-oriented，對應的產品分別是小娜和小冰。

Turn-oriented框架支持下，每一次對話進入後都會面對一個十字路口，路口中心有指揮交通的民警，當一個命令輸入，民警負責根據指令進行引導。

比如詢問小娜天氣，她會迅速把你引導至「天氣」方向，提煉相關內容，然後輸送出來。當天氣的任務完成以後，「民警」重新回到十字路口中心，一切歸零，下一個問題會是個新的開始。

當遇到解決不了的問題時，小娜會通過control引導到搜索引擎來完成。這種方式可以更便捷地解決問題，卻不是很好的對話。Turn-oriented的上限決定了她未來的發展空間有限。

小冰的設計，是把EQ作為基礎來展現IQ

所以有了小冰，她的技術底層框架是Session-oriented，使得「完成任務」與「無用聊天」混合在一起，讓對話像河流一樣不間斷進行，從一個turn往下一個turn走。整個Session的質量要優於單一任務完成的質量。

這樣的小冰，在夫妻爭論誰應該做家務時，甚至可以參與討論。

李笛認為，AI本身應該先於硬體成為讓人們依賴的最重要的因素。當小冰這樣的人工智慧系統出現，無論是IOT、車載、家庭等環境，都是人工智慧的一個載體，而非人工智慧成IOT、音箱等硬體產品的一個功能。

「一旦你使用過微軟小冰，就很難退回到過去的Turn-based的體驗。」李笛說到。

對於Session-oriented，周力在會上進行了四點技術方面披露。

1、邊聽邊想

全雙工語音具有流式思路，又叫預測模型，具有這項技術的小冰對語音的識別不再是一條消息、一條消息的識別，而是一個字、一個字的識別，同時識別出目前可能的話，預測對方整句話是什麼。這就讓操作與對話都更流暢。

2、節奏控制器

這點的作用，是小冰會根據人話量大小與內容，調整自己的話量。

3、對聲音場景的理解

https://www.zhihu.com/video/962799336002846720

這點包括對對話對象性別、情緒的識別，對背景聲音、歌聲與任務下達的差別、與第三方對話等等的識別與理解，等等。

4、自然語言理解與生成模型

深度學習中，有一種循環的神經網路，叫RNN，衍生出的技術如GLU、LSTM等等。它會把輸入話的每一字或單詞轉化成向量，在這個向量中，人每多說一個字就進行一次迭代計算。

這就讓輸入、輸出以流的形式進行，生成模型更適於引流性交互。

在這種生成模型下，對話可以實現更好的濃縮性，當人說出第一個詞，小冰已經開始生成對應的語音音頻的文件，她的上下文在整個session完成之前就已經被計算過了。

該生成模型也可以幫助理解場景，更好的判斷何時結束對話。

李笛最後表示，自己最近聽到一個說法，現在的硬體要成功，30%靠內容，30%靠價格和銷售渠道，30%靠工業設計和語音質量等等，剩下的，並沒有給人工智慧留下很大空間。而這次微軟小冰全雙工技術的分享會，正是這些多年沉迷人工智慧技術的研究者們在向外界傳遞一個信息：當我們聊人工智慧的時候，技術或許才是真正的核心。(辛苓)

本文來自新浪科技

「關於Microsoft資訊」

Microsoft資訊是 Microsoft 微軟愛好者的聚集地~
在Microsoft資訊，
您可以獲取Microsoft 微軟技術與產品的最新動態！