哈曼宋柏勛：人機交互和人際溝通畢竟不同，語音到底怎樣做才算自然？| WARE 2017

01-30

「我們談語音交互的時候，說的當然是人用語音跟機器交互。但現在我們思考的是，如何讓人與機器的交互方式回歸到像人與人交談一樣自然，這才是我們發展技術想要追求的目的。」

在深圳灣「WARE 2017 語音智能平台與應用峰會第 II 季」上，哈曼（Harman）麥克風系統負責人宋柏勛比較了人際語言溝通和人機語音交互之間的異同，從語音交互的需求、人機聽覺的差異、以及聲音信號的處理等方面，淺析了如何讓人機語音交互更接近人與人自然對話的問題。

自然的交互≠完全相同

「現在語音技術的努力方向，主要還是在聽懂人在說什麼，層面停留在人對機器的控制。」宋柏勛說，「而未來的需求則是要讓機器更了解你，帶有人與人交談的情緒性，知道你是誰，知道與你互動與其他人互動是不同的。」

儘管語音智能在追求像人一樣的自然交互，但人際溝通和人機交互畢竟還有許多差異的。

人機交互需要高的識別率，需要語音方面的強化，能夠通過聲紋識別分辨不同的對象，同時，還要求機器的可控。

「比如你讓它關電視它就要關電視，說了三遍它還沒反應你就覺得產品有問題了。」宋柏勛說，但人與人交談的重點則並不是追求這種絕對的控制。

人與人的交談，除了需要清晰的語音，還帶有情緒性，這種情緒語氣本身也在傳遞信息。此外，在聆聽的專註性上，人可以有意識地進行選擇。

二者的這些方面的差異，有的需要彌合從而增強人機語音交互的自然程度，而有的則是基於交互對象的固有差異，如何區分和兼顧這兩種差異，是實現自然語言交互的關鍵。

現在的語音識別技術，多數是通過分析下圖這樣的聲音頻譜特徵來識別語言內容。

「但人的聽覺感知可不是這樣基於聲音頻譜做傅里葉分析。」宋柏勛說，「人的聽覺是聲音引起耳蝸內基底膜振動，產生神經細胞興奮將振動轉化為脈衝電信號，傳遞到大腦的聽覺皮質來解析。」這與現在語音識別技術中使用的方式是十分不同的。

「我們嘗試用信號處理、機器學習等技術解決聲音上的問題，需要花費大量的資源，是因為我們在技術上認知的聲音特徵和大腦所認知的是十分不同的，大腦感知聲音的方式在另一維度上。」

「這也是為什麼人只要用兩隻耳朵，就能在複雜的空間識別不同的聲音，在多個人講話的時候，專註聆聽其中一個人。這與人耳的構造、聲音信號傳遞過程中的控制和處理都密切相關。」

「這個過程中的聲音信號處理十分複雜，但神經心理等學科的研究已經發現這個過程中的許多機制，並試圖通過演算法把這個複雜的機制轉化為可實現的信號處理方式，這是為複雜的聲音環境創造出更好信息處理方式的重要方向。」

作為一家一直深度鑽研聲音的傳統音頻廠商，哈曼試圖做的，就是在語音智能體系中為人工智慧提供足夠好的「耳朵」和「嘴巴」，這也是哈曼公布 SONIQUE 語音識別方案的初衷。

▲ 哈曼專註的，是語音智能體系中的輸入和輸出端（左側）

「儘管語音智能在市場上已經開始興起，但在製造上，在如何控制好音質，如何自定義規格，以及好與不好的標準制定等方面都還面臨著挑戰。」

針對不同應用場景，哈曼開發了一系列麥克風元件和專門為語音識別設計的低失真喇叭，通過硬體和演算法的搭配在不同場景下實現性能優秀的聲學解決方案。

▲ 哈曼的系列麥克風元件

▲ 哈曼專門為語音交互設計了的超低失真喇叭

▲ 針對不同應用場景，哈曼 SONIQUE 提供了多種解決方案

而在未來應用方向上，語音除了作為人工智慧的交互介面，進行語音控制、語音通話等功能外，宋柏勛還特別提到了基於聲紋識別的個人化的重要性。最後，宋柏勛總結說，未來智能語音產業的發展重點，將落在訊號處理與機器學習的融合、市場專業分工化、產品落地與產業供應鏈完善、人機交互體驗的提升以及人才的培養等多個方面。

主筆：陳凱文

原文：哈曼宋柏勛：人機交互和人際溝通畢竟不同，語音到底怎樣做才算自然？| WARE 2017

-------- 我是「深圳灣」分割線 ---------

深圳灣 | shenzhenware 長期挖掘物聯網、人工智慧、機器人、無人機、智能駕駛、智能家居等領域的新銳產品和初創團隊，歡迎聯繫我們。微信私人客服：小炫（ID：warexx）。

本文系深圳灣編輯創作發布，轉載、約稿、投稿、團隊報道請聯繫微信公眾號：shenzhenware（回復關鍵字）。