遠場語音交互體驗的思考：Alexa為什麼不用屏幕和多輪對話？

02-10

作者｜聲智科技創始人：陳孝良

來源｜聲學在線

網址｜http://www.xtecher.com

微信公眾號ID｜Xtecher

隨著亞馬遜的智能音箱Echo銷量逼近千萬，Alexa無疑成為了全球範圍內截至目前最為成功的消費級AI產品，也可謂是亞馬遜這家電商公司在人工智慧領域的一次跨界奇蹟，受到極大刺激的國內各個科技公司也紛紛進入語音交互領域。根據內部人士提供的數據，包括阿里、百度、騰訊、華為、小米、聯想、海爾、科大訊飛等國內已經有超過200多家公司正在研發類似Echo的智能音箱。

但是，我們真的認真琢磨過亞馬遜的Alexa嗎？或者我們真的了解評測過Echo嗎？儘管Amazon在這個領域持續投入了多年，但是Amazon一向對於PR的宣傳審核嚴格，實際上國內對於亞馬遜關於技術細節方面的思考，知之甚少。

最近EmTech Digital人工智慧峰會上，MIT Technology總編輯 Jason Pontin 對話亞馬遜Alexa負責人 Toni Reid，透露了一些Toni Reid關於消費級語音交互系統的思考。Toni Reid經歷了 Alexa 從無到有的全過程，在這次談話中，Toni Reid也解釋了Alexa為什麼不用屏幕以及多輪對話的原因。

Toni Reid認為，語音是最簡單、最自然的交互方式，也是人類溝通最基本的方式。所以，Amazon在為Alexa設計硬體載體Echo的時候，並沒有為其加上屏幕。這種做法其實是增加了難度：用戶只能通過純語音來使用設備，而並沒有屏幕反饋作為輔助。當然，Amazon也正在Fire TV和Kindle平板電腦等設備上嘗試部署Alexa，但這涉及Alexa比較大的改變。

Toni Reid更是堅持認為，當用戶下達語音指令後，Alexa實際上只有一次機會去部署相應的動作，而不能去和用戶來來回回的多輪對話。一般而言只有兩次對話機會，如果第三次對話還沒弄清用戶需求，就算徹底的失敗了。這樣的反覆對話對用戶來說是很糟糕的體驗。

這是兩個非常值得國內用戶思考的點，從這兩個點也可以展開來思考更多問題，我們期望國內能夠做出超越Echo的產品，至少也要比肩Echo的銷量和影響力。

一、為什麼是Amazon脫穎而出

這是一個很奇怪的問題，確實Amazon更像一個電商而不是高科技的公司。實際上，Amazon在沒有談及Echo的銷量之前，Amazon也並沒有被產業和媒體關注，同時也沒有被歸類到人工智慧公司。因為相比Google、Microsoft、Apple、Facebook這類公司，甚至包括和國內的百度、阿里和騰訊這些公司比較，Amazon實在也拿不出像樣的、同其他公司AI研究院一般提供的PPT，況且承擔重任的Lab 126還是一個依靠收購組建的大雜燴式的產品公司，更難堪一點的是，Echo一開始的項目優先順序也是最末的。為什麼會是這樣一個情況？

這個，有偶然，也有必然。若從科學實驗的角度來看，偶然性確實很大，成功的實驗往往都是那麼偶爾的一個閃光，但是這個閃光卻也是亞馬遜長期投入的必然結果。

首先來看，Amazon的優勢在於沒有太大的技術包袱，Amazon顯然對於成立研究院沒有太大興趣，正因為沒有過多的歷史限制，才會讓產品和技術結合的更加緊密，而不至於讓產品思維被工程師所束縛。特別重要的是Amazon Echo切中的市場痛點是遠場語音交互，這讓Google、Microsoft、Apple長期積累的近場語音交互優勢幾乎沒有意義，顯然Alexa更懂用戶對於遠場語音交互的需求。

其次來看，Amazon對於技術細節的耐心實際超越了Google、Microsoft這些AI巨頭，這裡要把Apple拿出來，因為Apple做產品的思路還是和Amazon比較一致的。Amazon和Apple顯然對於技術PR和論文都沒有多大興趣，但是對於產品和專利卻極其上心。從公司角度來看，PR和論文確實耗費公司極大的精力，這兩者對於創業公司來說可能是提高知名度的重要方法，但是對於成熟公司，知識產權、產品和營銷能力顯然更加重要，而且這也決定了公司對於技術的耐心程度。

因為過多的PR和論文會讓研究人員忽略對於技術細節的把控，當公司的技術人員動不動就談技術趨勢和架構的時候，這家公司反而危險了，那麼請問誰來把控技術落地時候的無數個細節問題？沒有細節的持久打磨，試問哪個用戶會為此買單？當掏出錢袋的那一刻，用戶的體驗永遠是第一位的。

最後來看，技術人員往往容易陷入科學幻想，總是喜歡做很多超前的事情。這在技術領域是必要的，但是不要讓工程師甚至科學家過多干涉產品定義也是非常重要的一個方面。市場上永遠都是滿足當前需求的產品才能獲得用戶，而不是你的技術多麼高深，顯然Amazon更是輕裝上陣，靈活的產品思考是Echo定義的關鍵因素，這樣才能更容易懂得用戶。

二、語音交互技術到底成熟沒有？

這個問題之前，可以先回憶一下，我們平時能看到身邊多少人在用語音交互？事實上這很少，除了汽車導航的時候，可能大部分時候只是偶爾秀一下，而且還是對著手機喊話。這就說明了問題，語音交互其實根本就不成熟。

這就不對了，因為幾乎所有的AI公司都在號稱語音識別已經接近甚至超越人類了，不要信以為真，別說遠場語音識別，就連近場語音識別也做不到。那些所謂的指標都是論文指標，僅僅是在特定的測試集合下所測得結果，可以理解為想要怎樣的指標幾乎都可以優化出來。So What？這又有個啥子意義，因為我們人類從來不是實驗室的小白鼠，我們需要的不是實驗環境下的技術應用。

語音交互包括了語音識別和語義理解兩大部分。我們就從語音識別這點來看，僅僅這點還有很多很多的問題需要解決。語音交互的落地首先要解決的是真實場景下的語音識別，這就要求要考慮說話者與機器的距離，要讓說話者在屋子任何位置下的語音命令都能被機器識別。而這又牽扯到對雜訊、混響、回聲等干擾聲音的處理，這是光靠所謂深度學習是解決不了的。

顯然，所有AI相關技術的落地都會碰到場景的問題，而場景則是物理學的範疇，物理的進展並沒有像AI頻繁的會議宣稱的那樣有飛躍式的進步。但是不解決場景的物理問題，單靠計算機科學就大談人工智慧改變人類為時過早了。玩笑一下，拔掉電源計算機還能工作不？

三、語音助手要不要屏幕？

Toni Reid提到，Alexa為了讓用戶適應語音交互的方式，特意去掉了屏幕。但是這不代表屏幕就不重要，雖然語音是最簡單、最自然的交互方式，但是我們80%的信息還是依靠視覺獲取，即便語音交互的時候我們也依賴很多肢體表達來確認我們是否得到了有效反饋。

這一點在Echo還是做不到，至少這個階段來說，這是一個無奈的折衷選擇。其中有一個重要的點Toni Reid沒有提到，因為Amazon並不想把Echo定義為一個音箱，而是一款全新的AI品類，但是創造一個新的品類也意味著巨大的風險。

所以Amazon選擇了穩妥的從音箱品類進行升級，當然蘋果也選擇了從耳機進行升級。這就特別要注意，傳統品類升級的時候一定要避免與其他品類的衝突，比如假設給Echo加上屏幕，用戶會把這個品類看成音箱還是平板？我想Amazon更願意用戶把Echo看作為音箱，即便他們非常不情願。

事實上，國內很多創業公司都在驗證Amazon的眼光有多麼獨到，因為我們已經看到太多配置屏幕的機器人和智能音箱，甚至還有不少耳機產品。其銷量為什麼不好？為什麼不換個角度想想，這種場景下，用戶買個iPad Mini是不是會是更好的選擇？

四、當前階段用戶真的需要多輪對話？

Toni Reid的觀點很明確，Alexa暫時不需要多輪對話，因為這會讓早期用戶的體驗更糟糕。筆者也堅持這個觀點，但是有幾點是必須補充的。

首先來看，現在的語音交互實際上都是語音控制，確實這個階段我們真的很難讓計算機理解人類語言。在這個前提下，真正的多輪對話實際上很難做到，當前更多的是解決基於場景的搜索問題。當不能真正理解用戶思想的時候，多出的對話若不能解決用戶的需求，反而是用戶極其反感的地方。簡單想想，真正使用一個產品的時候，面對著冷冰冰的機器，難道讓用戶和機器溝通要比和女朋友溝通還要費勁嗎？抱歉，即便作為用戶，筆者也只是想要一個絕對聽從於我指令的音箱而已，聲智科技經常會測試各個廠商的Demo，但凡偶爾喚不醒或者一句沒聽懂我就挺惱火的。

其次來看，我們怎麼理解多輪對話？Toni Reid提到不希望Alexa問到第三遍，這實際上還不是一個多輪對話的問題，而是問答反饋的問題。也就是說，真正的多輪對話可能不需要，但是問答反饋還是必須得，我們知道Echo由於沒有了屏幕，先天丟失了用戶交互過程中的反饋途徑，這個時候語音的反饋就顯得比較重要。但是這是一個很大的坑，到底該如何把握這種問答反饋，既讓用戶快速獲取滿意的答案，又能在模糊的時候通過一次問答來解決用戶問題，我想這個方面真的需要仔細研究Echo，Echo的成功就是仔細思考和打磨了每個細節。

事實上，可以連續喚醒的單輪問答對話才是智能音箱的核心技術所在，簡單可以理解為智能音箱的喚醒是第一優先順序的，必須支持連續的無數次喚醒，做到有問必答，也就是說用戶可以隨時喚醒並且打斷其他對話直接喚醒，而且必須保障喚醒率和虛警率，虛警率太高顯然不行，這會讓設備總是莫名其妙自動對話。當然，聲智科技的這項技術當前還主要針對大客戶定製，開發板暫時還不支持這項功能。

五、深度學習真解決了語音交互問題？

這個問題實在不好解釋了，引用微軟首席研究員劉鐵岩的一句話，順便也推薦感興趣的同學看看劉研究院所做的《人工智慧的挑戰與機遇》演講，這給國內火熱的人工智慧潑了一盆冷水，但是我相信所有從事這個行業的技術人士都是有清晰認識的。

「所謂深度學習實驗室，就是一批會調參的人，沒有他們深度學習就沒那麼好用。雖然是句玩笑，但是深度學習要調的東西確實太多了，比如說訓練數據怎麼來，怎麼選，如果是分散式運算怎麼劃分，神經網路結構怎麼設計，10層、100層還是1000層，各層之間如何連接，模型更新的規則是什麼，學習率怎麼設，如果是分散式運算各個機器運算出來的結果怎麼聚合，怎麼得到統一的模型，等等，太多需要調的東西，一個地方調不好，結果可能就大相徑庭。這就是為什麼很多論文里的結果是不能重現的，不是說論文一定不對，但至少人家沒有把怎麼調參告訴你，他只告訴了你模型長什麼樣而已。」

那麼，從上面幾個問題繼續引申，我們到底應該怎麼看待持續火熱的Alexa和Echo？國內公司該是怎樣理解和思考人工智慧，筆者拙見，也提幾點個人的看法和建議，期望AI能在理性的環境中成長。AI是未來的趨勢，創業者長期的事業，絕對不是一蹴而就的事情。

1.AI最大的問題是不懂人腦機制

上面也提到了深度學習的問題，我們大量的工作其實就是工程師所做的事情，不斷調參優化，這是一個持續優化的過程，最終結果不可能是顛覆性的。因此，不能指望理論上所不能證明的事情，通過調優就能實現。

所以AI最大的問題還是會歸結於最原始的哲學問題，人類的智慧是怎麼來的？ AI根本不懂人腦的機制，怎麼超越人腦？這點就從筆者最熟悉的聲學來看，這個領域為啥大家都不愛進入，甚至本科都不開設這個專業？甚至聲智科技成立以前，很多大眾媒體同學都不知道還有個中科院聲學所。

因為聲學100多年沒有啥實質性理論突破了，雖然在水聲領域我們國際上也很領先，但是和深度學習類似，我們也是在做大量實驗和調優的工作，這就很難產生顛覆性的貢獻。這麼久沒有理論上的突破必然會導致公眾的遺忘，甚至再過百年都看不到諾貝獎的希望，誰還來搞呢？畢竟學子年輕的時候都充滿了希望，但是怎麼做到呢？

2.語音識別的最大瓶頸在於聲學

前面提到，語音識別最大的落地還是在場景之中，這涉及了語音交互用戶場景的變化，當用戶從手機切換到類似Echo智能音箱或者機器人的時候，實際上麥克風面臨的環境就完全變了，這就如同兩個人竊竊私語和大聲嘶喊的區別。

前幾年，語音交互應用最為普遍的就是以Siri為代表的智能手機，這個場景一般都是採用單麥克風系統。單麥克風系統可以在低雜訊、無混響、距離聲源很近的情況下獲得符合語音識別需求的聲音信號。但是，若聲源距離麥克風距離較遠，並且真實環境存在大量的雜訊、多徑反射和混響，導致拾取信號的質量下降，這會嚴重影響語音識別率。而且，單麥克風接收的信號，是由多個聲源和環境雜訊疊加的，很難實現各個聲源的分離。這樣就無法實現聲源定位和分離，這很重要，因為還有一類聲音的疊加並非雜訊，但是在語音識別中也要抑制，就是人聲的干擾，語音識別顯然不能同時識別兩個以上的聲音。

顯然，當語音交互的場景過渡到以Echo、機器人或者汽車為主要場景的時候，單麥克風的局限就凸顯出來。為了解決單麥克風的這些局限性，利用麥克風陣列進行語音處理的方法應時而生。麥克風陣列由一組按一定幾何結構（常用線形、環形）擺放的麥克風組成，對採集的不同空間方向的聲音信號進行空時處理，實現雜訊抑制、混響去除、人聲干擾抑制、聲源測向、聲源跟蹤、陣列增益等功能，進而提高語音信號處理質量，以提高真實環境下的語音識別率。

但是僅靠麥克風陣列提供的這些技術還是不夠的，這隻能解決部分遠場化的問題。事實上，真實場景下我們需要更複雜的識別技術，能不能不依賴於雲端？能不能同時追蹤和識別多個人講話？能不能識別語調和情感？等等這些環節，都是急需要解決的問題？而很多技術的瓶頸就在於聲學能否也有一個較大的突破。

3.語音助手核心在於場景和性格

語音助手包括了兩個大的技術環節：語音識別（前端聲學+後端識別）和語義理解（+內容聚合）。語音識別其實不涉及太多智能問題，僅僅只是AI的一個管道，智能的核心還是在於語義這個環節。語音識別和場景也密切相關，不同的場景需要不同的模型適配，這才能保證其識別率。語義更是需要場景的輔助，畢竟圈子的語言還是有很大差異性的。如果不能邁過這個門檻，語音交互的效能就會極具降低，對用戶來說呈現不出來足夠的吸引力。

另外一個問題就是語音助手本身也要定義一個性格，即便是冷冰冰的問答控制，也要讓語音助手體現出個性來，這也包括語音合成的語調問題。比如蘋果Siri很調皮，微軟小冰很小色，亞馬遜Echo很熱心等等。當然，這更多是AI產品經理的任務，現在這個領域AI產品人才也是奇缺。

4.好的產品並不要100分的技術

Amazon的Echo顯然不是百分的產品，其技術也遠未成熟，但是這不妨礙Echo的熱銷，只要達到80分過了用戶心理預期的門檻，這就是一款好產品。蘋果的歷代產品也都是這個路徑走過來的。所以這就不要讓AI技術人員過多定義產品，機器人就是個不好的例子，總是不斷拔高用戶預期這非常不妙。產品滿足的是用戶需求，而不是研發人員自我炫酷的心態。更好的產品設計應該是充分發揮技術的優勢，而巧妙避過技術的缺陷。

比如麥克風陣列，Amazon採用這項技術核心就是要解決遠場語音識別問題，而且這也是當前階段唯一有效的技術方法。AI產品經理更需要了解麥克風陣列技術的優勢和缺陷，將其融合到產品之中，而不是浪費很大精力鑽研麥克風陣列與深度學習之間的關係，甚至總是在琢磨如何才能替代麥克風陣列，這就本末倒置，應該讓專業的公司做更專業的事情。

5.沒有歷史包袱的產品更易成功

單從Amazon在AI領域崛起來看，國內的消費級AI戰場鹿死誰手還真不一定。領先布局的BAT不一定能突圍，緊跟其後的小米、華為、聯想、金山也不是沒有機會。從PC互聯網和移動互聯網的發展來看，沒有歷史包袱的產品更容易獲得成功。說到這點總是難免會提到諾基亞、摩托羅拉、愛立信等最近十年的變化，當然PC時代會有更多的例子，只是年代比較遙遠了。

事實上也簡單，成熟的公司總會有成熟的架構，百度總裁張亞勤最近強調公司的中層力量可能會比較阻礙創新，這是一個事實，誰也不願放棄舒適安逸的環境去適應新鮮的事情。畢竟，這意味著可能要放棄陪伴家庭，放棄自我休閑，所以我很敬佩創業群體，這是一群有理想還能做事情可愛的人，而事實也證明，大都是創業公司創造出了奇蹟。無論百度、阿里、騰訊、小米、京東還是華為，他們曾經都是很小的創業公司，也曾經賣也賣不掉。

6.感知和認知是兩個層面的問題

毋庸置疑，這也是人工智慧的兩個層面，感知更多關注的是數據，認知更多關注的是推理。顯而易見，現在我們還在感知的階段，這個階段所強調的智能其實不重要，控制才重要。可以把智能看作噱頭，而控制才是根本。特別是真實場景下的感知問題，這是一切AI的基礎。

那麼感知就牽涉到多學科融合的問題，比如真實場景下的語音識別問題，首先就是真實場景下獲取數據的聲學問題，這更多是一個物理學科的問題，而數據處理後又要涉及深度學習的問題，這又是一個計算機學科的問題，如何平衡這兩類技術並且融合成一種新的技術體系顯然也是一個難點。何況感知還包括了器件、晶元等硬體技術，比如語音識別常用的麥克風，消費級產品都是標量麥克風，矢量麥克風在數據感知上更具優勢，但是怎用應用以及如何降低成本都是一個技術和產業的問題。

7.核心競爭不是技術，而是產品

我們知道，技術特別是演算法本身不容易形成壁壘，例如深度學習也只是一個工具。演算法只是一些體現技術思路的代碼，這些代碼不可能形成壁壘，但是有相當高的技術門檻，這也是人工智慧公司基本都以博士為主的原因。由於演算法很難直接形成有商業價值的專利和標準，所以發展一定階段就會開源，開源的結果就是訓練一段時間，大家都可以訓練一個還可以用的模型出來，核心問題只是怎麼把這個模型優化得更好，更能落地到實際產業之中。

所以人工智慧的核心競爭力不在於技術本身，而是公司的格局，格局不清晰很可能競爭不過從事AI的產品公司。比如，產品公司如果把演算法做到場景裡面，場景是可以形成壁壘的。比如醫療領域做到No.1，肯定就比通用的有優勢，這裡面不管你是通過資源支持，還是BD，都是產品公司的優勢。另外場景和數據密切相關，因為收集數據是需要周期的，處理數據是需要投入巨資的，所以在特定場景下積累到一定規模的數據也是可以形成壁壘的。

因此，巨頭把大量精力花在技術方面顯然得不償失，單點技術更適合創業公司來搞，因為技術從來都是苦行僧的活，創業公司的人才顯然沒有寬敞明亮的環境可以聊天做PR。Amazon等國外巨頭的做法非常值得借鑒，投資和收購都是非常快捷的一種方式，事實上，時間才是最大的一種壁壘。

8.理性看待人工智慧的技術紅利

很多大佬都在強調，當前AI相關的人才成本太高，這不是一個產業的好現象。簡單類比來說，因為深圳的產業工人成本增高，導致很多製造產業向東南亞方向轉移。其實很多人也不明白為何AI相關的技術人才會如此自信，如果從PC到移動到AI的產業變化來看，事實上漫天要價的做法並不理智，如何最快落地到某個具體場景之中，充分挖掘技術紅利跟隨公司成長才是明智的選擇。

而且從2017年的投資案例來看，人工智慧的天使融資幾乎很少了，也就是說人工智慧技術創業這一波基本上各就其位，各家創業公司早就不再關注PPT和DEMO了，所有的客戶都會強調指標和細節，無數的細節就會折騰死一波創業公司。現在，成敗的關鍵在於各家對於細節的把握。事實上，筆者一直在估算這波人工智慧創業的低谷期，這是必將到來的，從來沒有哪個行業是一帆風順的，波浪起伏才是恆久遠。這個時候，再大談所謂的技術紅利，顯然也是不合時宜了。

8.不要忽視人工智慧的商務拓展

大型公司有沒有人工智慧研究院倒不是關鍵問題，研究院的目的也是要讓技術為產品服務。關鍵問題是，如何解決人工智慧的商務拓展問題，特別是在人工智慧極其早期的情況下，還需要教育和培訓市場。Amazon Echo的成功，千萬不要忽視了Amazon在渠道上的優勢以及市場投入方面的大手筆。

所以，筆者個人覺得，與其花費精力探討AI技術如何如何（抄襲Echo也沒啥不好），不如多摸摸市場如何，試試用戶怎樣，再來定下營銷打法和渠道策略。只有先有一款好的產品粘得住市場，再琢磨所謂的變現、戰略等等之類的東西。想當初各大門戶網站成立之初，估計打死也不會想到最終還是以廣告盈利的。

10.AI創業不要全棧，尋求單點突破

AI創業的全棧式玩法更多是一個理想，即便蘋果至少也需要200家供貨商。創業公司應該都是利用自身團隊優勢尋求單點突破，因為創業公司的資金、規模、人員、口碑、營銷等等都是非常弱勢的，其本身根本就沒有抵抗風險的能力，更不要說試錯的機會了。但凡一個戰略決策錯誤，創業公司估計就倒下了，創業公司其實沒有什麼資格談論全棧。

即便是巨頭，全棧也是一個不恰當的選擇，全棧是一個逐步積累的過程，操之過急就會掉進坑了。事實上，一個國家做到全棧都極其困難，甚至我們國家到現在很多地方還不能自給自足。當然全棧在國內又被理解成了生態，不過似乎國內號稱做生態的公司活的也並不是太好。

社會分工本來就是人類的進步，不是說有點AI的苗頭就回到歷史起點了，遠遠到不了那個層次。舉個簡單的例子，比如聲智科技從事的遠場語音交互領域，任意一個單項技術早就已經全球競爭了。當國內科技公司還在模仿Echo，互相爭吵該不該用麥克風陣列的時候，國外的科技巨頭已經開始進一步搶奪全球語音交互市場的控制權。無論是行業標準的定製，還是戰略專利的布局，亦或是音頻數據集的開放，以及各種產業生態聯盟的搭建，事實上國內的科技公司巨頭已經落後許多了，這個時候快速做起業務才是核心，而不是從頭到尾打造所謂的全棧。

小結

啰嗦了那麼多，主要想表達兩個觀點：

一是期望業界理性看待人工智慧，理想看待這個領域的創業公司，資本不要拔苗助長，媒體也不要捧天摔地，創業者也不要自我陶醉，所有企業的成長都要遵從客觀的歷史規律，AI還只是對未來的期望。

二是也期望AI領域的創業者們，從事這個領域更要有格局、有眼光、心胸開闊，AI行業不存在誰滅誰的問題，AI只是通過技術升級推動行業的進步，宗旨還是造福人類社會。因此，AI企業更應該合作共贏，一起教育和培養市場，共同推進AI技術生根發芽。