引發Google、亞馬遜互懟！會自己笑出聲的智能音箱技術探密

04-08

當你正坐在家裡的客廳，突然聽到了一個巫婆般的笑聲傳來，你會怎麼做？起身查看是否有人闖入？打電話給朋友？默念阿彌陀佛？其實沒有這麼麻煩，只要把你家智能音箱的插頭拔掉就行了。

幾天前，亞馬遜的智能語音助手 Alexa 莫名其妙發笑，因為實在太令人發毛，這些案例立刻在社交媒體上快速流傳而成了大新聞，人工智慧想要跨越恐怖谷（Uncanny Valley）仍然不容易。

圖丨恐怖谷理論示意圖

其實智能音箱出現一些「搞笑」或「瞎搞」的事件，Alexa 並不是第一次，也不是唯一的一個。之前一名美國電視主播在說明一個小女孩意外通過 Amazon 的智能音箱 Echo 訂購娃娃屋的新聞時，隨口說了一句「我好愛這名說『Alexa，給我一間娃娃屋』的小女孩！」，竟然喚醒了許多觀眾家中的 Echo，集體下訂娃娃屋！

德國還有個更好笑的案例，Echo 不知為何自己啟動，在午夜大聲播放音樂，但因為屋主不在家，被吵得不耐煩的鄰居只好報警，警察破門而入才把吵人的 Echo 關掉，真有夠興師動眾。另外，小米的「小愛同學」、阿里巴巴的天貓精靈也都曾被國內媒體報道經常答非所問，更不用說亂扯出了名的 Siri。

為什麼 Alexa 笑了？

這些「智能」音箱鬧出的笑話隨便都可以列出個十幾件，回到正題，究竟是什麼讓 Alexa 笑了？

亞馬遜官方針對此次巫婆笑事件做出回應，指出主要原因是當用戶在說著其他語言時，Alexa 錯誤聽到「Alexa，laugh」（Alexa，笑）這個詞，因此亞馬遜已經更改指令，以「Alexa，你能笑嗎？」取代先前的「Alexa，笑」，同時也替換了 Alexa 的回應，Alexa 會先說，「是的，我可以笑」，之後才會發出笑聲，而不是什麼都不說就直接大笑。

從亞馬遜檯面上的解釋來看，我們可以合理認為 Alexa 就是把非英語的語言「誤聽」為英語，然後以為用戶在下指令，說得直白點，就是語音識別錯誤。亞馬遜只強調了後續的解決方式，對於發生機器「故障」的原因並未深入闡述，沒有一個處理過程是在客戶終端上執行，外界也沒有辦法查看 Alexa 內部究竟發生了什麼事，因此究竟是如亞馬遜所言的小故障問題，還是陰謀論一點的想法如程序病毒、被黑客入侵，真相只有亞馬遜知道，但是，此事件反應出幾個問題，以下 DT 君將從智能音箱的現有技術瓶頸，下一步會走往什麼方向，以及躲不掉的安全疑慮三個面向來深度討論。

錯誤喚醒的比例仍高

語言一直是很複雜的領域，儘管語音識別在近年的發展有很好的突破，各家參與競賽的分數也不斷創高，但是，實際應用在生活上，語音技術顯然仍有不足之處，否則就不會把 A 語言誤聽為 B 語言，而且每個人講話的口音也不同，同樣影響語音識別率，使得智能音箱無法正確識別用戶到底在講什麼，未來這個問題非常有可能會被放大，例如聽不懂亞洲人講的英文，進而扯上種族歧視的大問題。

改善語音識別效果，對企業來說是一個持續性的工作，知名的語音識別公司科大訊飛接受 DT 君採訪指出，改善語音識別效果主要有三個方式：一是不斷優化麥克風陣列聲學演算法的處理效果，提升處理後的語音質量。二、通過不斷收集用戶的數據來優化用戶的識別模型，甚至做個性化定製模型來優化效果。第三就是通過更好的語音識別建模方式，來實現語音識別效果的提升。

由於智能音箱是聯網設備，可以通過空中下載技術（OTA，Over-The-Air）自動升級成最新的演算法版本。在第二和第三點部分，目前各家音箱方案的語音識別都是基於雲計算，可以通過後台升級用戶的識別引擎來實現，不會對用戶造成額外的工作負擔。

雞尾酒會效應仍難解

另一個雞尾酒會效應問題，可說是智能音箱產品都有的問題。什麼是雞尾酒會效應（cocktail party effect）？早在 60 年代，英國心理學家 Colin Cherry 提出這種人類聽覺有選擇能力的特質，例如在一個派對上，夾雜著眾人談話的聲音、音樂聲、酒杯碰撞聲，但是在這些環境音的干擾下，人類還是可以針對跟自己有關或是注意的聲音特別關注，或是當有人喊你的名字，你依舊聽得很清楚。

在去年的美國「超級碗」比賽，Google 為推廣自家的音箱做了一支廣告，強力在比賽期間播放，沒想到卻換來用戶抱怨連連，因為只要當廣告人物說出「Okay Google」，用戶家中的 Google Home 就不斷被喚醒，用戶不堪其擾，這就是雞尾酒會效應問題。像是 DT 君擁有一個 Google Home 設備，當 DT 君在講電話時，Google Home 也常常自動莫名其妙被喚醒，誤以為你在跟它講話，同樣的，iPhone 上的 Siri 也有類似問題，這種「誤聽」而被喚醒的比例仍相當高。

目前要對智能音箱下指令，多半必須靠近它說話，為「近場」語音交互，但是，在一個吵雜的環境，智能音箱如何識別出是誰在講話？而且是在「對它」講話？一堆人都在下指令，到底要聽誰的？機器必須知道了，才能對於語音的內容做出反應，但對於這種「遠場」語音交互的識別度問題不僅限於智能音箱，也是居家機器人、服務機器人目前遇到的挑戰。

國內專攻遠場語音交互硬體方案的聲智科技創辦人陳孝良指出：「雞尾酒效應依賴現在的技術暫時解決不好，可能還需要 2～5 年的周期，需要一些前沿技術的突破」，他進一步解釋，解決雞尾酒會效應至少需要兩個基礎條件：一是基本原理和模型的進步，包括了人耳聽覺和機器學習研究，二就是海量有效數據的積累，這兩個條件都還需要時間。

科大訊飛也指出了類似的看法，「雞尾酒效應目前解決起來難度仍然比較大，音箱上還不能支持」，訊飛以深度神經網路的語音增強方案在這方面已經有一些進展，不過預計還要 3 年左右的時間才能真的解決雞尾酒效應。

因此，從解決痛點的角度來看，雞尾酒效應是一個還有很大開發潛力的市場，也是大企業和初創公司的商機所在。

智能音箱的下一步

雖然智能語音助手在現階段仍有不夠完美之處，但是語音交互的趨勢已經十分確立，Future Today Institute（FTI）最新出具的 2018 年前沿科技報告就點名，Siri、Google Assistant 這樣的數字語音助手正在變得無處不在，「預測到 2021 年，有超過一半的計算都將通過語音完成，」FTI 創始人 Amy Webb 說。

因此，要改善使用者體驗，實現音箱越來越智能是毋庸置疑的，怎麼做？DT 君認為有兩個方向正在成形，一是個性化、情感人工智慧（Emotion AI）的加入，二是聲紋識別（voiceprints）的應用擴大。

情感人工智慧

個性化這件事在互聯網世界已經被應用的十分普遍，電商購物會依據你的購買歷史進行商品推薦，社交平台會依照你過往的點擊內容，把你可能感興趣的媒體內容、廣告優先投放到你的眼前，甚至是交友軟體 Tinder，都使用了個性化功能來推薦用戶可能會喜歡的對象。

智能音箱勢必也會往這個方向走，可以針對用戶的發音習慣、常說的內容，定製優化用戶的個性化語音識別模型，讓用戶的交互成功率越來越高，同時通過用戶的交互數據做行為和愛好分析，來針對用戶構建用戶畫像，做個性化的推送。

智能音箱的下一步發展，個性化是第一階段，那麼，情感智能就是進階版。

情感人工智慧也稱為情感計算（affective computing），讓機器能夠偵測、分析、處理和回應人們的情緒狀態和心情。「預計在 2022 年之前，你的個人設備將比你的家人更了解你的情緒狀態，」知名調研機構 Gartner 研究副總裁 Annette Zimmermann 指出。

用聲音做情緒分析，並將其落實在商業應用中，不算是一個新概念，例如把用戶與金融業客服人員的通話，讓人工智慧判斷用戶的還款意願，IBM 沃森也有一個客戶互動音調分析（Tone Analyzer for Customer Engagement）功能，讓人工智慧通過人的聲音推測出相應的情緒，沮喪、興奮、禮貌、同情等，讓企業打造更好的客服服務。

從 MIT 媒體實驗室獨立出來、知名的人工智慧公司 Affectiva 就是從表情、聲音、手勢等多維度來研究情感人工智慧，聯合創始人 Rana el Kaliouby 就指出，當人類已經開始和 AI 產生關係，教會它們回應我們的感覺，就變得至關重要。例如，當一個用戶很難過跟蘋果 HomePod 說出心裡的秘密時，HomePod 應該要能給予安慰。

另外，亞馬遜的 Alexa 團隊已經開始分析用戶的聲音，以識別他們的心情或情緒狀態，播放不同風格的音樂，並讓用戶能夠願意跟語音助手進行更長時間的對話，進而發展出更好的情感人工智慧。

聲紋識別的野心

用戶與智能語音助手的溝通不靠觸控顯示屏，而是利用語音交互，因此用戶的聲音反而成為非常重要的資料，尤其是聲紋被認為具有獨特的生物特徵，就像人的指紋、虹膜一樣，目前採用聲紋識別技術的領域多在電信及金融行業，以取代個人密碼、PIN 等，而智能手機以及智能音箱是語音交互最直覺化的設備，用於喚醒設備並登錄每天使用的服務或應用程序，因此被視為是最有潛力的應用情景。

圖｜目前聲紋識別的主要應用行業（資料來源：Opus Research）

目前智能音箱已經支持了聲紋識別技術，像是天貓精靈基於聲紋識別技術，推出聲紋購，是第一個商用的聲紋購物系統，用戶購物、充值時，只需要說出聲紋密碼，聲音識別系統將對身份進行校檢，確認是本人後就可完成交易。

除了生物識別之外，聲紋識別也是用以改善音箱體驗的一項熱門技術，不少企業藉此自動判斷說話人的身份、年齡、性別來實現個性化點播，也能減少音箱被錯誤喚醒的機率。陳孝良就指出，情緒判斷和場景判斷也是正在研發的技術，不過這些新的特徵穩定性還不夠，也包括聲紋識別，但是有一點是很明確的，隨著產品不斷上量，產品技術的迭代也會更加迅速，多數據的融合將讓機器看起來更加智能。

圖｜亞馬遜在今年美國超級碗的廣告，強調 Echo 設備不會被廣告騷擾，消遣 Google 一番

前面提到了 Google 因在超級碗播放的廣告惹惱了用戶，到了今年的「超級碗」，Google 的死對頭亞馬遜就刻意做了一支廣告，在 90 秒的廣告里不斷呼喚 Alexa，而且還對用戶喊話：「請放心，你們的 Echo 設備不會被廣告騷擾」，擺明了消遣 Google。

為什麼亞馬遜能如此有信心，原因就在於使用了一種名為「實時聲音指紋識別」的技術（Real-time Acoustic Fingerprinting Technology），能分辨哪些聲音來自廣告、哪些才是用戶的真正指令。

其實亞馬遜在 2014 年註冊了一項「語音指令過濾」（Audible Command Filtering）技術專利，防止 Alexa「在部分有大批觀眾的電視轉播，如大型體育賽事時」被喚醒，採用了兩種做法，一是在廣告播出前，就先把部分片段傳到 Echo，讓 Alexa 比較並分辨哪些語音指令才是真實發出，另一種則是讓廣告發出一種人類聽不見、但 Alexa 可以捕捉的信號，告訴它直接忽略這個喚醒指令。

而實時聲音指紋技術建立在 AWS 雲服務上，當多個設備開始被廣吿、廣播同時喚醒時，類似的音頻會即時串流到 Alexa 的雲服務，演算法會偵測來自不同設備的音頻吻合度，以防止其他設備被喚醒，「動態指紋還不完美，但基於這項技術，有 8～9 成的設備不會因為電視廣告而被喚醒。」亞馬遜語音識別主管 Manoj Sindhwani 強調。

不過，以聲紋識別改善用戶使用體驗，只能說是前段，其實各家企業都有著更大的野心，醫療照護就是一個新世界，家中的智能音箱不僅可以偵測到你的情感，也可能偵測到與特定疾病相關的特徵，包括心理的抑鬱症、躁鬱症、創傷症候群、或是帕金森病、心臟病等，未來甚至還可能與醫療保費設計掛鉤。

亞馬遜就與一家以色列初創公司 Beyond Verbal 合作開發一款分析工具，希望通過 Alexa 分析使用者的聲音，進而判斷其健康狀況，像是偵測病患的沮喪情緒，未來甚至還可能診斷疾病，例如偵測心臟病等慢性疾病，另外像是國內一家初創公司逸善舒晨，也是鎖定以醫療人工智慧+聲音做「病理聲音」的研究，像是抑鬱症。

Rana el Kaliouby 認為，帶有情感的語音助手或機器人可用於檢測疾病並加強健康行為，不過，她也直言「還有很多工作要做。」特別是，醫療行業不論是在技術導入或驗證有效性方面，都採取相當嚴謹的標準和規範，因此這方面的研究仍在初期的研究階段，只是 Amazon、Google、蘋果等巨頭已經大動作切入醫療行業，相信他們的長期研發藍圖裡肯定有這一個選項。

安全漏洞：不是閉上眼就沒事

「智能」音箱鬧出的笑話隨便都可以列出個十幾件，而有些事恐怕不是好笑而已，例如安全及隱私問題，先不談這些智能音箱是否 24 小時都在偷聽你講了什麼話，甚至是像科幻小說劇情可能謀害你等諸如此類比較陰謀論的想法，因為目前仍難以查證，那就談一個非常實際、現在就有可能出現的問題：駭客入侵，黑用你的智能音箱來搗亂，亂播音樂吵你、發出笑聲嚇你，而且音箱定位為智能家庭的中樞，可以跟居家設備整合，所以隨意開關你家的電燈、空調也是很容易，甚至是盜用帳號購物、竊取個人資料等。

Alexa 發笑事件被大家關注，多半是因為亞馬遜的名氣、以及 Echo 是目前智能音箱市佔率最高，但在此之前，其實音箱自己笑出來、播音樂的案例就已經發生，存在安全漏洞更是事實。資安公司趨勢科技在去年底發布了《針對性攻擊的聲音》（The Sound of a Targeted Attack）報告，測試了兩款音箱：Sonos 的 Play:1（以亞馬遜的 Alexa 為核心）以及 Bose 的 SoundTouch，發現暗藏的安全漏洞會暴露用戶資料，以及可用於展開攻擊的信息，包括阻斷服務（DoS）漏洞。

當黑客想要入侵一部主機／一個設備時，會通過一些掃描技術去測試此設備上有哪些通訊埠埠是開啟的，也可以使用 Shodan，也就是俗稱黑客界的暗黑搜索引擎，Shodan 會定期對各類設備埠號產生的系統旗標信息（Banners）進行審計，進而找出所有連線到網際網路（Internet）上的設備，在 Shodan 上可以找到在特定國家、經緯度、IP 位址範圍的網路攝影機、印表機、智能家居設備，當然也有智能音箱，趨勢的資安人員也使用了 Shodan，可以看到數千台使用中的 Bose 和 Sonos 音箱分布在哪些國家。

趨勢科技的測試報告指出，一個很簡單的通訊埠開口就能讓任何人可以存取設備，取得用戶信息，例如用戶往往把音箱跟音樂串流服務如 Pandora、Spotify 對接，因此黑客可以拿到你用來註冊音樂串流服務的電子郵件地址，以及使用同一網路的其他設備的清單。

圖｜黑客可以根據目標的音樂偏好發送定製的釣魚郵件。（資料來源：趨勢科技）

此外，工程師在測試時也取得了音箱所連接的 WiFi 無線基地台的 BSSID 信息，並且利用 Alexander Mylnikov 博客開發的公共地理位置 API，查詢這些特定的 BSSID，就能抓出音箱所在的經緯度，再搭配 Google 地圖看到大致的地理位置。同時，也能看到設備上進行的活動，例如正在播放的歌曲，甚至是可以遠程控制設備。

在掌握了上述的方法後，趨勢的測試人員想知道是否可以得知更多的個人信息和居住地區，因此他們隨機選擇了一個 Sonos 音箱展開近一步測試。在 Shodan 搜索引擎網站上，他們發現科羅拉多州有 6 個對外暴露的音箱，他們隨機選了一個，這個音箱連接到 Pandora 帳號，因此取得了註冊這個 Pandora 帳號的 Email，接著他們把這個 Email 與 Pipl、Facebook 進行交叉查找，（Pipl 是一個依據公開信息來定位人員的在線搜索工具），也用 http://FamilyTreeNow.com 網站查看是否可以找到此人可公開取得的身份信息（PII）或地址，他們還真的找到了一些可能性頗高的地址。然後他們再用 SSID 方式查找上網的地點，比對兩地是否為同一地。果然，那個地址就映射在 SSID 位置的旁邊。

圖｜將可能的地址與 SSID 位置進行比對。（資料來源：趨勢科技）

當然，這個測試調查是來自白帽黑客，所以在測試結束後，趨勢已與 Sonos 聯繫，修復了安全漏洞，也不會透露測試個案的身份，但是，這些看似很小的漏洞，其實只要利用網路上各種公開的查找工具，就可能演變成很大的問題，除了知道你家地址，隱私遭侵犯，甚至引發危及人身安全的社會事件。

可惜的是，目前看來，智能音箱的企業似乎刻意不談論這方面的問題，也鮮少看到他們主動強調資安的防護方式，多半是資安公司發現了漏洞，智能音箱企業才發布補丁，這就像是明知道高風險可能發生，但大家都蒙著眼似的看不到，因此，DT 君想提醒消費者一件事，一定必須要有危機意識，說白了，智能音箱是這些大企業為了讓你習慣依賴他們的手段，但此類產品給予用戶的控制權其實很小，不像個人計算機能根據自己的喜好進行修改和監控，可以使用診斷軟體、活動監視器，或者嘗試找出 bug 在哪裡，為其安裝修補程序，因為企業若不再開始重視資安問題，下次你的智能音箱再大笑出聲，很可能不再只是一場誤會而已。