AI研究院 | 一場瘋狂的智能語音助手革命即將到來

編者按:《AI研究院》由網易智能頻道發起,網易杭州研究院等機構共同參與打造,每日一篇,專註AI行業研究與深度分析,並提供技術應用交流。轉載請聯繫我們獲得授權,公號 smartman163。

【網易智能訊 4月6日消息】1979年,史蒂芬·喬布斯在年輕時參觀了位於加州帕洛阿爾托的傳奇研發實驗室Xerox PARC,並且接觸到了「圖形用戶界面」。這個短聞之間可能聽說過,但是現在又有了些新的發展。

該實驗室的一名工程師使用原型滑鼠在電腦屏幕上導航,屏幕上布滿了圖標、下拉菜單和「窗口」,它們相互重疊,就像桌上的紙一樣。喬布斯以前從來沒見過這樣的,但是現在就在眼前。他後來說:「很明顯這是所有電腦以後的發展趨勢。」之後就和傳說一樣了,喬布斯回到蘋果,命令一個團隊去複製和改進他在帕克研究中心看到的新技術。

這個技術個人計算機朝著和 40年前完全不同的方向發展,從第一代mac一直到iPhone都是使用這種技術。這種可視化的計算模式終結了命令行模式時代(一種繁雜、文本厚重的界面,當時佔據主導地位的計算模式),讓我們進入了大多數人都能使用電腦的世界。只要點住,點擊,拖動就可以了。然而,在不久的將來,我們可能會把這看作是一個錯誤的、與人類有關的創世神話。

在喬布斯訪問的時候,位於帕克研究中心的另一個團隊正在研究一種完全不同的人機交互模型,也就是今天的對話用戶界面。這些科學家設想了幾十年以後電腦會十分強大,用戶根本不用記住每一個程序和應用的使用流程。他們設想人類會與電腦協同工作,通過互相對話來完成任務。界面將是普通的人類語言。

這群科學家中有一個人叫羅恩·卡普蘭,他是一個老實、說話溫和的人,有著灰色的山羊鬍子和稀疏的頭髮。卡普蘭是語言學家、心理學家和計算機科學家,他會運用Chomsky的語言理論或者摩爾定律。他說,70年代的時候他的團隊在勾畫一個工作對話用戶界面的一個關鍵組成部分時已經取得了相當大的進步。他們安裝了一個系統,讓用戶可以用標準英語來代替打字預定航班。

但是,這項技術並不是為了讓這個系統大規模地使用。他說:「這個項目成本太高,一個用戶可能要花100萬美元」。他們需要更快、更分散式的處理,以及更智能、更高效的計算機。卡普蘭認為這需要大約15年的時間。「我們還要40年才能準備好。」事實證明,世界其他地方也是如此。

如今,卡普蘭是Nuance的副總裁兼傑出科學家,而Nuance是語音界面業務中最大的公司:它為福特生產車載同步系統,對Siri的發展至關重要,並且幾乎在所有行業都有合作夥伴。但如今,Nuance卻發現自己受到眾多競爭對手的擠壓。從亞馬遜到英特爾,微軟,再到谷歌,幾乎每一家主要的科技公司都在追求幾十年前卡普蘭和他的同事們設想的那種對話式的用戶界面。數十家初創公司也在不斷研究。他們在處理人類與科技關係的問題上都爭先恐後,希望快人一步。這些公司相信,不久的將來,人類就會像和朋友聊天一樣,和自己的小玩意說話。而你的電子設備也會和你交流。他們能聽到你說的話,明白你的意思。

如今的科技已經讓人們沉迷其中,但如果把這些新的科技融入生活,那麼現在圖形界面不能安全使用或者讓人不甚滿意的領域會完全改變。同時人類與設備之間不斷的交流會讓設備變得更加親密、更加忠誠、更加個性化。但這種轉變的最大影響並不發生在矽谷核心觀眾。

1979年,史蒂夫喬布斯在圖形用戶界面中看到的是擴大電腦市場的一種方法。但是現在這種方法不再吸引大量顧客了。雖然很優雅,也很高效,但圖形界面仍要求人類學習計算機語言。現在,計算機終於學會了如何說我們的語言。在這場交易中,數億人有望獲得新技術。語音界面已經存在多年了,:不過到目前為止,它們一直都很不是很智能。我們不需要糾結於和一個木頭一樣的手機說話時的「尷尬」(「如果你打電話要付款,就說「支付」)。現在問谷歌紐約的人口問題,詢問帝國大廈的位置,這它是一定知道的。

但是,如果改成問這座包含帝國大廈的城市的人口,它就什麼都答不上來了。把Siri逼得太緊,虛擬助手只會讓你去進行谷歌搜索。任何在柯克船長與企業電腦對話或托尼斯塔克與賈維斯交談的場景中長大的人,都感到失望。然而,如今在矽谷四處打聽,你一遍又一遍聽到同樣的回答:現在已經不一樣了。

在6月初的一個炎熱的日子裡,SoundHound的首席執行官Keyvan Mohajer,向我展示了一款新應用的原型,他的公司已經對此秘密進行了近10年的工作。SoundHound是一個識別流行音樂的應用的名字——如果你在手機里錄入歌曲,它就能識別出是哪一首歌。事實證明,這款應用在很大程度上只是Mohajer實現她的真實夢想的一種方式:創造世界上最好的語音人工智慧助手。這個原型叫做獵犬,非常不可思議。Mohajer拿著黑色的Nexus 5智能手機,點擊了一個藍色和白色的麥克風圖標,開始問問題。他只是簡單地問柏林的時間和日本的人口。基本的搜索後面還有一個很大的翻轉:「他們之間的距離是多少?」這款應用程序理解了上下文,並回復到:「大約5536英里」。然後,Mohajer微笑著問了一連串問題,問題不斷升級。他要求獵犬計算出一個價值100萬美元的房子每月的抵押貸款,然後該應用立即詢問他的利率和貸款期限,然後再提出答案:4270.84美元。「太空針所在國家首都的人口是多少?」他問道。

Mohajer指的正是華盛頓特區的人口,而獵犬號反應比我快的多,用快速的機器人聲音回答出了正確的答案。「日本和中國的人口有多少,首都是哪裡?以平方米為單位是多大?平方千米呢?」他還告訴我,有多少人住在印度,德國、法國和義大利的地區代碼是多少?Mohajer繼續增加問題,但他也非常緊張。要是我的話,我會給你一分鐘的答覆,但獵犬正確回答了每一個問題。正確。獵犬號目前處於測試階段,它可能是迄今為止推出的最快、最多樣化的語音識別系統。它現在有一個優勢,因為它可以同時進行語音識別和自然語言處理。但實際上,其他系統趕上他們只是時間問題。

畢竟,卡普蘭所稱的「門控技術」(一種強大的對話介面所必需的「門控技術」)的原料現在唾手可得。這是一個很典型的科技融合:處理能力、語音識別、移動連接、雲計算和神經網路的進步幾乎都在同一時間激增至臨界質量。這些工具最終會足夠好,足夠便宜,也足夠讓會話界面成為一個無處不在的現實。但這不僅僅是指對話技術有可能會建成。人們對它的需求也越來越大。隨著越來越多的設備通過網路控制,尤其是那些沒有屏幕的設備,比如燈具,煙霧警報器,我們需要一種不用按鈕、菜單和圖標與它們互動的方式。

與此同時,喬布斯用圖形用戶界面構建的世界已經達到了其自然極限。我們強大的屏幕界面要求所有可以想像到的功能都是手工編碼的,有圖標或菜單選項。想想Photoshop或Excel:兩者都有強大的功能,如果想要正確使用它們,就需要在複雜的鍵盤快捷鍵、菜單樹和不可能找到的工具欄中進行地毯式搜索。卡普蘭說:「圖形界面已經發展到極致了。」「它現在超負荷了。」這就是虛擬助理市場蓬勃發展的地方:當用戶打開7個窗口、5個工具欄和30個標籤頁的時候,語音助手就會來幫忙。這樣用戶就可以在平時不太聯繫的應用以及設備之間交流溝通。你現在可能不會和虛擬助理打交道,但你可能很快就會有。

今年秋天,智能手機上推送通知時,對話界面將會有一個重大飛躍。一旦你升級到iOS 9、安卓6或Windows 10,你就會發現自己花在應用程序上的時間越來越少,與Siri、谷歌Now或Cortana聊天的時間也越來越多。很快就會有超過10億的Facebook用戶打開聊天窗口,向M這個新的智能助手,提出各種問題(現在使用文本)。這些不再只是手機的一種輔助使用方式。這會是最好的方式,在某些情況下是唯一的方式。(在蘋果的HomeKit系統中,你要確保所有的東西都被關閉和鎖上,說:「Siri,晚安。」)至少在一開始,這些新增強的虛擬助手背後的理念就是簡化通過下拉菜單、複雜的工作流程以及從應用到應用程序的複雜、多步驟的事情。語音助手會知道你手機上每個應用的每個角落,並會在你的語音指令之間滑動。

隨著時間的推移,他們也會了解一些其他的東西,比如用戶。但要說明的是語音對話技術不會扼殺觸摸屏,甚至還要用滑鼠和鍵盤。如果你是台式電腦的一名重度用戶,你可能會一直保持這種狀態。(雖然你可能會更經常地問一些虛擬助手,比如「哪裡是作物工具?」)但對某些群體來說,會話界面的興起可能提高了科技水平,這在很大程度上超過了圖形用戶界面。例如,非常年輕的人們已經跳過鍵盤,通過麥克風輸入文本。語音信息應用程序的聯合創始人兼首席執行官Thomas Gayno說「他們只是不打字,而在其他年齡段,有很多人從一開始就不習慣使用圖形用戶界面。對於視力受損、上了年紀的人,以及在技術上面臨挑戰的人來說,聽到有人將現代計算機界面描述為「直觀的」,總是有點可笑。

Chris Maury學會了這一艱難的方法。2010年夏天,這位24歲的企業家在帕洛阿爾托的一個朋友的空氣床墊上撞了一下,之後在一家名為ImageShack的初創公司實習,放棄了博士項目,追求他的矽谷夢想。長時間的通勤讓他意識到自己的處方眼鏡再也摘不掉了。一位普通的視力醫生診斷Stargardt的眼病正在不斷惡化,最終會失明。

Maury曾非常希望繼續留在科技界,所以他被迫考慮如何在失明的情況下使用電腦。但對於在美國20萬盲人來說,使用電腦的唯一辦法就是使用屏幕閱讀器。他們可以用鍵盤在屏幕上移動游標,然後無論什麼內容機器都會翻譯成機械的語音,不管是一個長網址還是一個下拉菜單。屏幕閱讀器系統可能花費數千美元,還需要幾十個小時的培訓。Maury告訴我:「在你能做谷歌搜索之前,有時需要兩次會議。」隨著數字環境變得越來越複雜,使用屏幕閱讀器也越來越難了。「他們很糟糕,」Maury說。當他的視力開始下降時,Maury沉浸在盲人Twitter(的確有一個盲人用的Twitter)和一個可訪問性運動上。他開始意識到,一些視力受損的人對現在的技術有多憤怒。

與此同時,他在那個時候隱約意識到一個更好的界面所要用的原材料就在矽谷,而且隨處可見,那是第一次為語音設計的界面。於是,他開始為盲人進行研究。Maury創建了一家公司, Conversant實驗室,他希望能創辦語音應用和服務。該公司的第一款產品是一款名為「語音購物」的iPhone應用程序,它提供了一種用語音從Target.com購買商品的方式。但Maury有更厲害的設計。

Conversant實驗室將在今年年底前發布一項為iOS開發者增加對話互動的框架。Maury想要在一個完全基於語音的計算環境中建立一個語音界面的原型,以及一個使用頭部動作來提供命令的界面。「現在一切都有可能。「

2014年秋天的一天,亞馬遜宣布了一款名為Echo的新產品,它是一個圓柱形的黑色揚聲器,上面有一圈藍色的燈光,當設備說話時,它會發出光芒。這個小玩意的形象被命名為Alexa。在它的「喚醒詞」的聲音中,Echo使用了一種叫做遠場語音識別的東西,把正在處理的聲音與其他東西隔離開來,即使是在一個有點嘈雜的房間里。

然後它會傾聽。也就是說這個應用是在你的客廳、廚房或卧室的中間,你可以對它說各種各樣的東西。這是一個很有趣的東西,不使用視覺界面。不需要看什麼東西,沒有什麼可以閑逛的,沒有什麼滾動瀏覽,也沒有清楚的界限說清它可以做什麼。科技媒體對這款來自亞馬遜的「神秘」新產品徹底感到困惑。(至少有一位抄寫員將Echo與2001年初的神秘黑石:太空漫遊相比較。)當我去年年底開始使用Alexa時,我發現它可以告訴我天氣,回答基本的事實問題,創建購物清單寫在我的智能手機上,在命令中播放音樂。但Alexa很快就變得更聰明、更好。

它熟悉了我的聲音,學會了有趣的笑話,並且開始能夠同時運行多個定時器(當你的烹飪有點野心的時候這是非常方便的)。從最初的測試版到2015年的公開發行Alexa從可愛但令人惱火的到真正成為一個有用的軟體用了7個約時間。我了解了Alexa,它也了解了我。這就涉及到一個更深層的關於會話技術的真相:你只會在與它的私人交往中發現它的能力。業內的大公司都意識到了這一點。他們正努力讓他們的助手們在個性、魅力和尊重的距離上保持平衡。簡而言之,讓他們變得可愛。

例如,微軟在Cortana的研發中引入了一個視頻遊戲工作室,把一個沒有實體的聲音變成了一個人類一樣的機器。Mike Calcagno的工程團隊主管Mike Calcagno說:「要的就是這種聰明和韌性。」他們似乎得到了想要的效果:即使在早期,當時Cortana不可靠,沒什麼用,也很笨,人們也對此沉迷。這種魅力攻勢有戰略上的原因。

在他們的研究中,微軟、Nuance和其他公司都得出了同樣的結論:一個好的語音對話設施只有在它無處不在時才會有用,當它可以了解你的習慣、你的喜好、你的日常安排時,它就會變得非常有用。實現這一目標的方法是讓人工智慧在儘可能多的應用和設備上出現。

為了達到這一目標,亞馬遜、谷歌、微軟、Nuance和索尼都向世界各地的開發者提供了他們的對話平台技術。每家公司都知道,人們很可能會一直買最了解自己的對話代理。所以,準備好迎接一些新的脫離現實的聲音吧。一旦用戶選了一個,幾乎不可能再購買其他產品。

(英文來源/wired 編譯/機器 小易 審校/Brittany)

2017年4月6日


推薦閱讀:

如何評價「浙大教授用超聲波破解 Siri 等語音助手」的新聞?
如何評價蘋果 Siri 團隊成員哈斯離職?
真正每天使用 Siri 的人有多少?
為什麼 Siri 聽懂了我的話,還是不能做出有效的回答或準確的操作?

TAG:智能语音 | 语音助手 | Siri |