破局者—超級助理時代來臨
本文譯自《連線》作者:David Pierce 翻譯:王克寒 左小鶴 金小堃
先講一個你可能聽過的故事,但緊隨其後的另一個你未必知道。
1979年,年輕的史蒂夫·喬布斯參觀了Xerox PARC一個位於加利福尼亞的傳奇研發實驗室,親眼見證了現在被稱作「圖形用戶界面」的東西。PARC的工程師使用一個「滑鼠」操縱滿是圖標的熒幕,下拉菜單,點擊「窗口」和重疊的對話框。喬布斯在這些聞所未聞的東西面前興奮不已,「就在十分鐘之內我就認識到」,他後來說,「今後所有的電腦都會像這樣工作。」
相傳,喬布斯飛奔回蘋果,立即指揮團隊複製和改善他在PARC看到的東西。就這樣,個人電腦在過去四十年一路高歌猛進,從最初的Macintosh一路發展到今天的iPhone。可視化的計算系統結束了命令行(一個基於用戶指令、文字交互的操作系統)獨步天下的局面,讓普羅大眾都能使用上電腦。
而在不遠的未來,我們可能會為PARC的另一項看似錯誤的研究計劃而激動。
在喬布斯訪問PARC的時候,PARC的另一個團隊在研究一個完全不同的人機互動模型——今天我們把它叫做「對話式交互界面」。這些科學家描繪了一個在幾十年之內有望實現的圖景——計算機將變得無比強大,人們再也無需費力記住每一組特殊命令的操作流程、語言,而是讓計算機協同人類工作,通過反覆「對話」完成任務。計算機將全程使用人類的日常語言。
在這個團隊中有一個名叫Ron Kaplan的科學家,他今天是個矮胖、說話輕聲細語、留著銀灰色山羊鬍的老頭。Kaplan既是語言學家,又是心理學家,還是一個計算機科學家。他既有創造喬姆斯基語言建構理論的才華,又有發現摩爾定律的天分。他說,他的團隊早在70年代就已經針對對話式人機交互展開了研究,並且已經完成了一個系統,能夠讓用戶使用英文與計算機進行交互從而預訂機票。但由於技術原因,這個系統無法大規模投入使用。 「當時,支持一個用戶差不多需要耗費一百萬美元」,他說,它們需要更高速、更分散式處理、更加高效的計算機來完成。這或許還需要等上15年。
「40年後,」Kaplan說,「我們準備好了」。整個世界也已經準備好了。
如今,Kaplan是Nuance Communications的副總裁和首席科學家。Nuance或許已經是聲音交互行業里最大的玩家:推動了福特汽車的智能操控系統的發展,對Siri的改善有著重大意義,還與幾乎每一個行業都建立了合作夥伴關係。但是Nuance並沒有獨佔市場。幾乎所有的科技巨頭,亞馬遜、英特爾、微軟、谷歌都致力於發展Kaplan和他PARC的同事們構想的對話式用戶界面。大批的初創公司也介入其中,爭相在這場大變革中拔得頭籌。(譯註:比如我任職的創業公司Vinci,推出了專註於音樂和電台推薦的對話式交互助理ME,它能通過多次對話為用戶推薦最佳的聽歌方案。)這些公司相信,人們很快會習慣跟自己身上的「小配件」說話,如果你像對待朋友那樣對待它們,它們也會陪你聊天,領會你的意思並作出回應。
1979年喬布斯所看到的圖形用戶界面被廣泛應用於市場,但它沒能將所有人帶入電子時代。不管圖形用戶界面多麼高效優雅,它還是需要人類學習計算機語言。如今,我們更希望計算機學會如何講人類語言,這無疑能幫助更多的人感受科技、使用科技。
「現在不同了」
其實聲音交互已經出現了好多年了,但它們實在不怎麼好用,語音交互系統即便是能夠識別語句,但也達不到跟人會話的程度。問問Google Now紐約市的人口數量,它會馬上告訴你;問問帝國大廈的地址,它能包你輕鬆到達。但是多加一步邏輯,問包括帝國大廈在內的紐約市人口,它就無言以對了。逼問Siri逼得太緊,這個助理就會讓你去Google上自己查。夢想像《星際迷航》里寇克艦長那樣指揮企業號,或者像鋼鐵俠那樣打趣Jarvis,恐怕都要失望透頂了。
不過現在再去矽谷打聽打聽,你會聽見人們不斷重複一句話:現在不同了。
SoundHound的CEO Keyvan Mohajer向我展示了一個他們公司秘密研發了將近10年的新應用。SoundHound這個名字可能讓你聯想起一個很火的音樂識別應用——用手機聽錄一下就能識別出歌曲名字的那個。這個音樂識別應用原來只是Mohajer野心的一小步:他想做出一個世界上最好的基於聲音的人工智慧助理。
這個不可思議的新初始版應用名叫Hound。拿著一個黑色的Nexus 5智能手機,Mohajer點了一下藍白兩色的麥克風圖標,開始問問題。他起初的問題很簡單,「柏林時間和日本的人口」——都是一些簡單搜索——他又緊跟著加大了難度: 「它們之間的距離是多少?」 Hound明白了他的意思,回答道: 「大約5536英里」 。
Monajer加快提問速度,一串連珠炮似的問題的複雜度不斷加大,他的臉上開始顯現出笑容。他讓Hound計算,如果購買一棟價值一百萬美元的住宅,每月的分期付款數額,Hound馬上問他利率和貸款方式,然後迅速給出了答案:4270.84美元。
「太空針塔(Space Needle)所在的那個國家首都的人口是多少?」他問。Hound分析出Mohajer在問美國華盛頓州的人口,速度比我還快,它用急速的機器人聲答出了正確答案。「日本和中國的首都和人口數是什麼?它們的國土面積用平方英里和平方千米算,分別是多少?再告訴我印度有多少人,德國、法國、義大利的區號是多少?」Mohajer還想再接著問,但是他一口氣只能問這麼多。
我就不細說這串足足回答了一分鐘的答案了,但是Hound全部答對了。
Hound雖然現在還在測試階段,但它差不多是迄今為止未正式發布的聲音識別系統中速度最快、最通用的了。它現在的優勢在於能夠同時進行語音識別和自然語言處理。不過其他系統要想迎頭趕上,只不過是時間的問題。
畢竟,這項技術的基本組成要素——強大的對話式界面所需的、被Kaplan稱為「入門級」的技術,現在對所有買家來說都觸手可及。這是一個技術集成的經典案例:運算能力、語音識別、移動設備接入、雲計算和神經網路,這幾方面的技術在幾乎同一時間達到了一定水平。而且這些工具足夠的優質、廉價、易得,使得對話式界面走入市場,並且無處不在。
對話式界面還解決了一個問題:當那些沒有屏幕的設備(燈架、煙霧報警器等)在接入網路以後,我們無需按鍵、菜單、圖標就能和它們互動。
與此同時,喬布斯用圖形用戶界面打造的帝國也盛極而衰。無比強大的屏幕交互要求一切能想像出來的功能做手勢編碼,要有一個圖標或者菜單項才行。拿Photoshop或者Excel來說:人們熟練操作它們需要掌握一大堆快捷鍵、菜單樹和亂七八糟的工具欄,恨不得坐那拿剪子自己剪一張照片!「圖形用戶界面已經走到頭了,」Kaplan說。「它現在已經不堪重負了」。
你現在還沒跟虛擬助手有過深刻的接觸嗎?「叮」的一聲,手機上的通知推送帶來了重大升級。當你升級到iOS 9, Android 6, 或者Windows 10時,系統會減少你使用應用程序的時間,而更多地和Siri,Google Now或者Cortana對話;很快,超過十億的Facebook用戶將能打開聊天窗口,向M(一個新型智能助理)詢問幾乎所有事情(現階段還只能接受文字輸入);在蘋果的Home Kit智能家居系統中,你只需說: 「嘿Siri,晚安」 ,就能保證房子里的所有東西都關好鎖好。
至少在初始階段,虛擬助理背後的創意都是為了化繁為簡。以前我們不得不一下下點開應用,未來,你的虛擬助理可以對手機上的全部信息了如指掌。它們把你從屏幕上七個視窗、五個工具欄、三十個標籤頁中解救出來,並且統一管理無法進行「對話」的應用程序和設備。有一天,它還會了解更多——比如:你。
「人格」魅力
2014年秋季,亞馬遜發布了一款叫做Echo的新產品:一個圓柱形的黑色音箱式設備,頂部的藍色光圈隨著設備發出的聲音一閃一閃。這個小玩意兒有個人性化的名字,Alexa。當「啟動問候」 響起的時候,即便在嘈雜的環境中,Echo也會用一種叫做遠程聲音識別的系統來分辨呼叫它的人聲。然後它靜靜地聆聽。這項產品的理念是將Echo放置於你的客廳、廚房或者卧室,你將通過和它說話控制所有的東西。
讓大家試圖理解一個沒有任何圖形界面的技術,這非常有趣。它上面沒有什麼可以查看的,沒有哪可以觸按,沒有什麼可以來回滾動,也沒明確說它能做到什麼。科技媒體都被亞馬遜「謎之新產品」搞懵了。(至少有一家媒體把Echo比作《舊約2001:太空漫遊》(2001: A Space Odyssey)開篇那個神秘的黑色獨石)。
去年年底我開始使用Alexa的時候,我發現它能告訴我天氣信息,回答基本的事實性問題,列出購物清單顯示在手機上,按照指令播放音樂——都不是什麼深奧的事情。但是Alexa迅速變得更加智能和卓越。它熟悉了我的聲音,學會了有趣的玩笑,並且開始幫我為多個事情管理時間(特別是當你做特別複雜的菜的時候,這個十分有用)。在2015年里,Alexa從最初的測試版到公開發布僅用了7個月的時間,卻從常常讓人氣急敗壞變得又穩定又實用。
這也印證了對話式技術的一個更深層次的道理:只有建立私人關係,你才能真正領會它的能力。科技界的大玩家們都深諳這個道理,並且試圖賦予助理們恰如其分的個性特徵、人格魅力和尊重用戶的距離感——簡單說就是讓它們更可人。比如說微軟在研發Cortana的時候就引入了遊戲Halo背後的製作團隊(這也是Cortana名字的由來),來賦予一個空洞的人聲一些個性色彩。 「你能感覺到它的機智幽默又不失堅忍,」Cortana工程團隊的主任Mike Calcagno說。他們也獲得了想達到的效果:即便Cortana在面世之初既不穩定,也不好用,還笨笨的,人們還是對它很感興趣。(再比如Vinci公司,人格化了音樂推薦助理ME。當產品經理調戲它,或者問它「我美嘛?」,沉默的半秒後便響起了James Blunt的You are Beautiful.)
個人助理的此番攻勢是有戰略上的原因的。在研發過程中,微軟、Nuance,以及其他一些公司都得出了如下結論:一個真正有用的對話式助理應該是無處不在的,是在各種場合下不斷了解你的個人習慣、好惡、生活規律和時間安排的。達到此目的的辦法只有一個:讓人工智慧接入儘可能多的應用程序和設備。
正因為如此,亞馬遜、谷歌、微軟、Nuance和SoundHound都在向世界各地的開發者開放平台技術。公司們都很清楚,你會對那個最懂你的對話式助理不離不棄。所以做好準備迎接新的一撥空洞的嗓音吧。只是因為在人群中多聽了它一言,再也不會忘掉它聲線。
推薦閱讀:
TAG:人工智能 |