標籤:

語音助手「小不點」繞開API,通過模擬點擊完成任務,可行嗎?|Xtecher有問

語音助手,從國際巨頭到創業公司都做了很久,卻一直沒能交出令人滿意的答卷。近期,一家公司拿出了「完全不同」的玩法。

作者|賈聰聰

編輯|甲小姐

網址|xtecher.com

微信公眾號ID|Xtecher

「小不點」,是Naturali(奇點機智)給這款語音助手起的名字。

這是一款應用於Android生態的語音助手,與Siri、Google Assistant、Viv、亞馬遜Alexa等語音助手相比,「小不點」完全不同。

怎麼不同?

別著急,先看看Siri等是怎麼玩的。

放眼全球,語音助手大同小異,說白了,都是三步走:

第一步:語音識別,把你說的話翻譯成文字。第二步:自然語言理解,把文字解讀成行為。第三步:調用各應用API來完成指令——也就是說,第三步捨棄了你手機里的APP和其原有界面,直接在語音助手上集成功能,如打車、外賣等。

那麼,對於一個語音助手開發者來說,前兩步,比的是AI團隊多強大,第三步,比的是你的BD團隊多強大。

「小不點」的做法怎麼不同?

首先,不需要API——換句話說,小助手的功能實現,不需要各類應用給你「開門」。當「小不點」在完成第一步語音識別、第二步自然語言理解之後,第三步,它便開始「模仿人」進行操作——打開你手機里已有的APP,進行模擬點擊動作,直至完成你要實現的動作。

「小不點」發紅包的演示

打個比方,如果說其他語音助手是幫你走了各個應用的「後門」,「小不點」便是代替了你的手指去「開門」,當它明白你要完成的行動後,它就按照手指打開APP操作的方式,幫你實現一遍。

所以,在「小不點」的資料庫里,有大量關於「動作」的記錄。

不僅如此,「小不點」最大的亮點還在於「自帶學習功能」。

常有這種場景:你說了一句話,語音助手搞不懂,這時對於Siri等助手,你只能悻悻地自己動手,但對「小不點」而言,當它聽不懂時,會向你展示「學習」按鈕,你按下之後,它便會記住你接下來的一系列操作動作,錄製完整路徑,記住你的語音與動作之間的關連——下一次,當你再說同樣的話,它就學會了。

「小不點」學習功能演示

對比Siri,當你想設置一個下午2點的鬧鐘,Siri會在自己的界面做一個下午2點的鬧鐘頁面。而「小不點」會直接幫你跳轉到系統里,打開鬧鐘的頁面。這樣一來,在理論上,面對任何一個全新的APP,「小不點」都可以在不獲取其API、不與開發者合作的情況下對其操作。

這樣設計的巧妙之處是,用戶的每一次教導操作,都可以進入「小不點」的資料庫,經過大量數據的聚合篩選整理,「小不點」會形成自我迭代的良性循環——在所有手機終端學會做這件事,其他用戶不再需要教它便可以直接用了。當用戶越來越多,數據越來越多時,「小不點」就能學到更多的功能,更準確響應用戶的意圖。

總之,「小不點」不需要集成應用的API,而是把所有功能都當成點擊事件,模擬人的點擊動作,讓APP「以為有人在那兒點擊了一下」,從而讓用戶在對應APP界面上直達指令的最後一步。

「小不點」打車演示

然而,這也決定了它要達成用戶使用APP功能的指令,必須建立在用戶已下載相應APP的基礎上,否則,只能先引導用戶下載。

從本質上說,其他語音助手更像是「搜索引擎」,語音連接搜索結果,而「小不點」更像是個「動作引擎」,語音連接操作動作。

如今,手機里裝的APP越來越多,有了「小不點」,用戶就可以省去翻找APP的麻煩,也不必知道想要的功能在哪,直接讓它去做就行了。

那麼問題來了:「小不點」模式,究竟是否走得通呢?

語音助手由來已久,調取API方式難以擴展

進入工業時代以來,人們一直在尋找與機器不同的互動方式,語言是最自然的方式,畢竟我們天天都在說話。

因此,縱使語音助手是一條「布滿坑的路」,仍然是全球巨頭角力的領域:Apple的Siri當初讓人心潮澎湃,Google和亞馬遜分別推出了運用於智能家居的Google Assistant和Alexa,微軟推出了微軟小娜和微軟小冰兩個「姐妹花」,Facebook力推Bots宣稱幹掉APP,Siri創始團隊在脫離蘋果後,發布了一款比Siri功能更為強大的智能語音助手Viv……

語音助手問世已久,卻永遠帶著隔靴搔癢的意味,人們始終沒有養成大量使用的習慣,成為了很多人手機中的「雞肋」。

之所以覺得「雞肋」,是因為語音助手們並沒有完成太多的任務,達不到人們的期望。以Siri來說,問一句「中國的首都是哪裡」,它只會傻傻地推送一堆網頁;讓它打開微信發個紅包它也做不到,只能做到打開微信,整個過程中還重複了好幾次「對不起,我沒聽懂」,「抱歉,我不太確定你說了什麼」……

之所以會出現這種情況,是因為目前市場上語音助手產品的功能都是通過集成APP的後端API。

在Naturali創始人鄔霄雲看來,這樣的方式是捨本逐末:捨棄了手機里的APP界面,還需要每個功能重新做一套體驗,用戶也需要再學會使用一個新界面,這是極大的浪費。此外,靠集成後端API的方式,每個功能都需要靠接入不同API來實現,需要手工集成,擴展性較差,做100個功能就需要跟100個廠家談合作,沒辦法集成很多功能。這是一個人力問題。

而對於「小不點」來說,這變成了一個數據問題。只需要獲取用戶指令及點擊的流程數據,就可以實現功能。「我們用同樣的程序可以做不同的事情。」鄔霄雲說,只要用戶滿意了,就可以逐漸擴大功能範圍。

「APP天天改,需要用通用的方法把所有問題解決掉。」鄔霄雲表示,這種全新模式可能做得比較慢,但做出來就是一個通用的方法。依靠用戶的不斷教育,「小不點」會成長迅速,1個用戶教會了「小不點」某個功能,其他人便都可以直接用。

「小不點」,換種方式就順利了嗎?

然而,用「小不點」的方式做語音助手,工作量同樣非常大。

鄔霄雲也表示,「我們的工作量比集成API的方式大很多,實施前十個功能的時候,集成API的方式會比我們快,但要做1000個、1萬個、100萬個功能的時候,我們就有戲了。」

想要「有戲」,需要大量的用戶數據。「小不點」類產品的深度學習需要大量的數據來支撐,用的人越多,語義的執行會越順利,會做的東西也越多,這是一個良性循環。

為了積累用戶、完善功能,Naturali選擇與手機廠合作,將「小不點」內置在手機上推向市場。如今,「小不點」已與某著名手機廠商達成戰略合作——在你看到的該品牌下一版手機上,你將看到語音助手「小不點」。

然而,這一套解決方案存在很多艱巨的挑戰:

首先,不同手機的操作系統不同,需要錄製不同的流程;此外,APP版本更新時,UI可能發生很大變化,以京東、大眾點評、淘寶等為代表的APP,已改變傳輸協議,載入時UI隨時可能改變,而UI一旦變化,流程就需要重新錄製——也就是說,每當一款APP更新,都必須有人重新去教「小不點」。

雖說用戶可以通過學習功能教「小不點」實現需求,tracking也很酷,但對於用戶來說,work就用,不work就不用,他們也許沒有動力教機器人怎麼去做。如果用戶不買賬,就變成了惡性循環,開發者疲於修復層出不窮的bug,用戶更不買賬。

另一方面,一個APP新版本出來之後,有的用戶更新了,有的用戶還沒有,「小不點」還要對此有不同應對措施。「小不點」如果不能及時更新錄製,將在執行路徑上失效,大大影響用戶體驗。

這是否會造成技術上的不可收斂?

對此,鄔霄雲覺得不是問題,「你覺得,是版本更新需要花的時間多,還是錄製一遍需要花的時間多?」

不僅不是問題,鄔霄雲還給出了一種更加樂觀的可能:當「小不點」類產品被整個市場接受、用戶都通過該類產品來滿足需求時,APP便會失去更新版本、改變UI的動力。

這是一種樂觀的預期,還只是一種想當然的假設呢?

假如APP被幹掉……

要面臨的還有一件更可怕的挑戰:APP生態本身壞掉了,怎麼辦?

今年4月12日起,Facebook已正式面向開發者開放Messenger應用,以方便其開發Bots,目的是促進用戶與企業之間「一對一」的對話。每一個企業都可通過一個Bot與用戶對話,用戶需要查詢特定商品、詢問價格及購買諮詢時,Bot會主動提供詳細信息並快速回應。目前,Facebook Messenger平台上已有近兩萬個活躍的機器人。扎克伯格是希望有朝一日用Bot取代手機里的某些應用,進一步取代蘋果App Store。

近幾年火熱的深度鏈接也可能會把APP全部取代,未來的手機頁面或許會只剩一個輸入框或者一個語音按鈕。總之,誰都不知道下一個交互方式是什麼,人們不是喜歡用APP,只是還沒找到合適的替代方式。

在盈利模式上,還有個不得不說的問題。

「小不點」與Viv都定位於應用助手語音機器人,專門幫用戶達成任務。然而,因為實現路徑的不同,他們的前途也變得不一樣。

Viv的研發團隊來自Siri創始團隊,當初做Siri就是希望專註於移動商業服務。2010年,Siri作為獨立APP發布時,有42家在線服務提供商夥伴,可以購買門票、餐廳訂位和召喚計程車,更牛的是,完成這些動作既不需要搜索引擎,也不需要重新開啟或下載另一款應用。

Viv比當初的Siri更為強大,自今年5月發布開始,就一直宣稱要做取代搜索引擎的流量入口。Viv是要把所有服務全部整合,在對話中幫用戶處理幾乎所有事。

對於Viv而言,語音助手的首要意義在於獲取流量入口,相當於搜索引擎,將對話交談這種最自然的交互方式運用於手機,獲取最自然的用戶,從而帶來巨大流量。對於Viv來說,做流量入口的模式是可行的,因為它提供服務不需要用戶下載應用,那麼就有成千上萬的選項可供選擇。

然而,對於「小不點」來說,因為繞過了APP的API,而是通過模擬點擊的方式實現用戶功能,這決定了它要達成用戶使用APP功能的指令,必須建立在「用戶已下載相應APP」的基礎上。

這樣的定位區分,使得Viv的目標是「入口」,而「小不點」的目標還是「助手」。

目前,國內移動市場流量分發已基本結束,每一個細分領域都已存在頭部APP,用戶手機上更不會同時存在多個相同品類的APP,沒有更多的選擇,用戶有需求自然會使用相對應的APP來解決問題。

目標固定,搜索就沒有了意義。所以,「小不點」目前尚未有明確的盈利模式。

不過,事在人為。

今年3月底,Naturali獲得了襄禾資本領投,NEA資本跟投的500萬美金A輪融資。

開發「小不點」的想法始於去年底,並於今年大年初二寫下了第一行代碼,經過大半年的開發,體系架構已成型,正在做大量測試。目前,Naturali技術團隊共20餘人,來自北大、清華等名校,服務過微軟、搜狐等公司。

創始人鄔霄雲,紐約州立大學計算機博士,擁有1年雅虎實驗室、8年谷歌研究院工作經驗。主要從事大規模機器學習,自然語言理解(包括語法結構分析,辭彙語義建模),回國前負責美國應用搜索公司 Quixey.com搜索部門。

聯合創始人林德康,University of Alberta計算機科學正教授,回國之前為Google研究院高級管理科學家,Google搜索問答系統的創始人和技術負責人。他在自然語言處理及理解領域總共發表過90篇論文,其研究總計被引用超過12000次。林德康兩次被選為國際計算語言協會主席(2002副,2011正),並於2012年當選為該協會的終身院士(Fellow of Assocication Computational Linguistics)。

華麗的團隊,大膽的設想,可能的局限。在優化工具的道路上,也許,Naturali最終能找到合適的方式,克服局限,達成設想。我們期待「小不點」面市。

「開始的時候,我們創造工具,後來它們造就我們。」 馬歇爾·麥克盧漢說。

如今,希望「用技術解放人性」的科技創業公司已經越來越多,所有人都懷抱著同樣的理想,所有人都面臨同樣的挑戰。

推薦閱讀:

蘋果手機幾最好用?為什麼那麼多人買?
vivox20和oppor11s買哪個好?
VIVO X20有哪些亮點?
華為p10和蘋果7相比怎麼樣?
為什麼落地請開手機沒有第二部?

TAG:手機 |