十年後AI會成就怎樣的新零售?連阿里首席科學家都無法想像

文/數據俠 任小楓

人工智慧+新零售=?阿里巴巴iDST(數據科學與技術研究院)首席科學家兼副院長、原亞馬遜無人零售項目Amazon

Go的重要策劃者任小楓,結合計算機識別技術的進展,講述了他在新零售的各種應用場景中,對增強現實、智慧門店、機器人和可穿戴設備這幾大方向的展望,本文為他在雲棲大會的演講實錄。

作為一個技術人員,我平時大多數時間是在思考怎麼樣解決實際的技術問題。解決問題也並不是工作的全部,有的時候確實也會想一下未來會是什麼樣子的,所以很高興有這個機會跟大家分享一下。

不過因為其實我在美國工作生活了很長時間,所以新零售這件事情很多時候對我來說也是一個謎,前面聽了曾教授也好,還有其它各位講的,我也學到很多。

怎麼樣解開這個謎呢?

我去看了一下前段時間阿里研究院關於新零售的報告,對新零售有一個非常全面的總結,總結是:新零售是以消費者體驗為中心的,數據驅動的泛零售的形態。

雖然是短短的一句話,其實裡面有很多的信息。比較難讓我們控制想像空間的是,能夠應用的場景是非常多,比方說批發零售、物流、娛樂、餐飲等等。

但是我們看到描述中間有幾個關健詞,一個是體驗、一個數據、一個泛零售。

體驗來說我相信很多在座的比我會有更多的想法和經驗去想怎麼樣提供更好的用戶體驗,對我來說,因為我做的是人工智慧,特別是計算機視覺,想的是怎麼樣能夠得到有用的數據。

從數據的角度來說,應用的場景很多,百貨公司、購物中心,便利店,甚至是直播,視頻、電子商務。

各個場景來看,買東西的本質,無非就是一個是人,一個是事物(商品),我們做很多的事情就是希望能夠理解人,能夠理解物,能夠把人跟物聯繫起來,讓用戶更好的和更快的找到他滿意的商品,也能夠把商品能夠更快更好的送到用戶的手裡。

從信息的角度來說,要得到關於人的信息或者關於物的信息,特別在很多線下的場景當中計算機視覺或者用相機是非常好的方法,也並不是因為我是做這個方向的,本身確實有很多有優勢的地方。

比方說視覺是通用的方法,在一個相機在裡面可以干很多事情,可以識別人、物、動作,也是非常高信息量的感知的方法,像現在比如1080P的視頻非常普及,1080P的象素下面,不用靠的很近就能夠感知很多東西。

這是一種被動的方法,很多情況下原因是因為人是用眼睛感知的,所以這個世界實際上是為了我們的眼睛而設計的,從紅綠燈也好,標誌牌也好,很多商品的包裝,很多時候都是為了適應人眼,計算機視覺這個時候是利用了這個世界設計的規律,然後試圖用同樣的途徑來得到更多的信息。

當然,視覺其實有很多問題,比如必須要有光照,比較好的光照才能夠得到比較好的信息,但這個問題也不是太大,因為人眼睛也需要很好的光照才能看到。

遮擋也是比較大的問題,相機被擋住,後面的東西確實沒法看到。這個其實也是跟高信息量相關的,因為我們用的是可見光,波長很短,需要高信息量的時候,沒辦法繞過前面的遮擋物。

計算機視覺應用最大的問題是它的精度,很多時候精度不夠,但是最近幾年有很大的改變,很大程度上來說精度並不是特別大的問題了。

下面,介紹一下現在的計算機領域所處的狀態,也讓大家有個更好的感覺,看看我們技術已經進步到什麼地步。

從物來說,大家知道有一個非常有影響力的競賽是物體分類的競賽,一千個物體,所要做的就是給每一張圖打上一個標籤知道它是什麼。下面是過去八年當中ILSVRC上面的進展,Y軸描述是錯誤率,還是非常難的,最近這八年進步非常快的。

2012年的時候。深度學習開始在這個問題當中得到應用,過去的六年當中精度一直在提高。有人測過人在這個問題的錯誤率是5%,並不是計算機超過人,但計算機某些情況下達到了人的精度。

光是一張圖一個物體並不是視覺唯一的問題,很多情況下需要處理一個複雜的場景,所以ILSVRC也有物體檢測的競賽,給你複雜的場景,需要找到各種各樣的物體,這個問題這幾年的進展也是很快的,當然深度學習是一個原因,當然數據其它的都是原因。

上面這個圖稍微難看明白一點,因為檢測的問題來說,要做到正確的檢測需要有正確的標籤和正確的位置,檢測問題還有一個預值的問題,可以把預值調高,返回的問題少會錯失一些,調低返回的更多,但是會有一些誤解。

總的來說,現在的MAP平均精度達到0.75,這個確實跟人還有一定的距離。

但是大家看一下例子,像下面這個場景當中有很多東西,有人,有狗,有雨傘,後面還有一些比較小的東西,比如椅子,很多情況下都是能夠檢測到的。

大家再看一下這是一個語義分割的例子,很多情況並不是只是找邊框,這個問題在每個象素點上我們都去標註這個到底是什麼。這是自動駕駛的例子,可以標樹,演算法可以標樹、車、行人,還有各種各樣的在場景當中能夠碰到的物體,這個也是一個已經能夠達到不錯的精度,現在用相機做無人車,也是非常有意思的方向。

這是一個多相機的跟蹤的例子,比方用八個相機,人在走動,很多情況下我們可以比較精準的跟蹤這些人,在每時每刻知道這個人的地方,多相機的跟蹤可以做很多事,首先可以得到人的身份,可以知道這個人是誰,還有一個就是可以比較精準的得到這個人的位置。

大家知道特別是室內定位,其實有很多方法,WiFi、藍牙和超聲波,很多情況下他們都有難度,就是精準定位,視覺能夠給我們一個至少是厘米級的定位的精度,很多情況下也是很有用的。

不是說只是去檢測這個人在哪裡,在很多情況下。我想給大家看的是其實我們在很多情況下能夠做到人的姿態的估計——不光知道人在哪,也能知道眼睛、耳朵、肩膀、手臂。

即使比較複雜的場景下,有很多人的情況,有些很大的姿態變化的情況下一樣也能夠去得到這些信息。人的姿態其實是一個對人的理解的一個基礎,就是說有很多情況下知道人的動作、姿態,就會有一個很好的基礎去理解人的行為。

上面這個圖片,就是其實是一個基於姿態的動作識別。上面那個藍的是我們想得到的東西,綠的是演算法的估計。這個相對來說是一個比較簡單的問題,這個視頻相對來說比較簡單,想給大家看一下,有了姿態之後,還可以在姿態的基礎上做一些動作的識別,物體的識別,很多情況下能夠識別人的動作。

如果我們往前展望一下,就是說無論是一個室外的場景也好或者室內的場景也好,現在計算機視覺真的能夠做很多東西。

稍微誇張一下的說,其實很多情況下,我們看得見的事情,人能做的事情確實計算機現在都能做。這在幾年前絕對不敢說這句話,但是現在演算法的發展也好,其它能力的提高,很多情況已經很接近了。

當然從另一個方面來說,如果相機看不見的也沒辦法。這個也不是純開玩笑,因為從解決實際問題的角度出發,相機的布置其實是一個很重要的問題,你希望能夠有一個很好的布置,能夠在最大程度上得到你想得到的信息。

除了相機之外還有很多別的問題需要考慮,比方說數據、計算量、成本,這些跟演算法結合在一起。我對視覺還是有非常有信心,覺得有很多情況下很多事情都能做的。

回到新零售的討論,如果說這是新零售是一個數據驅動,其實也可以做小小的修改,可以認為是用信息驅動的形態。

怎麼說呢?有很多時候數據並不是現成的,有很多時候數據需要我們花力氣得到的,特別線下的場景當中,或者線上也好,很多情況用視覺或者其它得到對我們有用的信息。

說完了視覺,前段時間的進展或者技術,我也想跟大家說一下我自己非常感興趣的幾個應用的方向,在這麼多的應用場景當中,我想提幾個自己比較感興趣的:

增強現實、智慧門店、機器人、可穿戴萬能助手。

想給大家看一下幾個例子,看看現在技術大概發展到什麼程度。

增強現實是現實世界跟虛擬世界的疊加。就像這個圖上顯示的,我們買傢具,可以拿PAD看家裡,可以把傢具放那邊。

這裡面有幾個比較關鍵的問題,比如三維定位、三維建模,渲染,建模渲染是比較簡單的問題,定位現在比較成熟。大家知道前幾個月蘋果公司發布了他們的能夠在蘋果手機上面做到相當精準的實時的三維的定位,它的計算量都達到了使用的程度。

三維定位解決之後,其實增強現實能夠有很多應用的,給大家稍微看一下幾個例子。

這是一個例子是就是說是相當於幫助你去找東西,其實對我來說是一個很重要的事情,經常我太太讓我到店裡買東西,不知道在哪,不願意問人,要花很長時間。

如果有了定位的技術,然後如果對這個店裡面的商品的位置有一個比較精確的地圖,就可以想像可以用增強現實去做一些導引方面的東西。

回到剛才說的虛擬購物,也是大家經常說的東西,如果有了增強現實,可以在網上找到這些傢具可以放到家裡可以看大小,可以看搭配,很多情況下還可以看光影的效果等等。這個在現在也是一個可比較成熟的、很多人可能有很多人在做的技術,很快可以用到。

下一個想跟大家稍微討論一下的是智能門店

大家知道我以前是在亞馬遜的,我很幸運在Amazon GO項目開始的時候加入了進去,我們花了四年時間做了這麼一個店,自己還是非常興奮跟自豪的。

我們解決的問題是在一個相對通用的場景下解決支付的問題,做到進去之後拿了直接走,不需要排隊結帳環節。

做了四年之後,現在每次買東西排隊的時候都想什麼時候,希望很快,能夠就是說在所有店當中能夠把支付環節做好,省掉排隊跟結帳。雖然只是支付一個環節,做到高精度有很多問題要解決,解決人的問題、商品的問題、動作方面的問題,知道人拿的什麼商品。

很多情況下可以想像成是一個相對通用的一個線下的智能系統,如果有一個相機網路,可以做很多事情,可以用來跟蹤人,可以用來分析人流,可以看停留的時間,看有人有沒有拿東西,看了多久,有沒有放回去,可以用相機監控貨架。

如果跟身份結合,或者用人臉或者其它的方式,可以做到很多個性化的體驗,能夠讓你在每時每刻在店裡面知道你是誰,提供個性化的服務。

支付肯定是一個方向,有很多情況下我們會思考很多事情在線上比較容易做的,像停留時間、個性化。現在到了一個時候其實我們在線下很多時候也能夠做類似的東西。

其實有些東西在線上不是那麼容易做的,比方說我們可以做表情識別,這是一個例子,就是我們可以通過對人臉的分析知道它是高興還是不高興,是生氣了呢還是無聊呢,其實很多時候這件事情都是可以做的。那覺得可能就是說線下跟線上相比,有一些時候說不定真的有一些優勢。

回到這個線下系統,在不遠的將來可以看到像這樣通用的線下的智能系統可以做很多事情,但在一家店鋪去做是另一回事。比如在銀泰場景下,裡面有各種各樣的店鋪,有比較大的空間,在這裡面做,難度會再上一個大台階。

如果在一個比較擁擠的情況下,很多時候也是需要在演算法上,在數據上,或者其它方面花很大的力氣,但是在很多時候,應該是在目前來說應該是已經可見的事,能夠看得到的事情。

第三個提一下機器人,前面提的很多情況下只是感知,只知道那個人在哪裡,我們可以做一些交互,可以是語音的交互,可以是顯示屏或者視覺上面的交互。

從物理的角度來說,我對機器人還是非常感興趣的,機器人現在發展也是非常的快,大家其實已經看到了很多的例子。

這個上面是一個小的送貨的一個車,這是是一個倫敦的案例。

這個可以把它跟無人車對比,我沒有提無人車,但是送貨機器人技術跟無人車比較相像的,我們也需要對環境有一個非常精準的標籤,知道路在哪,哪上台階下台階,知道人在什麼地方,不能碰到人,很多問題是相通的,但相對來說簡單一些因為風險沒有那麼大。

另外一個角度來說,其實也有很大難度,因為對於送貨機器人來說成本應該是比較大的問題,我們也必須選擇一些比較簡單的硬體方案跟演算法方面的方案。

大家也知道,無人機,現在做的人也很多,亞馬遜在做,其它也有很多公司在做,這個具體的例子是瑞士郵局合作的,是在兩個醫院之間送一些東西,兩個醫院合作可以做到比較高效的合作。

當然無人機送貨只是一個方面,給大家看一下,現在在控制方面已經發展到了非常好的,成熟的階段。

這是一個波士頓動力的例子,他們做了很長時間機器人,他們在控制方面很出色。下面這個小機器人,可以做很多事情,可以在家裡走,這個是顯示一下它能夠做非常複雜的動作。

它有腿,它也有手,可以抓廚房裡面的一個杯子,當然這只是一個例子,真的要,其實很多人想做一個機器人,自動的幫你洗碗洗盤子,或者干其它家務,那個還有一定的距離,但是這個其實例子也說明了我們這個可能離將來並不是那麼遠。

所以,機器人在將來,應該是一個非常有意思的方向,物流也好,門店也好,相信在將來肯定會看到更多機器人的應用。

最後是萬能助手,主要指可穿戴設備。

下面這是一個今年剛出的電影,叫做《The Circle》,這是我們講的是長時間來想擁有的比較好的可穿戴的設備,因為是個人的視角,跟門店不同,但可以記錄生活,識別環境,識別其它的人,也可以用來識別自己的動作狀態,可以作為一個助手跟你對話,給你提供信息,有很多事情可以做的

Snap Sperctacles前段時間出了一個比較好的眼鏡,可以比較好的記錄生活狀態。

谷歌其實好幾年前,就做谷歌眼鏡,後來沒有做成功,後來出了企業版,還比較有意思的,可以幫工作人員在製造或者物流或者其它情況當中做很多事情,可以幫你識別,可以幫你掃碼。

還有一個例子,他們當時是想說你有一個比較複雜的工作要接線,可以告訴你線頭怎麼接,幹什麼事情,這樣的設備在以後對大家是很有用的東西。

前面說的還是只是一些對環境的檢測,就是其實一個可穿戴的相機,對於自己,對於用戶自己也能夠做很多事情。

上面這是一個大概七八年前,我跟人合作,這是當時我們搜集的。大家可以看到用這個相機檢測這個人幹什麼,他是在開盒子還是關盒子,還是攪拌,拿的是什麼東西,拿的是,當然剛才沒有測准,倒水什麼的,動作的識別是比較難的問題,但是我覺得以後也是能夠做好的第一人稱視角,這樣的可穿戴相機相對環境來說也有很多的優勢。

下面這個是我很喜歡的一個日本藝術家做的東西,他想像的未來,未來當中就是像我們剛才說的可穿戴式的相機,在未來的時候可以對我們的環境,對我們的狀態有一個非常精準的了解。

他做的事情,其實是能夠把識別的東西畫到上面,未來並不見得真的是畫上去,但是確實是能夠在購物也好,或者平時生活也好,就能夠識別我們生活中很多的狀態。

大家都見過這個曲線,這是Hype Cycle,就是每個技術,新產品,都是這樣的階段。

開始大家非常興奮,一擁而上,很快達到頂點,下面處理實際的問題,再往下走,走到谷底的現實問題出來,大家知道應該解決哪些問題,逐漸往上走。

剛才提到幾個方向,增強現實已經在這個地方了,下面會看到比較多的應用。智能門店可能還是處在山頂附近,下面應該有很多東西要走。

現在機器人或者可穿戴設備還會在更加遙遠的將來,想一下五年以後,十年以後,這些也都是非常讓人感到激動的方向。

剛才提到,很多應用當中,視覺是能夠起到非常關鍵的作用,能夠得到很多信息,因為它是通用的方法,能夠得到人物動作,很多東西能做的。

當然我們需要去得到相關的數據,很多時候很多演算法需要融合,需要跟其它的感測器融合,很多時候也不光是感知的問題,我們需要去跟機器人或者其它交匯的方法融合,計算角度來說不見得都在雲上或者端上做,雲跟端也要融合。

除了這幾個問題之外,因為這只是我本人比較感興趣的方向,特別因為我做計算機視覺,還有很多大家有的時候會提到的方向,簡單的手勢識別、商品搜索、虛擬現實,其實在新製造上面我自己也覺得人工智慧,計算機視覺有很多可能性的應用。

我們經常說,現在是一個技術發展非常快的時候,商業也是發展非常快的時候,我也是非常期待能夠成為這個當中的一部分,能夠跟大家一起努力,能夠建設一個更好的未來。

註:以上內容根據任小楓在雲棲大會上的演講實錄整理,未經本人審閱。文中圖片均來其現場PPT,後台回復「AI新零售」可獲取完整版。本文僅為作者觀點,不代表DT財經立場。

期待更多數據俠乾貨分享、話題討論、福利發放?在公眾號DT數據俠(ID:DTdatahero)後台回復「數據社群」,可申請加入DT數據社群。

數據俠門派

本文數據俠為阿里巴巴iDST(數據科學與技術研究院)首席科學家兼副院長任小楓,原亞馬遜最高級別的華人科學家、無人零售店項目Amazon Go重要策劃者。

加入數據俠

「數據俠計劃」是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。了解數據俠計劃詳情請關注DT數據俠回復「數據俠計劃」,投稿、合作請聯繫datahero@dtcj.com。


推薦閱讀:

李開復:人工智慧會取代很多人類工作,但不會取代人類
《我是歌手》奪冠的技術派」撩點」
機器學習進階筆記之七 | MXnet初體驗
關於情感討論的結語

TAG:人工智能 | 大数据 | 新零售 |