從高層離職的Magic Leap談計算機視覺
01-25
Magic Leap年初獲阿里巴巴領投的7.9 億美元,風光無二 。但在今年5月Magic Leap 對前技術副總裁 Gary Bradski 和 Adrian Kaehler提起訴訟,認為他們向第三方泄露了公司機密。隨後這兩位高管從 Magic Leap 離職。
Gary Bradski 和 Adrian Kaehler 在Magic Leap頗有號召力,前者領導計算機視覺相關的技術研發團隊,後者則帶領一個被稱為 Special Project 的秘密研發團隊。(Adrian Kaehler 也是OpenCV領域的大拿)而除了他們倆,負責法律事務的副總裁 Michael Leventhal 也在今年3月離職; 首席工程師(Principal Engineer) Michael Kass 也於今年2月離職。這波高管離職潮引發了Magic Leap動蕩,Glassdoor 上也有員工爆料:「不少員工都離開公司了,其中包括完成了大量工作並很有才能的人。開發在慢下來,團隊士氣低落,項目進度也有問題,項目的風險變大了。」Magic Leap雖然他們產品還沒有發布,但一些展示視頻已經讓他們火了起來。
Magic Leap管自己的產品不叫「增強現實」,而是叫「混合現實」(Mixed Reality,簡稱MR)。這一下子就讓人頭疼了,虛擬現實(VR)和增強現實(AR)就已經夠亂的了,現在又搞出來了一個混合現實(MR)。這之間到底是什麼關係?又有什麼區別呢?我們一個一個說虛擬現實,雖然名字里有個「現實」,但跟現實沒啥關係。用戶帶上頭套,直接就進入了另一個世界,連自己的手都看不見。谷歌的Cardboard就是典型的虛擬現實。戴上以後,你看到的是埃菲爾鐵塔腳下,別人看到的是你戴了個硬紙殼兒四處轉腦袋。(Google Cardboard的手機圖像)
計算機視覺的一大困難,就是把平面圖像還原成立體物體。還是以上圖為例,人眼看起來,羊駝的頭比屁股離屏幕更近,但計算機看來,頭和屁股在同一層上。一個平面圖形,怎麼區別遠近呢?計算機視覺有幾種思路:第一種就是像人類一樣,長出兩隻眼睛。人左眼和右眼看到的圖像是不一樣的,大腦根據左右眼的圖像,還原出一個立體的場景。計算機也一樣,它可以用多個攝像頭捕捉圖像,根據圖像差異計算出物體的遠近。Magic Leap就是用兩個裝有攝像頭的鏡片,通過數學方法還原3D環境。不過體視的缺點是計算量太大,而且物體如果太遠,距離就量不準了。這就是為什麼微軟的HoloLens乾脆搞出了一個「距離感測器」。攝像頭只管看圖像,距離感測器負責探測每個像素點的距離。(人腦通過左右兩眼的圖像還原立體環境)
第二種就是看陰影。計算機可以根據圖片的明暗分布,判斷光源位置,進而判斷誰在前誰在後。還是看那張羊駝的圖片,計算機可以很迅速地判斷光源在羊駝的正上方。既然光源在正上面,羊的後背亮,肚子暗,那麼後背的這些像素和肚子的這些像素就不在同一層。第三種就是靠攝像頭自己動。帶上AR眼鏡,人不可避免會亂動。人一動,攝像機就可以對單一物體進行「跟拍」。下圖中,一個攝像機在三個位置拍出三張照片,那麼根據這三張照片就能還原出這個物體的立體形態。(攝像頭只要多捕捉幾個位置,三維物體就能還原出來)這些東西,學名叫做「計算機視覺的三維重建」。三維重建的方法還有很多,這裡就不一一贅述。為什麼要講三維重建,因為這可能是Magic Leap最大的特長。增強現實只需要識別一下圖片,在眼鏡的平面上做一個標註就可以了。而Magic Leap所謂的「混合現實」,需要把虛擬物體直接放到真實環境中。要想和真實環境接觸,必須把真實環境用計算機重建出來。這個過程,就需要上面講的各種「三維重建」方法了。
推薦閱讀:
(Gary Bradski是OpenCV的創始人,業界大牛)
刷屏的視頻
Magic Leap的演示視頻里,帶上Magic Leap眼鏡,就能看到躍起的鯨魚http://read.html5.qq.com/image?src=forum&q=5&r=0&imgflag=7&imageUrl=http://mmbiz.qpic.cn/mmbiz_gif/65GbROUuDNxTpofEDajPs6yNQesYw3FiafFIvq4Gnp0vwEeicxQnuFlByPdon4OvfpcgMqcz4ic2RTYRD76pOHianA/0?wx_fmt=gif(Magic Leap展示視頻:躍起的鯨魚)或者看見天花板上漂浮的水母。http://read.html5.qq.com/image?src=forum&q=5&r=0&imgflag=7&imageUrl=http://mmbiz.qpic.cn/mmbiz_gif/65GbROUuDNxTpofEDajPs6yNQesYw3Fiaz11FCjNeTcKXA9KIpavI0qIjftKjsY8g5iacEJMaN7CWFMDHmxSwozA/0?wx_fmt=gif(Magic Leap展示視頻:天花板上的水母)神秘的Magic Leap似乎遭遇了危機,產品也至今沒有發布,但是背後的技術其實一直並不神秘。虛擬現實有個缺點,就是用戶不能戴著它四處晃悠。畢竟用戶看不見周圍的真實環境,四處走的話,容易撞到牆。
(Google Cardboard外觀,硬紙殼套手機)增強現實,就跟現實有點關係了。用戶帶上眼鏡,原來能看見的現在還都能看見,只不過加了一層「平面投影」。比如你看見一個人,增強現實就能給這個人註上姓名、職位之類的信息。看見一個商店,增強現實可以給你註上商店名字、地址、是否正在營業。(增強現實,現實上加了一層圖像)最後就是這個Magic Leap提出的「混合現實」。混合現實直接把立體的虛擬物體投射到真實環境里。比如那個藏在桌子底下的機器人,它可以和真實的桌子互動。如果「混合現實」做到極致,虛擬物體會和真實物體看起來一模一樣,完全可以以假亂真。(混合現實,把一個虛擬的物體投射到真實環境里)
下圖就是三者之間的對比。簡單來說,虛擬現實就是「看不見現實」,增強現實就是「加了標註的現實」,混合現實就是「根本分不清是虛擬還是現實」。虛擬現實、增強現實、混合現實的區別其實不少人認為「混合現實」純屬概念炒作,和增強現實沒什麼本質的區別。儘管Magic Leap一再強調我們做的是「混合現實」,而大量媒體還是把它歸到了「增強現實」的範疇里。Magic Leap目前並沒有透露任何技術細節,不過他們一直在招聘計算機視覺的相關人才。計算機視覺雖然近幾年才火起來,但它卻是個古老的科技。它講起來並不艱深,只不過有些瑣碎。
什麼是計算機視覺所謂「計算機視覺」,就是教計算機「看懂」圖像或者影像。給一隻貓的圖片,電腦能判斷出它是一隻貓。給一個天安門廣場的照片,電腦能數出來廣場上一共有多少人。任何一個圖像,都是三個二維數列(或者叫二維矩陣),比如下面這張圖,上邊是人看到的,下邊是計算機看到的。人很容易識別出來這是一隻羊駝,但計算機看到的只有數字,根本沒什麼規律。如何識別出它是不是羊駝,就需要計算機視覺來做了。(一張圖和它的其中一個二維矩陣)目前Magic Leap還並沒有把整個計算機整合到眼鏡上,他們的展示視頻是用一個裝了攝像頭的眼鏡,連接著電腦拍出來的。
Magic Leap的CEO羅尼·阿伯維茨(Rony Abovitz)並沒有透露具體何時把Magic Leap的眼鏡開發出來,不過阿伯維茨在接受WIRED採訪時說,發布之前,我們的產品必須做到完美無瑕。(CEO Rony Abovitz)這就不知道要等到哪天了。Facebook、谷歌、微軟等一系列公司都在AR領域進行「生死競速」,加班加點地研發新產品。面對當前的這些不利因素,或許Magic Leap會像谷歌眼鏡一樣,經歷了長時間的開發,最後宣告失敗。也或許Magic Leap能像他們的名字一樣,一下子「神奇地躍過」了這些大公司,推出了一個「完美無瑕」的眼鏡,成為增強現實的霸主。本文首發於微信公眾號「矽谷密探」http://weixin.qq.com/r/J0gCGunE1rSpra159x01 (二維碼自動識別)
推薦閱讀:
※[目標檢測] RON-Reverse Connection with Objectness Prior Networks for Object Detection
※初見相關濾波與OTB
※3D目標識別與定位技術的最新進展?有哪些技術瓶頸?
※什麼是One/zero-shot learning?
※從人臉識別 到 行人重識別,下一個風口