DJI 在機器視覺領域的研發實力有多強?

之前在5imx上看到這個貼:消費級無人機的「代」

第三代和第四代的產品只有DJI家的,這側面能反映出DJI在視覺領域的研發水平至少在其他消費機無人機公司之上。
但找不到其他資料能顯示出DJI在視覺領域的研發實力究竟有多強。

所以很好奇DJI在機器視覺領域的研發實力究竟如何。


謝邀,為了回答這個問題專門去請教了在 DJI 工作的小夥伴。

如果按照題中的分類來講,Mavic已經不再是第四代,而是跑到了第五代的位置。

因為以Phantom 4為代表的第四代消費機無人機還停留在傳統機器視覺的應用範疇內。
比如說光流、比如說VIO、比如說基於框選的tracking,都是傳統的feature-based vision application。

而 Mavic 上用到的技術證明了 DJI 在視覺領域的發力已經走出了傳統視覺的研究範疇,踏入了以Deep Learning和Neural Networks為代表的新時代機器視覺研究領域。
比如說手勢自拍,比如說tracking時候用戶點選飛機自動識別是人是車還是船,這些都不是通過傳統機器視覺的技術實現的,而是在神經網路中進行大量訓練得到的結果。

能把deep learning做到產品裡面的廠家,現在真的不多吧。

以下轉自雷鋒網,文中的視覺工程師即是我的小夥伴。

在Mavic Pro身上,大疆還有哪些技術秘密你不知道?

「其實,Mavic最核心的地方在於計算機視覺」,Mavic Pro發布後大疆的一名視覺工程師如此向雷鋒網強調著,彼時大家對於這款在很多方面都超越Phantom 4的無人機更多的討論還是圍繞在便攜和巧妙的工業設計上,而作為其中的參與者,Mavic Pro新增的智能功能才是讓他最為興奮的。按照公開資料來看,這些新增的智能功能讓Mavic Pro算得上是全球首款基於深度學習的消費級無人機。


首先我們將Mavic Pro與Phantom 4對比一下,Mavic Pro新增了哪些智能功能:1. 手勢自拍;2. 物體識別;3. 視覺跟隨中的平行跟隨、焦點跟隨、 自動環繞;4.精準降落。

這裡面每一個功能的背後,都是在試圖解決計算機視覺和機器人學領域裡最核心也是最頭疼的難題,同時也是大疆隱藏最深的秘密。


手勢自拍


如今很多小型無人機都自稱自拍無人機,不過其實都是屬於跟拍,通過跟蹤人或人臉來實現拍攝,大疆在今年3月的Phantom 4已經實現過,如今包括正火的Hover Camera等無人機也都實現了這一功能。而Mavic Pro則是實實在在地實現了脫離遙控器的自拍,也就是通過手勢來進行抓拍。

當你走到畫面里,Mavic Pro會自己識別移動的人,並且你可以向它揮手讓它來跟著你飛行,在跟蹤過程中只要做出拍照手勢,它就會幫你抓拍。如此一來,你就能在拍照過程中完全將遙控器放收在包里。並且即使跟蹤丟失時,也可以在不需要遙控器的幫助時,重新走回畫面中,讓飛機繼續跟隨。值得一提的是,當開啟GPS輔助時,飛機會融合GPS的信息來進行矯正。

對於一般的手勢識別系統而言,整體的步驟大概分為三步,也就是手部的定位、建模和識別。手部建模現在主要有兩種方法,2D和3D,主要是看使用了什麼樣的攝像頭,建模好後最後再進行識別,比如你的手是張開的還是握拳的。據悉從這個3D手部模型到手勢識別是有不同的方法的,有的是直接拿3D手部模型去識別,有的是把3D模型轉化成2D圖像,再在這個基礎上利用深度學習進行分類識別。目前在室內環境中,由於距離較近,手勢識別的難度並不大,像微軟的Kinect就在電視遊戲上得到很好的應用。但在戶外的場景下,在無人機上用這種攝像頭遠距離識別手勢,大疆應該算是首個嘗試的。


Mavic Pro並沒有使用3D攝像頭,而是通過2D主相機來進行識別的,其難度要比使用3D攝像頭大很多。首先,飛機要在沒有深度信息的前提下準確地識別和定位畫面中的人,其次,要完成一系列手部的定位、建模和動作的識別。


Mavic Pro據稱使用的是深度學習,而深度學習對於計算設備有較高要求,一般研究者需要NVIDIA Titan X這類GPU才能實現。Titan X舊版的處理性能大概在6T的Flops(每秒計算的浮點數),而大疆使用的是聯芯LC 1860,官方給出的總處理能力在8GFlops,相差大概700倍,在這麼低的處理平台上做深度學習,就面臨著神經網路設計上的突破,訓練的技巧,模型的精簡與壓縮,底層實現的優化等問題。


關於Mavic Pro的手勢自拍,雷鋒網(公眾號:雷鋒網)在體驗過程中的感受是,反應還比較及時,大多數情況都能做到準確識別,功能方面比較好。體驗方面,閃爍燈提示在陽光下比較弱,閃爍3秒後開始拍照,如果倒計時開始時加個聲音提示可能會更好。


物體的檢測和識別


物體的識別,是指對於畫面中的主體進行分類判定。其分類方式既可以是粗粒度的類別(比如汽車),也可以細粒度的類別(比如賓士C200、寶馬X5)。物體的檢測,是指在畫面中自動找出感興趣物體,並標出它們的輪廓。全世界著名的ImageNet競賽,比拼的就是物體識別和檢測的準確性。


Phantom 4的智能跟隨功能的一個痛點是需要用戶手動在屏幕上框出要跟隨的目標,而由於小白用戶常常難以做到,尤其當目標在運動中。一方面會因為框的不準確,而造成智能跟隨表現不理想,另一方面對於正在運動中的物體,很難框中。而物體檢測和識別技術,可以讓用戶實現即點即走,讓智能跟隨的體驗有了質的提升。這次Mavic Pro可以自動檢測識別多種常見物體(人、汽車、卡車、動物、船、人騎自行車或摩托車等),並號稱其跟隨的動作會根據不同的物體有相應的優化。

Mavic Pro對人的跟隨,圖片來自網路體驗視頻

Mavic Pro對船的跟隨,圖片來自網路體驗視頻


智能跟隨的模式升級


無人機跟隨主要有兩種方式,一種是依靠GPS,一種是依靠視覺。GPS跟隨需要用戶攜帶額外的遙控接收器,並且依賴於空曠的環境以確保GPS信號足夠強。此外,讓用戶最過頭疼的是,GPS跟隨難以保證拍攝主體在畫面中。視覺跟隨可以很好地克服這些缺點,但是視覺跟隨的難度也比較大。由於視覺跟隨過程中是沒有人類交互的,告訴演算法的所有信息都在第一幀的框里,這個框告訴了演算法什麼是目標,什麼是背景,而演算法並不知道的是,這個目標在其它視角的樣子是什麼,也不知道這個目標如果自身會改變成什麼樣的形態。如果目標的姿態變化過大,或者目標在另一個視角下看起來跟一開始的樣子差別很大,演算法還需要判斷現在框里的還是不是當初那個目標,或者是不是已經變成另一個物體了。也就是說,第一幀的框,是不是能緊緊框住目標的邊緣,不包含太多背景。也不遺漏掉目標的其它部分,這對於跟隨的演算法來說至關重要。

Phantom 4已經實現了視覺跟隨,不過僅限於前方與側前方跟隨,Mavic Pro為用戶帶來了多種跟拍模式,包括焦點跟隨,以及用戶期待已久的平行跟隨和自動環繞。這兩個模式能夠幫用戶拍出一些意想不到的視頻。但在這些模式下,飛機看到目標的視角和樣子也千變萬化,對演算法的魯棒性提出了更高的挑戰。要做到低空高空都能任意跟隨的話,在目標跟蹤領域裡也是一大難題。而Mavic Pro能夠在低成本低性能的平台上實現對任意物體的跟隨,並且根據目標的類型而選擇合適的跟隨策略進行控制。


http://static.leiphone.com/uploads/new/article/740_740/201611/581c1eaf9c74d.gif

Youtube上這則用戶使用ActiveTrack的自動環繞功能的視頻,其中的目標包含了各種姿勢的形變,包括站起、蹲下、趴下,在水面的遮擋干擾,光線的強弱變化等等干擾因素下,ActiveTrack仍然順利完成了跟蹤任務。


精準降落

與其他大疆無人機產品一樣,Mavic Pro在與地面端失去聯繫或低電量情況下將自動返航,並加入全新的「精準降落」功能:兩台下視相機會在每次起飛時拍攝一組照片,在返航著落過程中通過對下視觀測和起飛記錄照片的匹配來實現厘米級別的精準降落。


Mavic Pro精準降落是用到了SLAM中的迴環檢測技術,飛行過程中會記錄視覺感測器看到的圖像信息,並且根據這些信息來進行精準降落。也就是說,它降落的時候,一直在和當時起飛的時候所看到的圖像進行對比,並且持續調整自己的方向。並且最近Mavic Pro的升級更新,據說增加了識別地面是否平整,以及地面是否是水面的功能,從而很大程度提高了降落的安全性。可以看出大疆對用戶體驗的重視以及對產品精益求精的追求。


「史上最智能無人機」背後是大疆的成功轉型


Mavic Pro發布之時,大疆用了「史上最智能無人機」來概括這些新增功能,而關於更多的細節部分則甚少提及。因此,也很少人注意到,這些功能背後是大疆早已默默地從一家「飛行相機」企業成功轉型為機器人企業。


其實早在今年3月,大疆創始人汪滔曾以「歡迎來到計算機視覺時代」一語點出了Phantom 4的核心所在,同時,大疆默默把自己的描述從以前的」Flying Camera」 變為了」Flying Robot」。Phantom 4面世所帶來的意義,即"機器視覺時代」的到來,以往幾十年全世界人對於計算機視覺的期待僅僅停留在論文和實驗室以及有限的工業場景中,而現在,計算機視覺以一種更好玩、更動感、更直接的表現形式回來了,讓大眾消費者都能感受到它帶來的便利。而這一切,都源自大疆過去兩年中在計算機視覺上所做的準備。

圖片來自大疆官網


計算機視覺的結果要轉化為輔助控制做決策的過程中,要能結合各個模塊感測器做出實際可用的應用,要涉及到相機、雲台、IMU慣導模塊、氣壓計、GPS、超聲波、前視雙目、下視雙目以及視覺里程計等非常多和複雜的模塊。成熟的SDK架構也貢獻很大,大疆的無人機和飛控都有一套非常規整的SDK(軟體開發套件)提供API給第三方開發者使用。

大疆還主辦各類飛行器及機器人比賽,從與福特汽車合作的SDK開發者大賽,任務是依靠目標識別進行無人機的移動汽車平台降落,到堪稱最炫酷機器人比賽的全國大學生RoboMasters中的敵方機器人識別和自動瞄準,各個比賽中的視覺功能所佔比例也是重中之重,而底層完善的SDK支持都是開發者效率的保障。

Robomasters中機器人正在利用計算機視覺技術對面板上的圖案進行識別並選擇正確的圖案攻擊


大疆籌辦這類比賽一方面是對社會人才培養的回饋和貢獻,另一方面更多也是為了人才儲備,因為贏得比賽往往意味著贏得一張去大疆工作的Offer,為大疆源源不斷地輸送計算機視覺和控制類的頂尖人才。


另外,雖然大疆在業內一向很低調,不過在各大學術會議中則是積極者。CVPR是計算機視覺領域中最頂級的會議,在今年6月末開啟的CVPR 2016上,大疆作為重要贊助商出現在了CVPR的會場,其參展的展位就在Apple、Intel、Microsoft和Google中間,而且還對與會的研究人員們做了演講。

可以說,就在其他無人機企業還在尋找哪個方向才是正道時,大疆早就明確要走哪條路並且知道要幹什麼。今年大量小型無人機出現在市面上,很大原因是大家以為大疆不會做小型無人機,而Mavic Pro出來後,他們又將面臨曾經跟精靈系列正面競爭的相似局面。而對於大疆來說,做大無人機還是小無人機,或是說做航拍無人機還是自拍無人機,這些並不是最重要的,只要掌握了最核心的技術,做什麼樣的無人機只是一個選擇而已。


還記得2015年11月大疆與美劇神盾局特工主演汪可盈合作拍攝的Phantom X概念視頻嗎?裡面汪可盈用優美的太極動作來控制無人機在空中作畫。如今也不過一年時間,當時覺著天方夜譚的場景,現在再看看Mavic Pro是不是覺得很近了呢?


雷鋒網原創文章,轉載請註明來源出處


一直覺得這些視覺使用上都是戰五渣,沒有什麼卵用的東西,然而在翻騰和馬尾克上確實只能作為輔助玩樂。壁障增加安全,視覺增加近地穩定而已。

直到我遇到了因斯派2的聚焦模式,那特么的簡直就是逆天。整合的太好了。


大疆厲害的不單單是機器視覺,還是機器視覺和感測器的融合演算法。
大疆和港科大的產研學合作是刻在基因里的。港科大機器人實驗室的沈老師,Shaojie Shen,和大疆在無人機機器視覺的應用上有很多合作。他個人很勤奮,他們組今年中了ICRA 2016四篇文章,都和四旋翼上應用機器視覺有關,應該也會對大疆在機器視覺領域的應用有幫助。
附:雙目攝像頭測深度的演算法,因為需要經常校準,而且受溫度影響太大,沈老師已經不太看好了。
附圖:他們組今年中的四篇文章:


一.成熟的雙目VIO技術
從Phantom 4開始,室內定位從光流轉為雙目VIO,其中包括Guidance,Phantom 4到現在的Mavic Pro。技術已經十分成熟,放到世界也是TOP級。
寫了和DJI有關係的幾篇paper

  1. Zhou G, Fang L, Tang K, et al. Guidance: A Visual Sensing Platform For Robotic Applications[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2015: 9-14.
  2. Zhou G, Ye J, Ren W, et al. On-board inertial-assisted visual odometer on an embedded system[C]//2014 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2014: 2602-2608.
  3. Zhou G, Liu A, Yang K, et al. An embedded solution to visual mapping for consumer drones[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2014: 656-661.

這些都是之前的工作了,沒寫的就不說了。(想想還在外包做光流的小廠商,真是難啊。)
有人提到了Shaojie Shen,那有興趣的可以自己去查一查。
Kumar那次蠻火的TED,多半都是Shaojie Shen的工作了。

二、DL相關

(以下摘自雷鋒網,湊合看吧hhh)

在Mavic Pro身上,大疆還有哪些技術秘密你不知道?

手勢自拍

如今很多小型無人機都自稱自拍無人機,不過其實都是屬於跟拍,通過跟蹤人或人臉來實現拍攝,大疆在今年3月的Phantom 4已經實現過,如今包括正火的Hover Camera等無人機也都實現了這一功能。而Mavic Pro則是實實在在地實現了脫離遙控器的自拍,也就是通過手勢來進行抓拍。

當你走到畫面里,Mavic Pro會自己識別移動的人,並且你可以向它揮手讓它來跟著你飛行,在跟蹤過程中只要做出拍照手勢,它就會幫你抓拍。如此一來,你就能在拍照過程中完全將遙控器放收在包里。並且即使跟蹤丟失時,也可以在不需要遙控器的幫助時,重新走回畫面中,讓飛機繼續跟隨。值得一提的是,當開啟GPS輔助時,飛機會融合GPS的信息來進行矯正。

對於一般的手勢識別系統而言,整體的步驟大概分為三步,也就是手部的定位、建模和識別。手部建模現在主要有兩種方法,2D和3D,主要是看使用了什麼樣的攝像頭,建模好後最後再進行識別,比如你的手是張開的還是握拳的。據悉從這個3D手部模型到手勢識別是有不同的方法的,有的是直接拿3D手部模型去識別,有的是把3D模型轉化成2D圖像,再在這個基礎上利用深度學習進行分類識別。目前在室內環境中,由於距離較近,手勢識別的難度並不大,像微軟的Kinect就在電視遊戲上得到很好的應用。但在戶外的場景下,在無人機上用這種攝像頭遠距離識別手勢,大疆應該算是首個嘗試的。

Mavic Pro並沒有使用3D攝像頭,而是通過2D主相機來進行識別的,其難度要比使用3D攝像頭大很多。首先,飛機要在沒有深度信息的前提下準確地識別和定位畫面中的人,其次,要完成一系列手部的定位、建模和動作的識別。

Mavic Pro據稱使用的是深度學習,而深度學習對於計算設備有較高要求,一般研究者需要NVIDIA Titan X這類GPU才能實現。Titan X舊版的處理性能大概在6T的Flops(每秒計算的浮點數),而大疆使用的是聯芯LC 1860,官方給出的總處理能力在8GFlops,相差大概700倍,在這麼低的處理平台上做深度學習,就面臨著神經網路設計上的突破,訓練的技巧,模型的精簡與壓縮,底層實現的優化等問題。

關於Mavic Pro的手勢自拍,在體驗過程中的感受是,反應還比較及時,大多數情況都能做到準確識別,功能方面比較好。體驗方面,閃爍燈提示在陽光下比較弱,閃爍3秒後開始拍照,如果倒計時開始時加個聲音提示可能會更好。

物體的檢測和識別

物體的識別,是指對於畫面中的主體進行分類判定。其分類方式既可以是粗粒度的類別(比如汽車),也可以細粒度的類別(比如賓士C200、寶馬X5)。物體的檢測,是指在畫面中自動找出感興趣物體,並標出它們的輪廓。全世界著名的ImageNet競賽,比拼的就是物體識別和檢測的準確性。

Phantom 4的智能跟隨功能的一個痛點是需要用戶手動在屏幕上框出要跟隨的目標,而由於小白用戶常常難以做到,尤其當目標在運動中。一方面會因為框的不準確,而造成智能跟隨表現不理想,另一方面對於正在運動中的物體,很難框中。而物體檢測和識別技術,可以讓用戶實現即點即走,讓智能跟隨的體驗有了質的提升。這次Mavic Pro可以自動檢測識別多種常見物體(人、汽車、卡車、動物、船、人騎自行車或摩托車等),並號稱其跟隨的動作會根據不同的物體有相應的優化。

做過相關領域的人,我想應該都明白把DL做到產品級有多難。

以上就夠了。


有人改題目了?????
===
雖然大疆確實在做自動駕駛,(我一個同學就在大疆做自動駕駛),但是自動駕駛涉及到的東西太多了,遠不是一個機器視覺做得好就能解決的。所以不要以為無人機做得好,自動駕駛就一定能做的好。無人機市場太小,所以巨頭們都不想進去,如果這個市場很大,絕對不會是現在大疆一家獨大的局面。所以大疆做無人駕駛並不會比其他做無人駕駛的公司有優勢。


應該說DJI在無人機的各個性能方面都在努力做到行業領先,不論是飛行時間、飛控、視覺、高低溫、等等,DJI的發展也離不開多方面性能的綜合能力,視覺方面不僅傳統的演算法很好應用到無人機,深度學習也成功應用在無人機,作為一家無人機廠商,DJI在消費類的領先優勢明顯。


http://click.dji.com/AEyb3yDZIspiv1L7Lay8?pm=link


dji從哪裡找的PR公司/部門呀,用舊的不行的套路披個新媒體玩法的外衣,一副覺得自己智商比用戶高不知多少倍的樣子。挺好一公司,本來很酷,被做的形象越做越low啦,PR效果完全是負分。


推薦閱讀:

有哪些值得一讀的無人機 / 四旋翼方面的論文?
如何看待大疆創新在 2017 年 8 月 8 日九寨溝地震後,派出無人機救援隊趕赴災區?
無人機操控放棄實體遙控器改用手機 APP 是否安全?
目前有哪些無人機上市公司?
如何看待"無人機炸機資訊站" sb-dji.com?

TAG:計算機視覺 | 機器視覺 | 無人機Drone | DJI大疆創新 |