學界 | 北郵奪冠CVPR 2018 DeepGlobe比賽,他們是這樣做衛星圖像識別的

學界 | 北郵奪冠CVPR 2018 DeepGlobe比賽,他們是這樣做衛星圖像識別的

來自專欄數據汪199 人贊了文章

大數據文摘出品

在剛剛結束的CVPR2018: DeepGlobe Road Extraction Challenge(全球衛星圖像道路提取)比賽中,北京郵電大學信息與通信工程學院模式識別實驗室張闖老師指導的研究生周理琛同學,脫穎而出,取得第一名的好成績。

本屆CVPR規模浩大,有超過3309篇論文投稿,接收979篇論文。此次DeepGlobe道路檢測比賽參加隊伍眾多,包括許多專業級的衛星公司和研究機構(其中,Road Extraction Challenge比賽的第2-4名都來自專業的地圖和導航公司)。

獲獎的北郵模式識別實驗室和周理琛同學向大數據文摘獨家解讀了他們的奪冠方法論,還將帶來一次公開分享,一起來學習吧!

?掃描海報中的二維碼,報名公開課,聆聽來自冠軍的獲勝法寶~~~

賽題和數據

基於衛星圖像的道路檢測在城市規劃,自動駕駛,應急指揮等領域有很廣泛的應用場景。此次比賽的任務是將衛星圖像中的道路部分提取出來,即將每個屬於道路部分的像素點標註為道路,其他部分標註為背景(屬於一個二元分割的問題)。

比賽的數據由全球知名的衛星數據公司數字地球(DigitalGlobe)提供,由FACEBOOK, UBER, IEEE GRSS, DigitalGlobe, CrowdAI, OVSI, Kitware等公司贊助。

比賽分為三個子任務:衛星圖像道路提取(84隊參與)、房屋提取(26隊參與)以及地表覆蓋分類(38隊參與)。參賽隊伍包括MIT, CrowdAI, MapBox, Neuromation公司,EOS數據分析中心,清華大學、同濟大學、哈工大、國立台灣大學、商湯科技等團隊。

數據集和道路檢測示例

比賽數據集包含6226張訓練圖像,1243張驗證圖像,以及1101張測試圖像。所有的圖像尺寸均為1024*1024,圖像來源於泰國、印度、印度尼西亞,圖像場景包括城市、鄉村、荒郊、海濱、熱帶雨林等多個場景。

從衛星圖像中分割道路是一項十分具有挑戰的任務,該任務可以應用於地圖生成、汽車自動駕駛與導航等多個場景。同時,衛星圖像道路分割相較於一般的分割任務,有其獨特性和困難性,具體表現為:在衛星圖像中,目標道路所佔據畫幅比例普遍偏小;河流、鐵路等又與道路過於相似,甚至人眼也難以判別;道路分叉連通情況也很複雜,這對於道路提取的識別精度有著相當高的要求。

另外,在衛星圖像中,道路往往狹窄、且具有先驗的連通性,幾條道路可能會互相交叉連通,且整體跨度覆蓋整張圖片,傳統的圖像分割方法很難適用。這都給衛星圖像中的道路檢測帶來了難度。

奪冠方法詳解

數據擴增-圖像形態變換:

①、隨機翻折:包含水平、豎直、對角線三種翻折方式,每張圖片擴增為原來的8倍。

②、隨機縮放:將圖像隨機縮放至多10%。

③、隨機偏移:將圖像隨機上下左右偏移至多10%。

④、隨機拉升:將圖像隨機沿豎直方向或水平方向拉升至多10%。

經過以上四種變換之後,再截取圖像中心1024*1024的部分,不足的部分補0。

數據擴增-圖像色彩變換:

使用OpenCV,在HSV空間對圖像進行色彩變換。在OpenCV中,每個像素的HSV保存在uint8的數據類型中(0~255)。

①、H空間,隨機變換(-15~15)。

②、S空間,隨機變換(-15~15)。

③、V空間,隨機變換(-30~30)。

數據擴增示意圖:中心處為原圖

模型結構D-LinkNet

北京郵電大學模式識別實驗室提出了融合的D-LinkNet方法,該方法在提升網路識別精度的同時,增加網路接收域,保留圖像的空間細節信息,並實現多尺度特徵融合,有效提升了識別精度、緩解道路連通性問題。

模型總體結構如下:

D-LinkNet34示意圖

D-LinkNet使用LinkNet作為基本骨架,使用在ImageNet數據集上與訓練好的ResNet作為網路的encoder,並在中心部分添加帶有shortcut的dilated-convolution層,使得整個網路識別能力更強、接收域更大、融合多尺度信息。

網路的中心部分可以展開如下圖,圖中所示的並聯結構可以有效的融合多尺度特徵。Dilated-convolution可以有效擴張接收域,從上到下對應的接收域分別是31、15、7、3、1,最後將每條支路的結果相加,便得到融合的特徵。

網路中心部分展開示意圖

損失函數/測試時擴增(TTA)

損失函數的公式如下所示。損失函數包含兩部分,其中紅框部分是dice coeff loss,綠框部分是Binary cross entropy loss。公式中P指代網路輸出的預測結果,GT指代真實標籤,N指代batchsize。

損失函數

由於衛星圖像具有翻折和旋轉不變性,在測試時,我們將圖像進行水平、豎直、對角線三種翻折,每張圖片預測8次,然後將8次的結果平均。(我們沒有旋轉圖片是出於預測時間的考慮)

比賽結果和技術分享

測試集上最終結果

各項比賽任務優勝者排名表

論文鏈接:

openaccess.thecvf.com/c

代碼及PPT:

github.com/zlkanata/Dee

北京郵電大學模式識別實驗室介紹

北京郵電大學模式識別實驗室由郭軍教授(日本東北學院大學博士、博士生導師、北京郵電大學副校長)於1998年依託信號與信息處理國家重點學科以及模式識別與智能系統信息產業部重點學科而創建,是國內較早開展人工智慧領域研究的著名實驗室之一,也是信息內容安全技術國家工程實驗室的組成部分。

實驗室長期從事模式識別、機器學習、數據挖掘、網路搜索等方面的研究,在國際頂級期刊及會議TPAMI、PR、PRL、SCIENCE、 TIP、TIFS、CVPR、ECCV、SIGIR上發表論文多篇,參加人工智慧領域國際評測NIST-TREC評測、AI CHALLENGER、阿里天池大數據比賽、863評測等也多次獲得優異成績。實驗室的馬占宇、高升、郭軍、徐雅靜、藺志青老師獲得2017年吳文俊人工智慧科技進步一等獎。

有心的同學可能也注意到了,由大數據文摘字幕組推出的三門火爆的網紅課程就是和北郵模式識別實驗室合作進行的。

感興趣的同學通過以下鏈接就可以進行學習啦~~~

  • 牛津大學xDeepMind 自然語言處理

    study.163.com/course/in
  • MIT6.S094深度學習與自動駕駛

    study.163.com/course/in
  • 斯坦福李飛飛-深度學習計算機視覺

    study.163.com/course/in

歡迎報考北郵模式識別實驗室碩士博士研究生~

推薦閱讀:

python計算機視覺 第六章
錯漏裝機器視覺檢測設備方案
Faster RCNN by Xinlei Chen
AI以假亂真怎麼辦?TequilaGAN教你輕鬆辨真偽
如何從單張圖片中去除雨滴?|CVPR 2018

TAG:深度學習DeepLearning | 計算機視覺 | 機器學習 |