DAC2018挑戰賽:中科院、清華分獲GPU與FPGA組冠軍

DAC2018挑戰賽:中科院、清華分獲GPU與FPGA組冠軍

來自專欄機器之心120 人贊了文章

2018 年 6 月 28 日,由電子自動化設計頂級會議 DAC 2018 主辦的「低功耗目標檢測系統設計挑戰賽」於加州舊金山於落下帷幕。來自中科院計算所的 ICT-CAS 團隊和來自清華大學的 TGIIF 團隊在全球 114 支參賽隊伍中脫穎而出,分獲 GPU 組和 FPGA 組的冠軍。本屆比賽旨在為無人機設計高精度且高能效的物體檢測系統,以滿足實際複雜場景的需要。比賽任務極具挑戰性,參賽設計需要考慮小物體及被遮蔽物體檢測,需要區分同場景多個相似目標,也需要考慮檢測速度及功耗等多方面因素。參賽隊伍來自清華大學、北京大學、中科院、UIUC、CMU、IBM、Cadence 等全球多個優秀科研機構。

無人機在工業、農業、軍事及消費級市場均有如土地測繪、巡檢監測、物資配送、災後救援等重要作用。其中,實現高精度且高能效物體檢測是開展所有無人機任務的基本要素,也是本領域急需提高的方向。由於航拍數據集(無人機視角)的缺失,進一步提升無人機物體檢測系統變得更加困難。

在這樣的背景下,聖母大學的史弋宇教授,匹茲堡大學的胡京通教授,香港城市大學的余備教授和 Cognite Ventures 公司的 CEO Christopher Rowen 發起「低功耗目標檢測系統設計挑戰賽」,並在 DAC 2018 成功舉辦。該比賽由 Nvidia、Xilinx 和 DJI 大疆創新贊助,由聖母大學博士後徐小維和匹茲堡大學博士生張鑫燚進行評測。Nvidia 和 Xilinx 分別為 GPU 和 FPGA 組的參賽隊伍提供免費的嵌入式計算設備 TX2 GPU 和 PYNQ Z-1 FPGA。大疆創新為比賽提供了高達 150k 份由無人機在實際環境中採集的數據並提供了準確標註。

比賽中使用到的兩種硬體平台: TX2 GPU(左)和 PYNQ Z-1 FPGA(右)

比賽從 2017 年 10 月 16 日正式開始,於 2018 年 5 月 28 日結束,共吸引 114 支來自全球多個科研機構的隊伍參加。其中,53 支隊伍參與 GPU 組比賽,61 支隊伍參與 FPGA 組比賽。最終,兩個組別前三名的隊伍將被邀請至舊金山,在 DAC 2018 上接受頒獎。同時,獲獎隊伍將能在大會上分享他們的設計並進行現場展示。

挑戰 1: 小物體及遮蔽物檢測

由於所有圖片均在無人機視角下拍攝,大量圖片中的待檢測物體都非常小,且有很大的概率被樹木和建築物遮擋。這些物體本身的特徵在如此小的尺度下會大大提升檢測的難度。

小物體檢測:綠色框對應行駛中的汽車為檢測目標

挑戰 2: 同一物體檢測

與傳統的物體檢測不一樣,本次比賽需要參賽隊伍檢測同一個物體。在無人機跟隨應用中,無人機需要準確地檢測出指定物體(如無人機操控者、車輛、動物等)並進行跟隨飛行。當場景出現多個相似物體時,無人機也不能跟丟或跟錯對象。此應用給物體檢測帶來了新的挑戰。

特定行人檢測:綠色框對應的是正確的檢測目標,藍色和紅色狂均對應錯誤的行人

挑戰 3:高精度 vs 低功耗

比賽採用的評價指標是精度,速度和能耗的結合(評分細則詳見 1)。考慮到 GPU 組及 FPGA 組使用了不同的計算能力硬體設備,比賽對檢測速度提出了不同的要求。其中 GPU 設計需運行至 20 FPS,FPGA 設計需達到 5 FPS。

GPU 組前三強

GPU 組的前三名分別是中科院計算所的 ICT-CAS 團隊,浙江大學的 DeepZ 團隊和山東大學的 SDU-Legend 團隊。三個隊伍均採用了深度學習完成比賽,也都採用 Yolo 神經網路作為他們的基礎設計。

GPU 組第一名: ICT-CAS

ICT-CAS 團隊使用了 feature extractor, tucker decomposition and precision scaling 相關技術。在每一種具體的方案中嘗試了多種技術記憶組合以減少計算和內存消耗。在計算中採用了半精度(16bits)進行計算並使用 TensorRT 來提高計算速度。

GPU 組第二名: DeepZ

DeepZ 團隊使用 Yolo-v2 作為骨幹網路進行特徵提取和檢測。為了應對較小物體檢測的問題,該團隊使用了 Feature Pyramid Network 來獲得上下文相關的特徵。同時,focal loss function 的引入來緩解單一物體檢測與多個候選框的不平衡問題。該團隊 對 Yolo-v2 網路進行了一定的改進,改進後的網路結構如下圖所示。

GPU 組第三名: SDU-Legend

SDU-Legend 團隊基於 Yolo v-2 進行優化。首先,該團隊將 Yolo v-2 網路由 32 層刪減為 27 層。其次,為了滿足檢測小目標的要求,該團隊降低了下採樣率。在體系層次,該團隊也做了一些優化:將網路最後兩層的計算放在 CPU 上進行。該團隊實現了 16bits 的半精度計算來進一步提升計算速度。

FPGA 組前三強

FPGA 組的冠軍是來自清華大學的 TGIIF 團隊,亞軍是蘇黎世聯邦理工大學的 SystemsETHZ,季軍來自 UIUC 的 iSmart2 團隊。這三支參賽隊伍分別在 FPGA 上部署了 SSD,SqueezeNet 和 MobileNet 神經網路,完成了比賽要求的物體檢測任務。

FPGA 組第一名: TGIIF

TGIIF 團隊在採用了深鑒科技的硬體加速器架構 DPU、全棧式工具鏈 DNNDK 和深度壓縮技術的基礎上,從演算法、軟體和硬體對整個目標檢測系統進行了全棧式的協同優化。通過採用硬體友好的 SSD 網路和多線程優化技術,結合深度壓縮和定點訓練,在保證識別精度的前提下,滿足了低功耗和實時性的要求。

FPGA 組第二名: SystemsETHZ

SystemsETHZ 團隊使用低量化網路進行物體檢測。特別的該團隊採用 squeezenet 為基礎進行設計,並將網路層數修改為 18 層。在具體的實現中,該團隊採用了 folded computing 的方式來配置多路復用器和多路輸出選擇器進而實現神經網路不同階段的計算。該團隊使用一個 DMA 引擎實現 CPU 和 FPGA 間的數據傳輸。

FPGA 組第三名: iSmart2

iSmart2 組採用以 Mobilenet 為基礎的輕量化網路設計,共 12 層。網路包含 depth-wise 3x3 卷積層,傳統 1x1 卷積層和 max pooling 層,並採用簡化的 Yolo 後端進行物體檢測。在硬體實現上,該團隊採用基於模塊(IP)復用的結構,讓相同種類的網路層復用同一個模塊以節約硬體資源。此外,該團隊將每層特徵圖分割成大小相同的數據塊,以數據塊為單位進行計算,實現了數據塊之間的細粒度流水線結構,以縮短圖片的處理延時。

大賽鏈接:cse.cuhk.edu.hk/~byu/20


推薦閱讀:

閑聊:人工智慧真實落地案例
人工智慧「自創語言」,人類已無法識別!
專訪機器人Alpha Go :我不是種豬,讓我對戰柯潔毫無意義
No.176人工智慧:樂觀悲觀都是錯的 文字版
人工智慧60年:一文了解AI的過去、現在與未來(下)

TAG:人工智慧 | 現場可編輯邏輯門陣列FPGA | 圖形處理器GPU |