魔都AI聖戰者聯盟第二次分享會圓滿召開

撰稿:Amusi

修改補充:H同學

會議時間:2018年4月22日(周日)13:00

Note:因為涉及保密條款,故文中大多數成員以簡稱來命名

魔都AI聖戰者聯盟(League of AI Mujahideen in Shanghai) 是由上海的AI行業從業者發起的民間組織。目前聯盟主要成員為從事AI行業cv或nlp方向的演算法工程師或主管、總監,多數為畢業於國內985高校或海外知名高校的碩博。

聯盟宗旨:

1,團結所有在上海的AI從業者,舉辦高質量的人工智慧相關的分享會和論壇,促進人工智慧相關學術交流和工程實戰交流。

2,促進成員交流行業職場機會和其他合作機會。

3,推動中國人工智慧科學技術的理論研究、技術、應用和產業的繁榮與發展。

魔都AI聖戰者聯盟第二次分享會於2018年4月22日(周日)13:00順利召開。聯盟成員參與度很高,體現了大家的積極態度。會議期間,大家認真聆聽了M演算法總監和R博士給大家帶來的專題講座,並且每個人都分享了自己的經歷與研究方向。

下面就對魔都AI聖戰者聯盟第二次分享會做一次簡單的總結。

1《計算機視覺演算法綜述及其應用場景介紹》專題分享

主講人:M同學(國內某人工智慧科技公司演算法總監,法國蘭斯大學碩士)

主講內容:計算機視覺演算法綜述及其應用場景介紹

1.1 什麼是人工智慧?

人工智慧即AI(ArtificialIntelligence)是一種能夠模擬人類智能行為和思維過程的系統。是基於數學、邏輯學、腦科學與神經科學、知識論和認知科學、心理學和控制理論、計算機科學的交叉學科和應用。

1.2 人工智慧發展史

1956年,AI誕生:達特茅斯會議

1970年-1980年,低谷期:大規模數據和複雜任務不能完成,計算能力無法突破

1982年,專家系統:神經網路+5代計算機

1990年-2000年,低谷期:DARPA美國國防高級研究計劃局(DefenseAdvanced Research Projects Agency)無法實現,政府投入縮減

2006年-至今,深度學習:突破性進展,進入發展熱潮

1.3 人工智慧、機器學習與深度學習的關係

人工智慧>機器學習>深度學習

1.4 深度學習為什麼迅速崛起?

主要得益於下述3點:

1. 大數據

2. 高性能硬體

3. 演算法突破

1.5 計算機視覺

在計算機視覺領域,研究人員努力指導計算機如何東西。這種可以是理解場景、重構3D對象、識別物體、避開障礙、幫盲人指路等等。

1.5.1 計算機「眼中」的圖像

計算機「眼中」的圖像是一組張量(Tensor),對於2D圖像,即為2維排列的數組;對於3D圖像,即為3維排列的數組。大多數圖像是具有顏色信息,圖像處理時,常常會將其轉換成三通道的數據,常見的三通道有RGB和YUV等。圖像可以看成由若干個有序密集排列的「點」組成,其中每個「點」稱為像素。每個顏色通道中像素值範圍在0-255。

1.5.2 神經網路與卷積神經網路

深度學習中的神經網路是根據大腦神經元的結構提出的,一般的結果是輸入—>權值+偏置—>激活函數(非線性函數)—>輸出。

早期神經網路都是全連接網路,上一層的輸出與當前層的輸入兩兩相連,這樣的缺點是權值數量多,佔用較大資源。

卷積神經網路(CNN,convolutionneural network)利用卷積核和滑動窗口(權值共享)的方法有效地減少了權值數量,並且得益於卷積特性,極大地提高低維-高維的特徵提取效率。

常見的卷積神經網路由卷積層、激活層和池化層(下採樣層)組成。

註:卷積神經網路對計算機視覺的影響力十分巨大!

1.5.3 計算機視覺的應用

計算機視覺常見的應用有:圖像分類、目標檢測、圖像分割和目標跟蹤等。

1.6 人工智慧的應用

1.6.1 智能零售

1.6.2 智能安防和智能廣告欄

1.6.3 無人駕駛

1.6.4 輔助醫療

1.6.5 地理信息系統

1.6.6 繪畫風格遷移

1.6.7 廣告畫

1.6.8 體態識別

1.6.9 對抗遊戲


2《基於深度學習的One-Stage目標檢測演算法》專題分享

主講人:R同學(國內某P2P金融公司演算法專家中科院技物所博士)

主講內容:基於深度學習的One-Stage目標檢測演算法

2.1 YOLO

homepage:pjreddie.com/yolo/

paper:arxiv.org/abs/1506.0264

2.1.1 One-stage和Two-stage的區別

目標檢測需要幹什麼?

對於Two-stage的R-CNN系列,需要進行下述處理

l Bounding box的回歸(regression)和proposals+回歸

l 目標的分類(classification)

對於One-stage的YOLO系列,直接得出所有的bounding box和對應的類別

故從處理步驟來說,R-CNN系列多了一個候選框提取分支(Proposal階段),因此稱為two-stage,而YOLO系列稱為one-stage。

2.1.2 YOLO-Workflow

2.1.3 YOLO-Design

l 網格的劃分,邏輯上的劃分,並沒有實際對圖像的內容進行劃分

l 目標的中心點落在哪個網格中,該網格負責檢查該目標

l 每個網格預測B個bounding boxes,以及對應得置信度,訓練時取IOU最大的那個作為預測bbox

l 每個網格同時預測C個類別的條件概率

l 每個bounding box的置信度和類別條件概率的乘積為類別置信度

2.1.4 YOLO-Network

2.1.5 YOLO-Training

l ImageNet pre-training 224→448

l 坐標歸一化,寬高進行歸一化,中心對相對於網格歸一化

l 為不同類型的loss設置不同的權重

l 每個網格的B個boundingboxes中,選取IOU最大的那個作為該網格的預測bounding box

2.1.6 YOLO-Loss

2.1.7 YOLO-Performance

2.1.8 YOLO-Summary

  • 背景誤檢率低
  • 通用性好
  • 定位精度低
  • 檢測精度低
  • 對小物體效果差

2.2 YOLOv2(YOLO9000)

官網:pjreddie.com/yolo9000/

paper:arxiv.org/abs/1612.0824

2.2.1 YOLOv2和YOLO的不同

2.2.2 Batch Normalization

BN(Batch Normalization)有助於網路收斂。通過在YOLO的所有卷積層上添加BN, 使得在mAP上得到2%以上的改進。BN還有助於對模型進行regularize。通過BN, 我們可以在沒有 overfitting的情況下去除模型中的dropout。

2.2.3 High Resolution Classifier

對於YOLOv,首先在 ImageNet上,每10 epoch就fine tune分類網路在448 x 448解析度。然後, fine tune所得到的檢測網路。這個高解析度分類網路給結果增加了近4% mAP。

2.2.4 帶Anchor box的卷積

借鑒了Faster R-CNN的anchor的思想,去除了全連接層,使用anchor box來預測bounding box。

步驟:

l 去除最後的池化,提高feature map的解析度

l 將輸入448x448變成416x416,目的是使得feature map的尺寸為奇數,那麼中心點的像素只有一個

l 使用卷積進行下採樣,得到13x13的feature map

l 類別預測從空間位置中解耦,由anchor box同時預測類別和坐標

2.2.5 Darknet-19

2.2.6 Dimension Cluster

使用先驗知識來進行anchor box的選取。在訓練數據集上對所有的bounding box進行k-means聚類,最終選取了5個anchor box。

2.2.7 Direct location prediction

2.2.8 Fine-Grained Features

高解析度的feature map—>4x 低解析度的feature maps

2.2.9 Multi-Scale Training

每迭代幾次都會改變網格參數。每10個Batch,網格會隨機地選擇一個新的圖片尺寸,由於使用了下採樣參數是32,所以不太的尺寸大小也會選擇為32的倍數{320,352,…,608},最小320x320,最大608x608,網格會自動改變尺寸,並繼續訓練。

2.2.10 Training for detection

去掉最後一層卷積,加3個3x3的卷積層,feature map數量為1000,再接一個1x1的卷積層,得到最後的輸出,每個位置5個bbox,4個坐標+1個置信度+20個class,一共125個feature maps。同時將最後一個3x3x512的layer,通過pass through加到最後一個3x3的卷積層,得到高解析度的特徵。

2.2.11 Hierarchical classification

2.2.12 Dataset combination with WordTree

2.2.13 Joint classification and detection

l 融合之後的類別有9418類

l 平衡COCO和ImageNet數據集,通過過採樣使得樣本比例為1:4

l 使用3個先驗anchor代替5個

l 設置IOU最小為0.3

l YOLO9000取得19.7mAP,在未學習過的156個分類數據上進行測試,mAP達到16.0

2.2.14 YOLOv2-Performance

2.3 YOLOv3

paper:arxiv.org/abs/1804.0276

2.3.1 Bounding Box Prediction

一個ground truth只匹配一個最好的anchor,其他anchor忽略,坐標和類別不產生loss,置信度產生loss。

2.3.2 Class Prediction

使用邏輯分類器(logistic classifier)替代softmax,多標籤的預測

2.3.3 Prediction Across Scales

在3個不同的尺度上進行bounding box的預測,每個尺度上進行3個anchor box的預測,對大的尺度使用小的anchorbox,對小的尺度使用大anchorbox。

2.3.4 Darknet-53

2.3.5 嘗試過但不起作用的Tricks

  • Anchor box x, y offset prediction
  • Linear x, y predictions instead of logistic
  • Focal loss
  • Dual IOU thresholds and truth assignment

2.4 SSD

homepage:github.com/weiliu89/caf

paper:arxiv.org/abs/1512.0232

2.4.1 SSD、Faster R-CNN和YOLO性能比較

Faster R-CNN速度太慢,YOLO mAP太低(形容的是YOLOv1),SSD又快又准,下面列出一組在Pascal VOC2007數據集上的測試結果

  • 59 FPSmAP 74.3% SSD(batch size 8, 46 FPS batchsize 1)
  • 7 FPS withmAP 73.2% Faster R-CNN
  • 45FPS withmAP 63.4% YOLO

2.4.2 SSD-Improvements

l 使用小卷積核預測類別和bbox

l 對於不同比例的檢測器使用不同的filter

l 多尺度預測

2.4.3 SSD-Framework

2.4.3 SSD-YOLO比較

2.4.4 SSD-Tricks

  • atrousconvolution(空洞卷積)
  • featurenormalization and scale
  • defaultbox的數量

2.4.5 SSD-Model

l Multi-scalefeature maps for detection:使用不同的尺度的feature map進行預測

l Convolutionalpredictors for detection:使用卷積進行預測(針對YOLO)

l Defaultboxes and aspect ratios:每個位置k個default box,每個default box包括4個坐標和c(類別數)個置信度,一共(c+4)k個輸出,k個default box使用不同的比例

2.4.6 SSD-Matching strategy

l 先匹配IOU最大的default box

l 剩下的default box中選取IOU > 0.5的進行匹配

l 一個ground truth可以匹配多個default box,但一個default box只能匹配一個ground truth

2.4.7 SSD-Training objective

Reference

[1] cnblogs.com/makefile/p/

2.4.7 SSD-Choosing scales andaspect ratios for default boxes

l 不同層的default box使用不同的尺度

l 同一層的default box有不同的比例{1,2,3,1/2,1/3}

2.4.8 SSD-Hard negative mining

對所有的負樣本按背景置信度進行排列,選取背景置信度小的作為負樣本,正負樣本比例1:3

2.4.9 SSD-Data augmentation

l Usethe entire original input image

l Samplea patch so that the minimum jaccard overlap with the objects is 0.1,0.3,

0.5, 0.7, or 0.9

l Randomlysample a patch

2.4.10 SSD-模型分析

l Dataaugmentation is crucial

l Moredefault box shapes is better

l Atrousis faster

l Multipleoutput layers at different resolutions is better

2.4.11 SSD-Performance

在Pascal VOC2007上測試的結果


3 成員介紹(排名不分先後)

1.H同學(國內某人工智慧科技公司演算法工程師,浙江大學博士)

2.M同學(國內某人工智慧科技公司演算法總監,法國蘭斯大學碩士)

3.R同學(國內某P2P金融公司演算法專家,中科院技物所博士)

4.F同學(國內某納斯達克上市互聯網公司演算法主管,中科院碩士)

5.L同學(國內某互聯網公司高級演算法工程師,同濟大學博士)

6.Z同學(國內某汽車集團公司演算法工程師,清華大學博士)

7.X同學(國際某汽車零部件公司,自動駕駛工程師,日本早稻田大學碩士)

8.W同學(生成對抗網路南京郵電大學碩士在讀)

9.C同學(計算機視覺,上海大學碩士在讀)


4 聯盟定位

F同學對聯盟的發展規劃及願景進行了展望。魔都AI聖戰者聯盟定位是非盈利性高端AI平台,平時會線下組織一些學術論壇/沙龍講座。


5 總結

魔都AI聖戰者聯盟第一次分享會暨成立大會順利召開,也完美落幕。聯盟成員參與度很高,體現了大家的積極態度。會議期間,每個人都分享了自己的經歷以及今後的發展方向,大家都受益匪淺。

特別感謝M演算法總監和R博士分別從工程和學術方向給大家帶來的專題講座。

在此,特別期待魔都AI聖戰者聯盟第三次會議的舉辦!


附: 魔都AI聖戰者聯盟英雄帖

入會要求:

1,AI行業從業人員或對AI有濃厚興趣者

2,原則上必須在上海或者周邊,能參加兩周或一個月一次在上海舉辦的分享會

3,原則上40周歲以下

(行業大牛不受2,3條限制)

入會流程:

1,提交簡歷

2,簡歷通過後,由聯盟原成員對其進行電話面試,主要考察其對神經網路基本概念、CNN或RNN、以及其他面試官認為其需要了解的知識點的熟悉程度

(註:AI行業從事具體演算法工作超過2年,或國內985高校及中科院、海外排名前500名高校的人工智慧、模式識別、計算機視覺等相關領域碩博可免於面試)

簡歷投遞郵箱:

AIinShanghai@126.com

我們熱烈期待你的加入!

-------我是可愛的分割線-------

若喜歡Amusi推送的文章,請掃描下方二維碼關注CVer公眾號!

weixin.qq.com/r/NioZAUb (二維碼自動識別)

-------我還是可愛的分割線-------

喜歡CVer的文章,一定動動手點贊哦!


推薦閱讀:

預告 | 星星之家4月10日公益沙龍內容
預告 | 星星之家4月5日公益沙龍內容
『遞答團』-【討論】關於上進心
這裡有一個讓你變成技術大牛的機會

TAG:人工智慧 | 深度學習DeepLearning | 沙龍 |