深度圖像depth image作為CNN卷積神經網路的輸入層有什麼技巧?選用什麼網路模型能取得好效果?

如題,深度圖像(depth image)作為CNN卷積神經網路的輸入層,做一些物體識別/行人識別的深度學習應用,有什麼預處理的技巧嗎?選用什麼網路模型比較好?比如RCNN?SSD?


正好處理過這個方向的任務,強答一波。

首先常見的預處理方式就是先將深度圖數據歸一化到 0 to 255 的範圍,然後在finetune model的時候會遇到問題就是基本上現有的model都是3 channel的,那麼你自己finetune的時候還要對模型進行預處理,http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Molchanov_Online_Detection_and_CVPR_2016_paper.pdf CVPR2016的這篇文章用到了深度圖信息,它的處理方式是將第一個卷積層三個channel的weight求和然後得到一個channel作為depth的卷積kennel,這篇文章是nvida的,公司一般不公布源碼,我們跟作者發eamil回復竟然是相信我們有能力復現paper 233,使用的是3DCNN,樓主可以看一下,代碼能力強的話記得github地址走一波,最近轉到了tensorflow。

另一篇CVPR2016的文章Towards Good Practices ...沒有處理深度圖,但是處理了optical flow圖,也用了類似的方法,他使用的方法是對原始的三個channel取平均值,然後對你的任務每個channel上都使用該平均值來作為卷積channel的值。

上文作者是港中文CV實驗室的,代碼地址:yjxiong/temporal-segment-networks caffe代碼,很清晰。就是跑原始資料庫很吃GPU,祭出我們實驗室的tesla K40 無壓力233

網路模型的話你說的 RCNN和SSD以及你可能想說的YOLO,FCN,R-FCN都是檢測流的網路結構,使用 depth image作為CNN卷積神經網路的輸入層的話網路結構還是傳統的VGG16或者GoogleNet比較強勁,目前看到的最好性能還是inception V3,主要是network in network加上1*1卷積核的功勞吧,膜拜google大神。

建議樓主讀一些相關的paper,會有較深的理解。


為啥有這麼多dl的問題問我... ...

我是搞關聯規則挖掘的阿,

只是稍稍了解一點神經網路。


推薦閱讀:

Pytorch如何自定義損失函數(Loss Function)?
Krizhevsky等人是怎麼想到在CNN里用Dropout和ReLu的?
卷積神經網路提取圖像特徵時具有旋轉不變性嗎?
請問各位大大現在的放療計劃系統在做自動化計劃時用的是神經網路嗎?

TAG:圖像處理 | 機器學習 | 物體識別 | 深度學習DeepLearning | 卷積神經網路CNN |