請各位前輩解讀一下SenseTime最新文章PSPNet?

85.4% on PASCAL VOC 2012 and 80.2% on Cityscapes.

傳送門:[1612.01105] Pyramid Scene Parsing Network

新手,正在讀paper,路過的前輩有興趣提點一下?


目前在學習PyTorch和Segmentation,想復現一下PSPNet,請教過文章作者的一些細節,有些文章中沒有詳細地強調,ResNet dilation做了最後兩個levels,PSP部分的lr是pretrain部分的10倍,auxilary loss目前還沒有加正確。目前ADE20K上用ResNet50結果: pixAcc78.3%,mIoU38.0%。和文中report的結果小有差距,歡迎大家提建議和討論復現細節。

%%%%%

一直忘了修改這個回答,後來實現了Synchronized BatchNorm,在ADE20K上達到了40% mIoU,和原paper比還差了一點,應該是他們用的自己的base network比較強一點


貼一下自己的一篇文章吧,其中有一些關於PSPNet的內容,希望有用~

[圖像語義分割之特徵整合和結構預測](https://zhuanlan.zhihu.com/p/25515361?utm_source=wechat_sessionutm_medium=socialfrom=singlemessage)


讀過paper也試過他們的代碼(hszhao/PSPNet),談下感受:

(1)他們用的resnet結構改過幾處,不是原來的resnet-101,這個在paper里沒有提到;

(2)paper沒有列cityscapes和pascal VOC的ablation study,目前我把PSP加到自己的網路上完全看不到提升。非常希望他們能提供initializatoin model跟training script,這樣大家才有可能驗證PSP這個結構是不是真的有用;


關注pspnet很久了,也跟作者多次通信。我只想說,pspsnet中的坑比大多數paper都要多很多很多,沒有作者本人的training code估計是復現不出來的。從base model到learning rate,從data augmentation到batch normalization,到處都是一些trick,其paper思想本身到底能提升多少performance變得撲朔迷離。

另外,pspnet的發表者還不能確定是sensetime的,畢竟都是學生,沒帶sensetime的郵箱,似乎也沒湯教授署名。


嘗試過deeplabv3和pspnet,感覺都是坑,和deeplabv2不相上下


deeplabv3不知道有沒有復現的 貌似簡單很多 但是並不能train出來


推薦閱讀:

做為一位想發論文的機器視覺本科生,格靈深瞳,Face++,sensetime,哪個更適合去實習?
如何評價商湯科技宣布獲得獲1.2億美元融資,鼎暉、萬達投資人工智慧?
商湯科技(SenseTime) 這家公司怎樣?

TAG:計算機視覺 | 深度學習DeepLearning | SenseTime |