請各位前輩解讀一下SenseTime最新文章PSPNet?

01-09

85.4% on PASCAL VOC 2012 and 80.2% on Cityscapes.
傳送門：[1612.01105] Pyramid Scene Parsing Network

新手，正在讀paper，路過的前輩有興趣提點一下？

目前在學習PyTorch和Segmentation，想復現一下PSPNet，請教過文章作者的一些細節，有些文章中沒有詳細地強調，ResNet dilation做了最後兩個levels，PSP部分的lr是pretrain部分的10倍，auxilary loss目前還沒有加正確。目前ADE20K上用ResNet50結果: pixAcc78.3%，mIoU38.0%。和文中report的結果小有差距，歡迎大家提建議和討論復現細節。

%%%%%

一直忘了修改這個回答，後來實現了Synchronized BatchNorm，在ADE20K上達到了40% mIoU，和原paper比還差了一點，應該是他們用的自己的base network比較強一點

貼一下自己的一篇文章吧，其中有一些關於PSPNet的內容，希望有用~

[圖像語義分割之特徵整合和結構預測](https://zhuanlan.zhihu.com/p/25515361?utm_source=wechat_sessionutm_medium=socialfrom=singlemessage)

讀過paper也試過他們的代碼（hszhao/PSPNet），談下感受：

（1）他們用的resnet結構改過幾處，不是原來的resnet-101，這個在paper里沒有提到；

（2）paper沒有列cityscapes和pascal VOC的ablation study，目前我把PSP加到自己的網路上完全看不到提升。非常希望他們能提供initializatoin model跟training script，這樣大家才有可能驗證PSP這個結構是不是真的有用；

關注pspnet很久了，也跟作者多次通信。我只想說，pspsnet中的坑比大多數paper都要多很多很多，沒有作者本人的training code估計是復現不出來的。從base model到learning rate，從data augmentation到batch normalization，到處都是一些trick，其paper思想本身到底能提升多少performance變得撲朔迷離。

另外，pspnet的發表者還不能確定是sensetime的，畢竟都是學生，沒帶sensetime的郵箱，似乎也沒湯教授署名。

嘗試過deeplabv3和pspnet，感覺都是坑，和deeplabv2不相上下

deeplabv3不知道有沒有復現的貌似簡單很多但是並不能train出來