乳腺分割 Classification of breast cancer histology images using transfer learning 閱讀筆記

Classification of breast cancer histology images using transfer learning

一、數據集:

BACH 2018 grand challenge

(ICIAR 2018 Grand Challenge on BreAst Cancer Histology images)

iciar2018-challenge.grand-challenge.org

其實算得上Camelyon 16和17 的後繼版本。

所不同的是,camelyon 16的數據只有WSI(whole slide images),比賽有兩個任務,分別是WSI分類(是否含有腫瘤)和腫瘤位置的定位。總體來說是二類任務的分類與分割。camelyon 17 數據與16有相似之處,任務也不同,不再贅述,感興趣可以去官網看看。

BACH也有兩個任務,第一個任務是相對比較小的圖片的四個階段的分類,第二個任務是WSI中不同階段的定位(算是四類的分割)。

BACH中第二個任務的圖片解析度極高,本文沒有涉及。本文所涉及的第一個任務的圖片尺寸為2048*1536 pixels(論文中寫的是2040*1536,我去官網看了一下,應該是2048)。訓練圖片分為四類normal,benign,in situ caicinoma, invasive carcinoma。每個類別有100張圖片。(這四百張其實是官方放出來的訓練數據,後續還公布了測試數據,只是作者沒有使用。)官網競賽結果已經出來了,官網即可查看。本文的結果只是訓練集上的結果。

作者採用train:validation:test = 60:20:20 的比例來隨機劃分每類圖片。

二、預處理

1.染色歸一化:

訓練圖片均為Hematoxylin和Eosin染色再由光學顯微鏡呈現,所以色彩上會有一定的差異。需要歸一化來校正載玻片製備過程中產生的誤差。

以往的論文也會採用歸一化的手段來處理色彩差異,本文採用了不一樣的歸一化方式,呈現出的效果的確不錯,不知道最後的好結果是不是與特定的歸一化手段有關。作者關於歸一化方法是這麼說的:

In this paper, we used the approach proposed by Reinhard et al. [11] which matches the statistics of color histograms of a source and target image, following transformation of the RGB images to the de-correlated LAB color space.

其中所涉及是這篇文章:

Reinhard, E., Adhikhmin, M., Gooch, B., Shirley, P.: Color transfer between im- ages. IEEE Computer Graphics and Applications 21(5) (Sep 2001) 34-41

2. 其他處理:

由於2018*1536對於訓練來說還是過大,而每張圖片只有一個標籤。裁剪過大沒有減少網路的負載,而裁剪尺寸過小則有可能不包含標籤所指定的這一類,通常我們只有看到較大範圍的信息才能確定類別。作者選擇了50%重疊(overlap)的512*512進行裁剪。也就是,每張圖片35patches,共14000patches。標籤(label)仍然使用原圖的標籤。

每個patch同時採用旋轉(90、180、270)+ 鏡像翻轉(水平,垂直),相當於原來6倍的數據量。原來320訓練數據,現在67200訓練數據。測試集依然是80張(沒有裁剪和變換),測試集的重疊部分採用投票機制。

三、網路結構

作者使用了Google的Inception V3 和 ResNet50,使用了他們在ImageNet預訓練的參數進行fine-tune(這就是作者所說的遷移學習)。針對上述的兩個網路,作者都做了些許的改動,比如V3,作者去掉了末尾五層,增加了average global pooling,fc,softmax。ResNet50也做相應的改變。據作者說,他是想獲得全局的信息來判斷。

網路配置:SGD,batch_size=32, lr = 0.0001, momentum = 0.9

四、結果

評測指標:accuracy準確率=正確/總數 (作者分別計算了patch和全圖的準確率)

官網對於該任務的評測指標也是accuracy

作者也給出了ROC曲線,官網並沒有這個指標,但是ROC確實是醫學圖像分類常見的指標。

個人評價:

1、歸一化的部分我還需要再仔細研究一下來驗證其效果。

2、遷移學習,創新性不強,算得上baseline,同時缺乏比較。可能就是因為看起來思路過於簡單了。

3、訓練集結果過高,反觀官網給出的測試結果最高只有0.87,作者這個是否有過擬合的嫌疑有待考證。

4、數據很新,又沒有用測試集,僅僅在訓練集用了一種劃分產生了的結果很難有說服力。可能這種情況交叉驗證會好一些。但是本文創新性不夠,也沒啥可比較的……如果用了交叉驗證,別人也好和你比一比,現在這種隨機劃分一次,別人復現不出來也不好說什麼……

5、改變了網路末尾的結構只給了作者自己的想法,並沒有用實驗證明修改的正確性(感覺是硬傷)。

6、以上純屬個人瞎嘮叨,說錯了別打我。還是去看看染色歸一化吧(這數據看起來差異還真挺大的)。


推薦閱讀:

TAG:癌症 | 乳腺癌 | 深度學習(DeepLearning) |