Deep Learning for Brain MRI Segmentation: State of the Art and Future Directions 論文筆記

Deep Learning for Brain MRI Segmentation: State of the Art and Future Directions 論文筆記

來自專欄語義分割刷怪進階4 人贊了文章

論文:Deep Learning for Brain MRI Segmentation: State of the Art and Future Directions

2017.08發表


Abstract

腦MRI的定量分析對於許多神經疾病和病症是常規的,並且依賴於對感興趣結構的準確分割。基於深度學習的腦部MRI分割方法由於其對大量數據的自學習和泛化能力而引起人們的興趣。隨著深度學習架構變得越來越成熟,它們逐漸超越了以前最先進的經典機器學習演算法。

本片論文旨在提供目前以深度學習為基礎的定量腦MRI分割方法的概述。

首先我們回顧一下目前用於分割解剖結構和腦部病變的深度學習架構。

接下來,對深度學習方法的性能,速度和屬性進行了總結和討論。

最後,給出了當前狀況的關鍵性評價,並且確定了可能的未來發展和趨勢。


Background

核磁共振成像(MRI)通常是進行結構性腦分析的重要方式:因為它可以拍攝出高對比度的軟組織和高解析度的空間圖像,並且不存在已知的健康風險。

雖然諸如計算機斷層掃描(CT)和正電子發射斷層掃描(PET)等模態也被用於研究大腦,但MRI是最受歡迎的,本文將重點放在MRI上。

腦MRI的定量分析已經被廣泛用於表徵諸如阿爾茨海默病,癲癇,精神分裂症,多發性硬化症(MS),癌症以及傳染病和退行性疾病等腦疾病。例如,診斷阿爾茨海默病,癲癇,精神分裂症,MS和許多其他神經疾病時,組織萎縮情況是用於診斷和評估治療效果的常用的生物標誌之一。為了量化組織萎縮,需要對腦組織進行分割和相應的測量。類似地,量化大腦結構的變化需要分割在不同時間點獲得的MRI

此外,對於診斷、手術計劃、術後分析和化療/放療等,對異常組織和周圍健康結構的檢測和精確定位也至關重要。對正常和病理結構,在空間和時間上進行定量和定性表徵常常是臨床的重要部分。

腦MR圖像的定量分析對於許多神經疾病和病症都是很重要的。分割2D中的像素(3D中的體素)是定量分析的關鍵組件。人工的手動分割體素獲得的結果稱作金標準。但是,這要求一層一層地進行(一個3D的MR圖像包含著連續的幾十甚至幾百張2D圖片),不僅標註起來昂貴且繁瑣,而且由於人為錯誤也存在著不準確。因此,需要自動化的分割方法來提供接近專業水準的標註。

隨著3D和4D成像逐漸成為常規,並且隨著生理和功能成像的不斷增加,醫學成像數據的尺寸和複雜性也在不斷增加。因此,開發有助於從這些大型數據集提取信息的工具是非常重要的。機器學習是一套演算法技術,可以使計算機系統從大數據中進行數據驅動的預測。這些技術有許多可以被應用到醫學領域。

經典的機器學習演算法在分割MRI中的正常(例如,白質和灰質)和異常腦組織(例如,腦腫瘤)方面已經進行了大量努力。但是,實現這種分割需要仔細的工程設計和專業知識。而且,傳統的機器學習演算法不能很好地推廣。儘管醫學影像學研究界付出了巨大的努力,但大腦結構的自動分割和異常檢測仍然是一個未解決的問題。這是由於腦部形態存在解剖變異,核磁共振成像掃描儀的不同,圖像採集的缺陷,病理學表現的異常等等原因造成的。

一種新興的機器學習技術被稱為深度學習,可以幫助避免經典機器學習演算法的局限性;並且其特徵的自學習方式,可以識別用於定量分析腦MRI的新的有用的成像特徵。深度學習技術在醫學圖像分析的許多領域越來越受歡迎,如計算機輔助乳腺病變檢測,計算機輔助診斷乳腺病變和肺結節,以及組織病理學診斷。在本次綜述中,我們提供了腦MR分割領域中最先進的深度學習技術的概述,並討論了深度學習技術可挖掘的潛力。


Deep Learning

深度學習指具有多層(通常多於五層)的神經網路,是一種可以從原始輸入圖像中提取有層次的特徵的結構。它是一種新流行起來的機器學習技術,其具有自??學習能力,可以從圖像中提取複雜的特徵層次,而不是像經典的機器學習演算法那樣需要手工設計特徵。通過大量數據進行訓練,它取得了令人矚目的成果和泛化性。GPU處理能力的快速增長也使得開發最先進的深度學習演算法成為可能。這允許了訓練具有數百萬圖像的深度學習演算法,並令其具有了魯棒性。

有多種類型的深度學習方法是針對不同目的而開發的,例如圖像中的對象檢測和分割,語音識別以及基因型/表現型檢測和疾病分類。一些已知的深度學習演算法是堆疊自編碼器,深玻爾茲曼機器,深度神經網路和卷積神經網路(CNN)。CNN是最常用的圖像分割和分類方法。

細胞神經網路最初是在1989年出現,但真正引起學界重視是由於深層神經網路在2012年ImageNet取得的矚目成績。包含1000個不同類別的大約一百萬個圖像的數據集,CNN幾乎將之前最佳方法的錯誤率減半。

CNN體系結構日益複雜,一些網路有超過100層的深度,這意味著神經元之間有數以百萬計的權重和數十億的連接。典型的CNN體??繫結構包含卷積,池化,激活和分類(完全連接)層。卷積層通過在輸入圖像上卷積來產生特徵映射。池化層通過使用定義的鄰域的最大值或平均值作為結果,傳遞到下一層,來下採樣先前卷積層的輸出。整流線性單元(ReLU)及其改良的版本例如Leaky ReLU是最常用的激活函數。正輸入值可以直接作為輸出傳遞,任何負輸入值ReLU會將其剪切為零來非線性地轉換數據。為了執行輸入數據的預測,將最終的CNN層的輸出分數連接到損失函數(例如,將分數歸一化為標籤上的多項分布的交叉熵損失)。最後,通過使用正則化約束將預測和金標準之間的損失函數達到最小化來找到網路的參數,並且在每次迭代中(例如使用隨機梯度下降-SGD)使用反向傳播來更新網路權重直到網路收斂(參見圖1)。

圖1 卷積神經網路(CNN)訓練過程的示意圖


Review

我們使用Google Scholar和NLM Pubmed搜索引擎對文獻進行了全面的分析。我們收錄了所有找到的同行評審的期刊出版物和會議記錄,描述了將深度學習應用於腦部MRI分割的文獻。由於大部分深度學習作品已先提交給了Arxiv(http://arxiv.org),此篇文章還包含了相關的Arxiv預印本。有後續期刊出版物的會議記錄只被列入最終出版物表格。

我們將論文分為兩組:正常結構和腦損傷結構。在這兩個群體中,不同的深度學習架構已被引入,以解決領域特定的挑戰。我們進一步根據他們的架構風格對其進行細分,例如patch-wise,semantic-wise或者cascaded架構

在以下小節中,我們將介紹評估(Validation)和驗證(Evaluation )方法,當前深度學習方法中使用的預處理方法,當前深度學習體系結構樣式以及用於量化腦結構和病變的深度學習演算法的性能。


Training, Validation and Evaluation

在機器學習領域,將數據分為訓練,驗證和測試集,以便從實例中學習,建立學習結果的正確性,並分別評估已開發演算法對不可見數據的泛化能力。

當數據有限時,優先使用交叉驗證方法(例如,one-leave out,fivefold或tenfold驗證)。在k倍交叉驗證中,數據被隨機分成k個相等大小的部分。保留k個部分中的一個作為用於測試演算法的驗證數據,剩下的k-1個部分用作訓練數據。訓練通常是通過監督的方式來完成的,這就需要金標準。通常通過手動劃分腦部病變或結構,由專家進行分割任務,從而獲得實際情況。儘管這是學習和評價的黃金標準,但這是一項繁瑣而費力的任務,並且包含著主觀性。

Mazzara等人(Brain tumor target volume determination for radiation treatment planning through automated MRI segmentation)報告,對於手動分割腦腫瘤圖像,國內專家(不知道是哪國,滑稽)也存有20 ± 15%的變化,國際專家有28 ± 12%的變化。為了減小這種變化,通過使用標籤融合演算法(STAPLE,Simultaneous truth and performance level estimation (STAPLE): An algorithm for the validation of image segmentation,A logarithmic opinion pool based STAPLE algorithm for the fusion of segmentations with associated reliability weights),多個專家的分割圖像被以最佳的方式被結合。對於腦部損傷的分類任務,標定過的真實數據通過活檢和病理檢查來得到。

為了評估新開發的深度學習方法在任務上的表現,必須將其性能與可用的現有技術方法進行比較。一般來說,大多數演算法都是在不同的數據集上進行評估,並報告了不同的相似性度量。這使得很難比較不同演算法的性能。在過去的十年中,大腦成像團體已經越來越意識到這一點,並創建了公開可用的數據集,並以公正的方式評估演算法的性能。

其中第一個這樣的數據集是在MS病變分割挑戰的框架內發布的,該挑戰與MICCAI 2008聯合進行。數據集作為在線挑戰數據集nitrc.org/projects/msse),訓練數據的ground truth是公開發表的,而測試數據集是在沒有ground truth的情況下發布的,因此只能由組織者評估。後者有助於避免過度擬合的方法,使結果更客觀。遵循相同的範式,從那以後,許多其他數據集已經被發布。腦部MRI的一些其他眾所周知的公開可用的數據集是腦部腫瘤分割(BRATS),缺血性中風病灶分割(ISLES),輕度創傷性腦損傷結果預測(mTOP),多發性硬化症分割(MSSEG),新生兒腦部分割NeoBrainS12)和MR腦圖像分割(MRBrainS)。

Brats

這個腦腫瘤圖像分割挑戰與MICCAI會議一起,自2012年以來每年舉行一次,以評估現在最好的腦部腫瘤分割方法,並且比較不同方法。為此,公開提供了腦腫瘤MR掃描和ground truth(五個標籤:腦部健康組織,壞死區,水腫區,腫瘤的加強和非加強區)的大數據集。訓練集每年都在增長。目前(Brats 2015-2016),訓練集包括220個等級子集和54個低等級子集,測試集包含53個混合子集。所有的數據集已被對齊到相同的解剖模板,並且被插值為1 mm 3的解析度。每個數據集包含增強前T1和增強後T1,T2,T2磁共振成像液體衰減反轉恢復序列MRI體素。可以通過虛資料庫(virtualskeleton.ch/)獲得聯合配准,頭骨分離,標註的訓練集和演算法的評估結果。

Isles

這個挑戰被組織來評估,在精確MRI掃描圖像中,中風病變及臨床結果預測。提供了包含大量的精確中風樣例和相關臨床參數的MRI掃描。聯合的被標記的真實數據是最終損傷的區域(任務一),用了3到9個月的跟蹤掃描來人工標記,和表示殘疾度的臨床mRM得分(任務二)。在ISLES2016比賽中,35個訓練集和40個測試集通過SMIR平台公開。(smir.ch/ISLES/Start2016). 亞急性缺血性卒中病變分割的獲勝者的演算法結果為0. 59±0.31(骰子相似性係數,DSC)和37.88±30.06(豪斯多夫距離,HD)。

MTOP

這一挑戰需要重點研究健康受試者與創傷性腦損傷(TBI)患者之間的差異,並以不受監督的方式對不同類別的給定數據進行分類。可以從tbichallenge.wordpress.com下載公開的MRI數據。

MSSEG

這一挑戰的目標是評估來自MS數據參與者的最先進和先進的分割方法。為此他們評估了在一個在多中心臨床資料庫(4個數據中心的38個病人,為1.5T或者3T的圖像,每個病人被7個專家手動標記)上的損傷區域檢測(多少個病變區被檢測出)和分割(被勾出的損傷區精確度如何)。除了這個經典的評估外,他們提供了一個共同的基礎設施來評價演算法,比如運行時間和自動化度的比較。數據可以從portal.fli-iam.irisa.fr獲得。

NeoBrainS12

NeoBrainS12挑戰的目的是通過使用腦部T1和T2的MRI圖像,來比較新生腦組織分割演算法和對應體積大小的測量。在以下結構比較:皮質和中央灰質,無髓有髓白質,腦幹和小腦,腦室和腦外間隙腦脊液。訓練數據包括兩個30周到40周大小的嬰兒的T1和T2MR圖像。測試集包括5個嬰兒的T1和T2 MRI圖像。已經提交給挑戰的演算法的數據和評估結果可以從neobrains12.isi.uu.nl/下載。

MRBrainS

MRBrainS評估框架的目的是比較腦部多序列(T1加權,T1加權反轉恢復,磁共振成像液體衰減反轉恢復序列,FLAIR)3T MRI圖像,灰質,白質,腦脊髓液的分割演算法。訓練集包括5個手動分割的腦部MRI圖像,測試集包括15份MRI圖像。數據可以從http://mrbrains13.isi.uu.nl下載。該數據集當前獲勝者演算法的性能(DSC)為:灰質86.15%,腦白質89.46%,腦脊液分割84.25%。

表格1 最常見的評估腦部MRI分割方法的定量方法

通常正常組織和腫瘤的分割方法包括每個像素度量(比如:骰子相似係數,真陽率,陽性預測值),病灶表面度量(比如:豪斯多夫距離,平均對稱面距離)。 另一方面,多灶性腦病變方法經常包括病灶度量(病灶真陽率,病灶陽性預測率)。精確度和特異性等方法在病灶分割內容面趨於避免使用,因為當病目標(灶)比背景(正常大腦組織)小很多時,這些方法不能區分不同的分割輸出。除此之外,通常還包括臨床相關性測量方法。這些方法包括總共的損傷區的相關性分析,自動或手動分割和體積或體積改變相關計數。顯著性檢驗通常伴隨著建立或比較其它方法,大多數是非常數檢驗,比如威爾科克森符號秩檢驗。


Image Preprocessing 圖像預處理

MR圖像的自動分析由於強度不均勻性,強度範圍和對比度的變化以及雜訊而具有挑戰性。因此,在自動分析之前,需要某些步驟來使圖像看起來更相似,這些步驟通常被稱為預處理。結構腦MRI的典型預處理步驟包括以下關鍵步驟。

配准Registration

配準是將圖像空間對齊到一個共同的解剖空間。病人圖像配准有助於將MR圖像標準化到立體空間,通常為MNI(加拿大蒙特利爾神經研究所)or ICBM(MNI和ICBM是一系列3D大腦模型)。Intrapatient病人間的配准旨在對齊不同序列的圖像,例如T1和T2,以獲得腦內每個位置的多通道表示。

頭骨剝離Skull Stripping

顱骨剝離是將頭骨從圖像中去除,目的是將注意力集中在頭顱中間的組織。用於此目的的最常見的方法已被BET,ROBEX,和SPM 。

偏移場校正Bias Field Correction

偏移場校正是由於磁場不均勻性引起的圖像對比度變化的校正。最常用的方法是N4偏場校正。

灰度標準化Intensity Normalization

灰度標準化是將所有圖像的灰度映射到一個標準或基準標度(例如0和4095之間)的過程。由Nul等人的演算法,它將圖像灰度按像素線性映射到基準,是最流行的規範化技術之一。在深度學習框架的背景下,計算z-scores(從圖像中的所有像素中減去平均圖像強度,並將像素除以灰度的標準偏差)是另一種常用的歸一化技術。

降噪Noise Reduction

降噪是減小MR圖像中局部變異的Rician雜訊的過程。

隨著深度學習技術的出現,一些預處理步驟對於最終分割性能而言變得不太重要。例如,偏差校正和基於分位數的灰度歸一化通常由z-score單獨代替; 然而,另一項工作顯:在應用深度學習之前進行歸一化會對結果有提高。與此同時,這些預處理程序的新方法也正在出現,包括基於深度學習的校準,頭骨剝離和降噪。


Current CNN Architecture Styles 目前的CNN架構風格

1、Patch-Wise CNN架構(按塊訓練的CNN架構)

這是一種簡單的方法,訓練CNN演算法用於分割。從給定的圖像中提取每個像素周圍的NxN大小的圖片塊,用這些圖片塊訓練模型,並給出類別標籤以正確識別正常腦和腫瘤等類。所設計的網路依次包含多個卷積,激活函數,池化和全連接層。大多數目前流行的體系結構都使用這種方法。為了提高按塊訓練框架的性能,多尺度CNN可以使用多個路徑,每個路徑使用同一像素周圍不同大小的patch。這些途徑的輸出被一個神經網路結合起來,並訓練模型來正確地識別給定的類別標籤。

2、Semantic-Wise CNN Architecture(按語義訓練的CNN架構)

這種類型的結構對輸入的整張圖像的每個像素進行預測,像語義分割一樣。類似於自編碼器,它們包括編碼部分(提取特徵)和解碼部分(降採樣或反卷積從編碼器得到的高維特徵,組合從編碼器部分得到的低維特徵)。通過最小化損失函數的方式將輸入圖片映射到分割標籤。

3、Cascaded CNN Architecture(級聯CNN架構)

這種架構結合了兩個CNN架構。第一個CNN的輸出被用作第二個CNN的輸入以獲得分類結果。第一個CNN用於訓練模型,得到初始預測類別標籤,第二個CNN用於進一步更深的調整第一個CNN的結果。


Segmentation of Normal Brain Structure 正常大腦結構的分割

Segmentation of Brain Lesions 腦損傷的分割

他人論文總結,這塊內容還是直接看論文吧


Discussion 討論

近期的進展表明深度學習技術在定量腦MR圖像分析領域具有重大的潛力。儘管最近才將深度學習方法應用於腦部MRI,但它們傾向於超越先前的經典機器學習演算法,並且正變得更加成熟。由於複雜的腦解剖結構和它表現的多樣性,由於成像協議的不同而導致的非標準的MR灰度,圖像採集的缺陷,病理的從存在,對於計算機輔助技術,腦圖象分析一直是一個巨大的挑戰。因此,需要更多的泛化技術,如深度學習,來處理這些變化。

儘管取得了重大突破,但深度學習的潛力仍被限制,與他們在大規模數據集上所展示的能力相比(數百萬例的圖像,如ImageNet),因為醫學成像數據集相對較小,限制了這些方法顯示其全部能力的能力。雖然一些作者說,他們的框架,只需要一個訓練樣本,但大多數研究人員說他們的研究結果隨著數據集的增加而穩定提高。深度學習方法的有效應用對大規模數據集有很高的需求。或者,通過對原始數據進行隨機變換(例如翻轉,旋轉,平移和變形),可以有效地增加數據集的大小。這在機器學習中是常用的,被稱為數據增強。數據增加有助於增加訓練樣例的大小,並通過對原始數據引入隨機變化來減少過擬合。多個研究報告指出數據增強在他們的研究中非常有用。

為了提高深度學習方法,一些步驟是非常重要的,包括,數據預處理,數據後處理,網路權重初始化,阻止過擬合。

圖像預處理在學習中起著關鍵的作用。目前的研究已經應用了多重數據預處理步驟來改善學習過程,如2.5和2.6節所示。比如,使得輸入腦部MR圖像灰度在同一個參考比例,並且對對每種形態進行正則化。這避免了在輸出模型中由於任何modality和灰度的不同而使得結構的真正pattern被抑制。

模型輸出的後處理也是細化分割結果的重要步驟。任何學習方法的目標都是得到一個完美的預測,但圖像中總是存在一些區域會有不同類組織的重疊,稱為局部體積效應,不可避免地會導致假陽性或假陰性。這些區域需要額外的處理才能準確量化。

另一個重要步驟是在神經網路中進行適當的網路參數初始化,以保持通過網路的梯度流動,以便於網路收斂。否則,激活和梯度流動就會消失,導致不收斂和不學習。在目前的大部分研究中已經使用隨機加權初始化。

最後,阻止過擬合對於學習圖像中的真實信息至關重要,避免提供的特定的訓練集過擬合。深度網路特別容易過擬合,因為在網路中使用了數千或數百萬個參數,但只有有限的訓練數據可用。已經出現了幾種策略來防止過度擬合,例如引入隨機變化(random variations )來進行數據增強,使用dropout在訓練中隨機去掉網路節點和引入L1 / L2正則化。在當前的深度學習架構中,這些策略中的一個或多個被用於防止過擬合。

Semantic-wise架構接受任意大小的輸入數據,並生成一個分類圖,而patch-wise CNN體系結構則採用固定大小的輸入併產生非空間輸出。因此,semantic-wise架構對圖像的每個像素產生預測結果比patch-wise架構更快。如FCN論文中,semantic-wise的FCN架構從500×500大小的輸入圖像到產生10×10格的輸出需要22ms,相比於patch-wise的AlexNet來推斷227×227圖像的單值分類輸出,FCN的計算速度提高了5倍以上(22毫秒對120毫秒)。

另一方面,隨機採樣數據集上的patch可能會導致收斂速度更快(LeCun et al,1998),而semantic-wise體系結構中使用全圖像訓練比較快。Semantic-wise架構易受類別不平衡影響,但這可以通過在損失函數中加權類來解決。Cascaded級聯體系結構中,使用patch-wise架構加一個semantic架構,將解決每種方法引發的問題,並優化輸出結果。

由於有限的訓練數據和有標籤的數據,圖像採集協議的不同,每個MRI採集器的不完美,健康和病理腦組織的表現不同,開發一種適用於來自不同機器和機構的數據集的通用深度學習方法是具有挑戰性的。到目前為止,目前可用的方法都是隨機初始化,並訓練有限的數據。為了提高深度學習架構的泛化能力,我們可以採用一個在大數據集上訓練良好的深度學習網路,並在特定於某個問題的較小數據集上對網路進行微調,這就是所謂的遷移學習已經表明,將預訓練的好的具有一般性網路的權重轉移到新網路,然後在特定數據集上訓練的效果比隨機初始化網路權重要好。轉移學習的有用性和成功取決於數據集之間的相似性。例如,使用來自大型RGB圖像資料庫訓練的ImageNet的預訓練模型,可能在沒有進一步訓練的情況下在醫學圖像上表現不佳。Shin等人報告說,他們已經使用拿ImageNet預訓練的模型,使用遷移學習並通過在淋巴結和肺間質疾病微調,而不是從頭開始訓練,獲得了最好的結果。另一方面,ImageNet數據集的性質與醫學圖像數據集有很大不同,因此從ImageNet轉移學習可能不是醫學圖像的最佳選擇。


Summary 總結

儘管深度學習技術在定量腦MRI中具有顯著的影響,但是對於不同機構和MRI掃描儀的腦MR圖像的所有變化都具有強大通用能力的方法仍然具有挑戰性。深度學習方法的表現在很大程度上取決於預處理,初始化和後處理等幾個關鍵步驟。而且,與大規模ImageNet數據集(例如數百萬個圖像)相比,訓練數據集相對較小難以實現跨數據集的泛化。而且,目前的深度學習架構是基於監督式學習的,需要手工標記真實標籤,這對於大規模的數據是一項繁瑣的工作。因此,需要對腦部MRI不同類型具有魯棒性,或者具有要求少量有標記數據的非監督學習能力的深度學習模型。另外,數據增強方法可以模擬腦部MRI數據的變化,從而可以減少對大量數據的需求。遷移學習可以用來在大腦成像研究中共享表現良好的深度學習模型,這些模型是在正常和病態的腦部MRI數據上進行訓練的,並且比從零開始學習更省力,提高了這些模型在數據集上的泛化能力。


推薦閱讀:

X光、CT、磁共振,檢查越貴越好?那你就錯了!
二甲亞碸衍生聚合物接枝的鐵氧化物納米顆粒

TAG:深度學習DeepLearning | 核磁共振成像 | 圖像分割 |