Module 29: 多重比較(二)
筆記來自於一個已被原課程授權的公益性mooc筆記製作小組,詳情請見專欄索引
請注意:可以轉載我們的筆記,但必須要註明出處:摘自知乎專欄「原來大腦是這麼工作的」專欄!並且附上原網址。如果你也想加入我們的筆記小組,就私信給@萌康 或者 @李競捷 吧~~~
PS 原課程網址為Coursera <Principles of fMRI 1>
筆記配上視頻課程更佳哦~~~兩個教授都超級萌的(捂臉)
Module29 陷阱和多重比較
這是fMRI1的最後一節課,我們繼續來講多重比較的問題,主要是講一些新的做法和容易犯錯的地方。
以下我們用一些模擬圖像來說明這些問題。
我們看圖1:
圖1 模擬圖像
第一排表示信號,其中每個大方形中的白色方形是我們想要的信號,周圍的黑色則表示非信號。
第二排表示一些隨機的雜訊。
第三排才是我們實際中經常看到的圖像,即信號與雜訊混雜在一起的圖像。在方形內部是我們想要看到的陽性結果,而方形外面則是我們不想要的陰性結果。所以像第一排這樣子的只是完美的理想狀態而已。
所以這裡我們至少要記住:白色即是信號,非白色即是雜訊。
這樣我們可以接著來看三種不同的多重比較校正了。
圖2 三種多重比較校正
第一排是α=0.10的無校正圖像,我們可以看到其中獲取了大多數的信號(白色方形),這是很好的結果。但我們也能看到白色方形外面其實還很複雜,那些是假陽性,是不好的結果。
第二排:當我們把族錯誤率(FWER)控制在10%時,這樣多重比較後的p值是低於0.10的,因此我們應該能夠看到其中十分之一的圖像會表現出假陽性,確實,第二排的第7個圖像就表現出了假陽性,因為它在激活區域外面有著一些顯著的激活(紅圈圈住的白點)。但事實上,很多真正的激活我們卻沒有看到,所以我們有很多的假陰性,即在小方形內部有很多黑點。
第三排是接受了10%假髮現率(FDR)控制的圖像,在這裡我們應該會發現其中十分之一的假陽性結果。結果如我們預期,我們在敏感性高的方形中發現了大多數的陽性結果,同時也存在一些假陽性,但也沒有多到無法接受的地步,所以總的來說這是一個比較均衡的結果。而圖像下方的數字表示每幅圖像的實際假髮現率(激活體素中假陽性的比例)。我們在控制假髮現率時想得很美好,但實際上每幅圖像的假髮現率都是不一樣的。
(現實總是辣么骨感┑( ̄Дn ̄)┍)
我們如何校正多重比較和採用怎樣的標準完全是取決於我們自己的,但我們在實際處理圖像時,FDR則應用得非常多,因為它比FWER更敏感,這對於有限的樣本數量來說是很重要的,但即使是對於有限的樣本數量,它仍然可以有效地控制假陽性率。
一個最近在發展的方法是簇級推斷(Cluster-level Inference),這種方法已經有幾種軟體包可以做了。
簇級推斷包含兩個步驟:
-設定一個任意的閾值作為簇定義閾值(uclus);
-保留大於α閾值(kα)的簇(K是我們需要的簇的數量),這裡我們就得出了簇大小的參數。
以上的步驟可以用下面的一維圖表示:
圖3 簇級推斷示意圖
我們可以看到一條一維的帶(band),紅色線表示鄰近體素統計(contiguous voxels statistics)(t統計或別的統計方法)。圖中有2個我們感興趣的地方(綠色部分),第一個是左邊的高峰,此處的t值很大,因此這些肯定有很多真正的激活,但這個區域是比較窄的。第二個是右邊的區域,這裡統計值不是很大,但有著很多數值升高的鄰近體素。
而圖中黑色線是我們設置的簇定義閾值,然後我們看閾上的簇有哪些。在左邊,我們看到只有為數不多的一些體素高於閾值,這可能還沒到達臨界點,所以這不是一個顯著的簇。而在右邊,雖然統計值並沒有那麼高,但區域很大,因此這就高於我們設置的閾限,成為一個顯著的簇。
總結一下,簇級推斷的優點在於通常來說有著更高的敏感性,尤其是對於較弱的分布信號,更容易檢測到激活;而其缺點在於空間特異性較差,就是無法指出激活的體素位於哪裡。舉個栗子,如果我說這個簇恰好比我預期的要更大一些,你先想想我們的虛無假設是什麼?H0是在簇中有信號存在。而我只能說這個可能性高於隨機水平,意思是至少有一個或更多的體素有著真正的信號。但我仍然不知道這些激活的體素在哪裡,我只能說這是一大團東西,卻說不出激活在哪裡。
另一個正在發展的方法叫做threshold-free cluster enhancement(TFCE),這是一種結合強度(intensity)(t統計值有多大)和空間擴展度(spatial extensity)(有多少個體素)這兩者的信息並整合為一體的方法,或者說這種方法結合了簇的大小和強度的信息。因此,TFCE演算法是把統計值大小的積分乘以其閾上的面積,這裡的閾值可能是有好幾個的。這種方法現在可以在FSL的隨機工具包中找到,並且應用得越來越廣泛。
圖4 TFCE方法
下圖統計了超過800篇在頂尖雜誌發表的論文的校正使用情況:
我們可以看到,75%的人使用的是基於簇的校正,因為其敏感性更好。6%的人並沒有使用校正,實際中可能有更多的人同樣沒使用校正或者用了不適當的校正閾限。19%的人使用的是基於體素的校正,如FWER或FDR校正等。
第二部分我們來講一下在多重比較及其校正中的陷阱,比如在使用未校正閾限和基於簇的校正時容易犯的錯誤(pitfalls)。
很多已經發表的PET和fMRI研究使用的都是比較主觀的未校正的閾值(如p<0.001),人們之所以喜歡用這樣的閾值是因為這樣的閾值其敏感性更高,另一個原因是他們的樣本量通常都比較小,如果你用了FWER校正的話,可能結果都不顯著了。
但未校正的閾值確實會帶來一些問題。一是當我們在解釋這些結果時,許多激活的區域可能是假陽性的。二是建立在虛無假設上的發現是較難向外傳播的,因此你很難去辯駁這些研究中的假陽性。因此如果某人說這個區域在閾值0.001上有激活,可能別人在這個閾值上卻什麼都發現不了,但卻沒有人關注到這一點。
人們常用的一種方法是使用主觀的閾值,比如說我可能會用未校正0.001作為閾值來得到一幅圖像,我可能會認為有10個及以上鄰近體素激活的簇是顯著的。乍一看,這好像挺有道理的,試想10個體素一起激活的概率有多大?你以為這很小嗎?但不幸的是,這個概率還挺大的。而且你要知道我們的圖像時經過空間平滑的,所以在簇中可能會出現假陽性。這概率挺大的是為什麼呢?我用下圖告訴你原因:
圖5 模擬的激活圖
這個模擬圖雖然是模擬的,但跟我們實際中的大腦激活圖其實是差不多的,其中的雜訊在空間上是相關的。我們可以看到在α=0.01的圖中有很多的假陽性,而在α=0.001的圖中的假陽性則更少一些。值得我們注意的是,假陽性並不是單個體素上的,它們是一塊塊鄰近體素上的。因此如果某個體素恰好表現出了假陽性,其他鄰近的體素也會跟著表現出假陽性,也就是說這些體素並不是一一獨立的(Forman et al., 1995)。所以說使用主觀的閾值是不恰當的,這樣並沒有對多重比較做出任何的校正(你很有可能看到的是假激活(>﹏<))。如果說有理由這樣子做的話,是為了在假陽性和假陰性中做出權衡,但這不涉及FWER。
這一部分可以參考:e.g. Wager, Lindquist, & Hernandez, 2009. 「Essentialsnof functional neuroimaging.」In: Handbook of Neuroscience for the Behavioral Sciences.
接下來我們要講的是基於簇的校正時容易犯的錯誤。
下圖是對於那些使用了基於簇的校正方法的論文中,人們都在用哪些簇定義閾值的統計:
比如說我可能一開始會用p<0.01或p<0.001,然後看在閾上的簇有多大,你能從圖中看到的是在這些主流軟體中人們使用的閾值是軟體默認的,像黃色條就是人們用FSL的情況,此時人們通常用的是p<0.01,這是FSL默認的。如果人們用的是SPM(這是應用最廣泛的軟體),最通常用的就是p<0.001,因為這是軟體的默認設置。
所以說人們用怎樣的閾值用怎樣的方法其實是基於他們主觀的,想用怎樣的軟體就用怎樣的軟體,而不同的軟體又導致你使用不同的方法和閾值。
那麼如果在不同的腦區使用這些默認的閾值會怎樣呢?我們來看一下:
圖6 疼痛感的激活圖
上圖是關於疼痛感的激活圖,如果我們用p<0.01,就得出上圖。這個激活圖的結果很好,得到了很多的關於疼痛的區域,有很多的激活。但我們仔細一看,只有2個鄰近激活的簇,即圖中的藍色區域和橙色區域。那麼我們能得出什麼結論呢?我們很想說這些區域都激活了,但這樣子的推斷卻是錯誤的。事實上我們能夠說的是,在每個簇中至少有一個體素是顯著激活的。所以我只能說我們在丘腦(thalamus)或腦島(insular)或前額葉(PFC)或感覺運動皮層(sensory motor cortex)中得到了激活(藍色部分),但我不知道到底是在哪裡。n所以說這樣推斷就不算是什麼推斷了。那這樣就變成了一個大問題了,因為我們做fMRI就是在定位腦區的激活位置嘛(┑( ̄Дn ̄)┍)。
下圖是一些基於簇的閾值所帶來的問題:
圖7 基於簇的閾值所帶來的問題
首先,在圖的左邊是顯著激活的簇的大小,如果我們用p<0.01,我們常常會得到非特異性(大多數研究結果都比通常的解剖區域更大一些),所以我們在前面指出的問題是經常都會發生的,導致我們無法做出有效地推斷。
其次,如果我們想要解釋激活圖中的每一個激活的體素,我可能會too young too naive興奮得亂叫:「嗷,看這些區域,它們真的激活了耶!
那我的臉可能已經腫了。(( ̄ε(# ̄)☆╰╮( ̄▽ ̄///))因為這些區域並不一定真的就激活了,我們並沒有考慮其中的假髮現率。正如我們的模擬中一樣,在激活圖中可能有45%-70%的激活體素並不是真的激活了的,假髮現率是很高的。
最後一個要強調的是假髮現率的問題。從技術層面來說,當你設置了很低的閾值時,FWER的控制效果並不好(想知道原因的同學可以自行去搜索「INAUDIBLE」場理論的機制)。
所以,如果你想要的是FWER校正的p<0.05,那麼實際上你得到閾值的並不是0.05。而在這裡,你可以看到當默認閾值是0.01時,那麼假陽性比率是比較高的,當默認閾值是0.001甚至更低時,FWER校正效果才是比較好的。所以閾值設置為0.01-0.001中的哪個位置是取決於你的數據的特點的,但至少把p設置為低於0.001是比較好的做法。
另外,你應該設置一個閾限,使得激活不會延伸到多個區域上,這樣得出的結果才是可以解釋的。
最後總結一下,這節課我們講了:
1.幾種多重比較方法(multiple comparisonnmethods):
-未校正;
-FEW
-FDR
-基於簇的校正(FWE, FDR)
2.一些易犯的錯誤(pitfalls):
-未校正的閾限
-基於簇的閾限
以上就是這節課的全部內容啦,至今我們簡單介紹了實驗設計的許多方面、物理學原理、圖像獲取和數據分析,所以你應該對fMRI實驗有了一個全面基本的了解,知道如何解釋這些結果。(如果還不會的話趕緊回去再看一遍!)
(如果你從module1 一直看到這裡,恭喜你達成「征服 Principle of fMRI 1」的成就!撒花~~~)
如果覺得我們做得不錯的話,請動動手指給我們點個贊啦么么噠~~~
我們也不容易呢(捂臉)
推薦閱讀:
※筆記の筆記---如何不糾結計算過程來理解SVM
※重度抑鬱的我為什麼總覺得做啥都不會快樂?
※怎樣一張臉才算好看
※明明是悲傷的音樂,你卻在享受什麼?
TAG:Coursera | fMRI功能性磁共振成像 | 认知神经科学 |