Module 22:GLM推斷和T檢驗
筆記來自於一個已被原課程授權的公益性mooc筆記製作小組,詳情請見專欄索引
請注意:可以轉載我們的筆記,但必須要註明出處:摘自知乎專欄「原來大腦是這麼工作的」專欄!並且附上原網址。如果你也想加入我們的筆記小組,就私信給@萌康 或者 @李競捷 吧~~~
PS 原課程網址為Coursera <Principles of fMRI 1>
筆記配上視頻課程更佳哦~~~兩個教授都超級萌的(捂臉)
在week3的最後一節課,我們要講的是在GLM框架內進行的推斷(inference)。
我們在建立了GLM模型之後,我們用估算出來的參數來判斷體素上是否存在顯著激活,因此我們所作的推斷是基於我們估算的β(hat)是呈正態分布的:
利用這一點,我們可以使用t檢驗或F檢驗來檢驗我們感興趣的效應。
正如我們在之前的課程中所講的,我們常常使用各種參數的線性結合併檢驗其顯著性,所以這些都是對比(contrasts)。
而c轉換β(cTβ)就定義了參數的一種線性結合:
在這裡,c就被稱為對比矢量(contrast vector)。
為了講清楚上面我們說的這些公式,我們來看下面的事件相關實驗,該實驗共有兩種刺激(條件A和條件B),據此我們可能會構建出以下的GLM模型:
圖1 GLM模型
模型中有β1×基線(×是乘號),β2×條件A與HRF的卷積,β3×條件B與HRF的卷積,再加上雜訊。
這是一個簡化的GLM模型,實際中條件A和B會重複更多次。
那麼我們到底想做出怎樣的推斷呢?
也許我們感興趣的是找出在條件A和B下有顯著差異的腦區,因此從統計上來說,我們就是想要檢驗虛無假設(H0:β2=β3)。而從對比的角度來說,我們也可以把
作為我們的虛無假設,在這個例子中,就會有,因為我們給β1的權重是0,給β2的權重是2,給β3的權重是-1,因此就會得出cT=β2-β3=0,也就是說β2=β3。那麼我們要怎樣來進行檢驗呢?
我們的虛無假設是
,我們應該用t檢驗:,因此我們唯一要考慮的事情是,基於H0,T約等於t分布,其自由度取決於r和V:如果我們這樣計算,我們可以得出H0下的t分布並檢驗這個假設。
我們也經常會想要同時做出幾種對比的檢驗,這樣c就變成了對比矩陣(contrastmatrix)假設c是這樣的:
,那我們就會得出:。然後我們想要檢驗出這兩個是否一樣都等於0。我們舉個栗子來講一下:
圖2 栗子
看著這個栗子,腦子裡面想想,有一個模型,它有呈矩形的激活和用離散餘弦基(discrete cosine basis)調整過的漂移(drift),其實這個模型我們已經反反覆復用了好幾個module了哈哈(這有啥好笑的,做筆記做瘋了吧。。。)。
第一列對應的是呈矩形的激活,第二列對應的是基線,第三到第九列對應離散餘弦基組。
而現在我們可能會對這個問題感興趣:這些漂移對模型是否造成了影響?
既然如此,我們還是要檢驗這個假設:
,在這裡,c表示的只是漂移成分:,其中每一行代表著我們想要檢驗的成分,看看它們是否都等於0。因此,當β3到β9都等於0時,漂移對模型沒有任何影響。這就是我們怎麼用數學方法將其形式化(formalize)。下面的這個等式是為了檢驗β3到β9是否都等於0:
,如果這個等式成立,那麼離散餘弦基組與任何一個β都沒有顯著關聯,因而也就不存在漂移。為了搞懂上面的這個等式的意思,我們把設計矩陣分割呈兩部分,其中之一是X0,對應前兩列,也就是基線,它與信號一樣重要;再者是X1,對應離散餘弦基組,它們對於模型是不必要的,所以X1可能是多餘的:
因此我們把上面的問題轉化成了X1到底對模型造成了多大的影響。所以我們一般會用一個包含了X1的全模型(full model)達到將結果與全設計矩陣X比較的目的,這個全設計矩陣X包含了削減了的模型(去除了X1,只包含X0)。而其中的觀點就是如果X0(削減了的設計矩陣)能夠與我們的全設計矩陣X(包含X0和X1)在數據建模方面能夠做得一樣好,這樣就不用計算漂移成分了,因為我們直接用削減了的設計矩陣X0就夠了(這也就間接說明X1並沒有什麼卵用)。
然後再來看F檢驗:
基本上這個F檢驗就是用削減後的模型和全模型里的殘差來進行檢驗的。
同樣,我們假設誤差是呈正態分布的,F有著粗略的F分布,其自由度計算方法:
因此,我們的做法就是這樣的,對於大腦上的每一個voxel,我們進行t檢驗或F檢驗,與其對應的統計數值就用於創建一個全體素上的統計圖像(statistical image):圖3 統計圖像(t檢驗)
接下來我們要講的是我們怎樣用GLM來分析fMRI數據。
第一步是為大腦的每一個體素創建一個模型。
我們常用的是集中單變數方法(mass univariate approach),在這裡回歸模型(如GLM)就會普遍被使用。下圖演示了我們如何設置這個設計矩陣以及GLM分析:
圖4 設置設計矩陣以及GLM分析
第二步是進行統計檢驗來判斷任務與體素激活是否相關。
對於每個體素,我們的虛無假設仍然是:
,用我們在上面講過的方法,可以得出一下的統計圖像:圖5 t-map
這個t-map顯示了整個大腦的假設檢驗結果。
第三步是我們選一個合適的閾限(threshold)來判斷統計顯著性。
選擇了統計閾限之後,我們就可以給顯著激活的體素像下圖一樣上色:
圖6 統計參數定點陣圖(statistical parametric map)
上色的根據是體素激活的p值大小。
然而這最後一步其實是很容易引起爭議的:我們要怎樣來選擇閾限?我們怎樣才能判斷哪些體素是真正激活了的?
因為我們在這裡已經暗示了上色了的體素是被激活了的,而無上色的體素的未被激活的,但這些都建立在我們選擇的閾限值上,換句話說就是我們選擇的閾限決定了哪些體素被激活(此處可以聯想到薛定諤的貓),但這個閾限我們又是怎樣選擇出來的?
這在fMRI數據分析里是一個很大的問題。
我們通過大量的假設檢驗來獲得統計數據,如果我們有100000個體素,我們其實是同時進行了100000次假設檢驗,因此很多的檢驗統計數值是被人為抬高了的(因為存在雜訊的緣故),進而造成了許多假陽性(false positives)。
對於100000個體素,如果我們選擇的α是0.05,那麼就會有5000個體素是假陽性的,這會導致大腦的整個區域的激活都是假性的。
綜上所述,選擇閾限值其實就是在敏感性(sensitivity,保持正確的陽性率)和準確性(specificity,保持正確的陰性率)之間做出平衡。
下圖是如果我們選擇的閾限值(t檢驗)大於1、2、3、4、5時是怎樣的情況:
圖7 不同閾限值的腦區激活圖
我們可以看到左邊是選擇了比較寬鬆(lenient)的閾限值的情況,有很多的激活,我們可能把所有真正的激活都囊括了進來,但我們同樣很難不認為裡面包含了很多假陽性,因為這裡存在著大面積的激活。如果我們一直往右看直到t>5的那一幅圖,我們能夠確定我們看到的是真正的激活,但我們很有可能也損失了一些激活。
因此,我們的理想情況是選擇一個處於這兩個極端之間的閾限。
但這個「之間」到底是在哪裡?該選擇的閾限是多大?
這是很好的問題,我們將會在以後的課程裡面繼續講解。
如果覺得我們做得不錯的話,請動動手指給我們點個贊啦么么噠~~~
我們也不容易呢(捂臉)
推薦閱讀:
※人是如何自動過濾信息的?
※運動相關皮層對運動的作用
※睡眠的起源:小小水母竟然也會睡覺!
※宗教及精神體驗在大腦中會引起什麼樣的變化?
TAG:Coursera | fMRI功能性磁共振成像 | 神经科学 |