Module 15 General Linear Model

01-27

筆記來自於一個已被原課程授權的公益性mooc筆記製作小組，詳情請見專欄索引請注意：可以轉載我們的筆記，但必須要註明出處：摘自知乎專欄「原來大腦是這麼工作的」專欄！並且附上原網址。
如果你也想加入我們的筆記小組，就私信給@萌康或者 @李競捷吧~~~
PS 原課程網址為Coursera <Principles of fMRI 1>
筆記配上視頻課程更佳哦~~~兩個教授都超級萌的（捂臉）
如果覺得翻譯的好一定要給作者點贊哦！（捂臉）

Module 15 一般線性模型（General LinearnModel,GLM）概述

在這個Module以及接下來的課程裡面，我們將會介紹怎樣構建GLM並將其用於fMRI。

fMRI數據的統計分析有多個目標：

---定位被任務激活的腦區

---確定對應於大腦功能的神經網路

---從fMRI數據中得出對於心理或疾病狀態的預測

下圖是數據處理的流程，紅色方框表示我們現在正在學習的部分。

圖1 數據處理的流程

而上述的fMRI的目標都能用GLM來達到。

為了給講解GLM分析過程做一個鋪墊，我們要知道它通常來說是一個具有兩個層級的分析，第一層級是我們先對單個被試進行被試內效應的分析，第二層級是我們在多個被試間進行被試間分析或者組間分析。進行GLM分析，我們慣用的一種方式是階段式，即先做第一層再做第二層；另一種方式則是層級式，即用一個綜合模型同時結合這兩個層級。

因此我們在處理數據時，第一步是建立模型（model building），然後用該模型結合真實數據和估測數據，推測出每個體素（voxel）上的效應，這樣就可以計算出對比圖像（contrast images），這些圖像又與從其他被試中得出的圖像相結合，一起置於組分析中。最後我們就可以推測哪些腦區在那個組中得到了激活，並對這些腦區進行解剖上的定位。

圖2 GLM分析流程

接下來我們來進一步了解GLM分析。

GLM其實有很多種形式，首先要講的是GLM的檢驗形式。

GLM方法把數據看作是模型函數（predictor：預測因子，也可以說是預測變數、自變數）和雜訊（誤差,error）的線性結合，其實說白了，就是把數據拆分成兩部分，一部分是用這個模型可以解釋的數據（predictor），另一部分則是用該模型不能解釋的數據（error）。我們假設這些模型函數的形狀是已知的，直線或是已知的曲線，但其大小（如斜率）是未知的，需要進一步計算。

GLM框架包含了很多經常用在fMRI數據分析上的技術。

然後我們來看GLM的整個家族，即其所有形式。

先來看下圖：

圖3 The GLM Family

一種是簡單回歸（simple regression），它只有一個結果，一個預測因子；

一種是ANOVA（方差分析），這是一種多類別的分析。

以上這兩個例子都屬於GLM，所以它們都包含在廣義GLM框架中。同時，這兩個例子也屬於GLM的另一種次級分類，即多重回歸（multiple regression），這是一種只有一個結果但有多個預測因子的形式。其實，任何能夠在ANOVA框架內進行的方差分析，也可以在回歸框架（多重回歸）內進行。所以說，這些分析方法在機械論水平上都是共通的，它們都是GLM的特例。

更寬泛地講，多重回歸是GLM的一個形式或者說是GLM的一個形式的分類，它包含了混合效應模型（mixed effects model）、層級模型（hierarchical models）時間序列模型（timeseries models）和robust models以及penalized regression models（LASSO、Ridge等）。

最後還有一種廣義線性模型（generalized linear models），它包含了非正常誤差（non-normalnerrors）、不同誤差分布和邏輯回歸（logistic regression）。

圖中的閉型解（closed form solution）是一種用來解答方程的代數方法，能以一個步驟就估算出那個模型。

下面舉一個最簡單的例子：簡單線性回歸（simple linear regression），只有一個預測因子和一個結果。如下圖：

圖4 簡單線性回歸及其步驟

第一步是確定模型（specify model）。我們假設預測因子和結果之間存在線性關係，這就是所謂的模型了，把複雜的數據簡化為一個簡潔的形式。

第二步是估算模型（estimate）。計算其斜率和截距。

第三步是統計推斷（statistical inference）。計算其斜率的顯著性和P值，即在虛無假設之下觀察到的斜率有多大可能性是事實上其中並無線性關係。

第四步是科學解釋（scientific interpretation）。即當我們找到了顯著性的效應，接下來就要對這個關係的意義作出科學解釋。

下圖是GLM family的另一種視圖：

圖5 the GLM family

通過一個連續變數，所有的GLM模型都被描述為結果的獨立變數。所以連續獨立變數只有一個，基於預測因子的結構，那麼我們就是在做不同類型的檢驗。所有的GLM檢驗，其基本的線性代數方程都是一樣的。

所以如果連續預測因子只有一個，那這就是簡單回歸；

如果連續預測因子有兩個，那就是多重回歸；

如果類別型預測因子只有一個，並且有兩個水平，那就是t檢驗；

如果類別型預測因子只有一個，有三個及以上個水平，那就是單向ANOVA；

如果類別型預測因子有兩個或更多，而且是根據因素來排列的，那就是因素ANOVA。

而GLM的另一個重要的延伸，就是我們對同一群人有多個觀察數或者重複測量（即重複測量設計），如圖5中的下半部分。在這裡要說明的一點是，因為這是對同一群人進行的多次測量或者說是多個觀察值，所以這些觀察值和測量就不再是獨立的了。

如果只有一個被試內預測因子，兩次重複測量，這就是匹配t檢驗（paired t-test）；

如果有k次重複測量（k>2），被試內預測因子是k-1個，這就是單向重複測量ANOVA(one-way repeated measures ANOVA)，這種數據也可以使用MANOVA來分析；

如果重複測量是多次的，而且測量順序是以因素結構來排列的，這就是因素重複測量ANOVA（factorial repeated measures ANOVA），這在功能神經成像實驗中很常用；

如果重複測量還是多次的，被試內預測因子也存在，但是加入了一個被試間預測因子，我們就直接把這個稱作GLM，說明我們可以混合和匹配被試內與被試間變數，並將其納入同一個分析框架中。

還有另外一個重要的相關延伸就是囊括了其他相關的誤差結構GLM形式，例如時間系列相關，即當前時刻點的事件取決於之前時刻點，每個時刻點的測量都不是獨立的。這其實就跟股市是一樣樣滴，現在的漲漲跌跌會影響之後一段時間內的升降。

我們在前面提到了很多次GLM的模型（model），而下圖就是GLM的基本模型：

圖6 多重回歸模型

（以下這些帶下標的β實在不好弄上去，只好直接整個都用截圖，導致字體格式稍微有點不一樣，忽略忽略哈哈）

圖7 回歸方程的矩陣形式

這就把Y還原成一列觀察數據；X部分則是以設計矩陣（design matrix）的概念上的建模，即把截距加上所有其他的預測因子，而截距通常是一個常數，在這個例子中它只是一列數字1；再加上一列預測因子或模型里的回歸量；而β則是模型參數（model parameters）的向量，是模型里的所有回歸斜率；最後是誤差ε，即殘差（residuals）。

課程的最後我們再來看一個非fMRI例子，在下一課會把這個放入fMRI背景內，所以現在只是作一個鋪墊（總算到最後了……真是不容易）。

我們想要知道的問題是：運動量是否能預測壽命？

在這裡，結果就是壽命，而預測因子是運動量（連續變數），還有一些比較重要的協變數如性別（男、女）等，所以在這個模型里我們就有兩個預測因子（運動量、性別）。

然後我們來看看數據是怎樣的（這組數據是模擬數據，不要當真喲）：

圖8 運動量與壽命的數據分布

運動量顯示在x軸，壽命在y軸，有兩個組別：男性組、女性組，一眼就看得出男女之間是不一樣的，而這個類別變數則是一個額外變數。

所以我們看得到控制了性別變數下的運動的效應，控制了運動量下的性別效應。

然後我們再來看矩陣角度下這個例子是怎樣的：

圖8 以矩陣形式來展示數據

在這裡，結果數據即是壽命，它是一個連續變數，如圖8左邊所示。這組數據可以分解為能夠用設計矩陣建模的部分，而截距是一個常數，運動效應是連續的。性別是類別變數，因為它有兩個類別，在回歸中，我們可以把女性寫作1，而男性寫作-1。然後設計矩陣（X）會與模型參數（β）相乘再加上誤差殘差（ε）。

這個例子說明我們可以用GLM簡單地處理比較複雜的實驗設計，這種設計就是所謂的an ANCOVA設計（注意，並不是ANOVA哦，至於這個ANCOVA是啥我就不繼續解釋啦，這個已經不是我這節課的內容了）。

以上。

如果覺得我們做得不錯的話，請動動手指給我們點個贊啦么么噠~~~
我們也不容易呢（捂臉）