Imbens & Rubin：因果分析的基本框架以及經典隨機試驗

02-03

作者按：微信公眾號「文獻自助餐」從2015年8月31號至今共推出了三篇關於Guido W. Imbens和Donald B. Rubin二位大神的新書Causal Inference for Statistics, Social, and Biomedical Sciences: An Introduction的讀書筆記，由於此前兩篇在微信公眾號發布時還未開通知乎專欄，所以此次將三篇文章同時在知乎發布。讀書筆記是筆者在閱讀Imbens & Rubin的過程中整理總結的內容，整本書在potential outcome的框架下講述了不同條件下的因果推斷問題，筆者在閱讀過程中獲益匪淺。筆者希望整理出一份讀書筆記出來，一來可以督促自己，二來讓更多的朋友知道這本書。本次推送的三篇題目分別為「Imbens & Rubin：因果分析的基本框架」，「Imbens & Rubin：經典隨機試驗（上）」，「Imbens & Rubin：經典隨機試驗（中）」。

Imbens & Rubin：因果分析的基本框架

在應用統計中，人們感興趣的問題不僅僅是描述性統計和相關關係，還包括因果關係。為了構建因果分析的框架，我們首先需要引入一些基礎性的概念：潛在結果(potential outcomes)、個體處理穩定性假設(the stable unit treatment value assumption, SUTVA)、分配機制 (assignment mechanism)。

因果關係的分析一定要有行動施加於個體。給定個體和一個行動集，我們給每個行動和個體的搭配賦予一個變數，這個變數叫做潛在結果。事後來看，只有一種潛在結果可以被觀察到。樹林里分開兩條路，我走大路或者小路，兩條路的盡頭都是我的潛在結果，但是如果我走了大路，那麼我只能在大路的盡頭暢想如果走了小路會有什麼結局，但也只能是暢想，事實如何，沒人知道。一種行動或者處理的因果效應可以通過比較潛在結果得到。舉個例子，我頭疼，可以吃阿斯匹林或者不吃阿斯匹林，只需比較我吃阿斯匹林和不吃阿斯匹林時頭疼的程度，就能知道阿斯匹林對我頭疼症的因果效應。問題是，吃阿斯匹林與不吃阿斯匹林的結果不能同時被觀察到。

關於因果效應的定義有兩點需要注意的地方。首先，這一定義依賴於潛在結果，但是不依賴於哪一個潛在結果最終實現，無論我有沒有吃阿斯匹林，阿斯匹林對我頭疼症的因果效應都應該是一樣的。其次，因果效應來自於對事後同一時間同一個體潛在結果的比較。特別地，對同一個體事前事後的比較並不滿足因果效應的定義。

與因果效應的定義不同，因果效應的估計必須依賴能夠被觀察到的潛在結果。定義因果效應，只需一個個體就夠了，而由於一個個體只能帶來一個可被觀察到的結果，所以因果效應的估計需要多個個體，而且這些個體被施加的行動需要有所不同（不能所有人都吃阿斯匹林，或者所有人都不吃阿斯匹林）。要估計因果效應，我們還需要知道（或者假設）為什麼是一些潛在結果實現而非其他的潛在結果。也就是說，我們需要知道或者假設，行動在個體之間的分配機制是什麼。對分配機制的介紹放到最後，我們先來看個體處理穩定性假設。

個體處理穩定性假設（SUTVA）是指任意一個個體的潛在結果不隨其他個體是否接受處理而改變，而且每個個體受到的處理和潛在結果之間是定義良好的函數。

SUTVA包括兩個部分。第一個部分是說，不同個體間的潛在結果是相互獨立的，我的頭疼症只應該與我自己吃不吃阿斯匹林有關，別人吃不吃阿斯匹林不應該對我的頭疼症產生任何影響。這當然只是一個假設，如果頭疼可以傳染，即使我吃了阿斯匹林，如果我室友不吃並一直頭疼，那麼室友的頭疼是會傳染給我的。假設阿斯匹林是有效的，在室友不吃藥的情況下，我吃藥與否的潛在結果都是繼續頭疼；而如果室友吃藥的話，我吃藥就不頭疼，不吃藥就會繼續頭疼。這時，SUTVA的第一部分就並未得到滿足。

上面這個吃藥不吃藥的例子聽起來有點人造，所以考慮一個更容易被接受的例子。你考慮參加一個大型職業培訓項目，但是如果參加這個項目的人足夠多，那麼你接受培訓後在收入上獲得的好處可能會被更加激烈的競爭所抵消，這在經濟學上被稱為一般均衡效應。當存在個體之間的相互影響時，為了使SUTVA更加可信，我們可以賦予「個體」一個更寬泛的定義，比如研究教育問題時經常以學校為單位而非學生。SUTVA的第二部分是指，不同強度的處理都應該被清楚明白地表現出來。還是阿斯匹林的例子，如果我們把處理劃為服用阿斯匹林和不服用阿斯匹林，那麼這裡的服用阿斯匹林就應該是指服用相同規格和藥性的阿斯匹林，不能存在不同藥性的阿斯匹林。如果有兩種強度的阿斯匹林，那麼對於處理的劃分就應該改為服用強阿斯匹林、服用弱阿斯匹林和不服用阿斯匹林。

前面已經講過，潛在結果不能全都被觀察到，這是進行因果分析所面臨的最根本的問題。 Rubin(1974)認為這一問題實質上就是一個缺失數據的問題。因此要進行因果分析，就需要把缺失的潛在結果填補上。一些個體的背景特徵（協變數）往往能夠幫助我們進行缺失潛在結果的預測。

不是所有變數都可以作為協變數，協變數必須滿足一個條件：個體是否得到處理被先驗地認為不會對協變數造成影響。個體永久性的特徵，或者發生在處理之前的變數，都可以作為協變數，它們也被稱為處理前變數。協變數的有用性體現在三個方面：使估計更加精確，提供特定族群的因果分析，非混淆性(unconfounded)。其中最重要的就是非混淆性，非混淆性是指分配機制不依賴於潛在結果。能力比較低的工人更可能接受職業培訓，而能力比較低的工人工資也相應地較低，因此工資這一潛在結果與接受職業培訓與否相關，這樣就不滿足非混淆性。直接比較參加培訓工人的平均工資和不參加培訓工人的平均工資就會低估培訓的效果，但是如果比較各個方面特徵比較相似的工人（比如性別一樣，學歷一樣，經驗一樣）中參加培訓工人的平均工資和不參加培訓工人的平均工資，我們會更加願意相信這兩部分工人之間的工資差距來自於職業培訓。

分配機制是決定哪些個體得到處理，從而哪些潛在結果可以被觀察到的過程。正式地來說，分配機制是協變數、潛在結果和分配向量的函數，表示在特定協變數和潛在結果下，某一分配向量實現的概率。什麼是分配向量呢？假設有兩個人，分配向量就是表示兩人是否得到處理的二元數對，如（培訓，培訓）、（培訓，不培訓）、（不培訓，培訓）、（不培訓，不培訓）。

對於分配機制有三個基本限制：

個體獨立性(individualistic assignment)：任意個體得到處理的概率不依賴於其他個體的協變數與潛在結果。
概率規範性(probabilistic assignment)：個體得到處理的概率嚴格大於0，小於1。
非混淆性(unconfounded assignment)：分配機制獨立於潛在結果。

根據Cochran(1965)，書中對試驗和觀測性研究進行了區分。對於試驗，研究者完全了解並可以控制分配機制。對於觀測性研究，研究者或者並不知道分配機制是怎樣，或者無法對分配機制進行控制。

書中討論了三種分配機制。第一種是隨機試驗(classical randomized experiments)，隨機試驗的分配機制滿足上面提到的三個限制，而且研究者對於分配機制完全了解並可以進行控制。第二種是正規分配機制(regular assignment mechanism)，它依然滿足三個限制，但是研究者對於分配機制並不了解或者沒有控制能力。第三種分配機制本身也是正規的，但是個體被分配到的處理和個體實際接受的處理是不同的，這來自於個體實現效用最大化的主觀能動性。此時，我們需要工具變數的方法。

本書接下來的部分分別在這三種分配機制下探討因果關係的推斷問題。

Imbens & Rubin：經典隨機試驗（上）

本書的第二部分以經典隨機試驗為分析對象。書中介紹了四種隨機試驗：伯努利試驗，完全隨機試驗，分塊隨機試驗，以及分塊隨機試驗的極端形式—配對隨機試驗。上一篇介紹了經典隨機試驗的分配機制所必需滿足的條件：個體獨立性，概率規範性，非混淆性，分配機制可控性。雖然每個個體都以嚴格大於0，小於1的概率進入試驗組（控制組），但是在不同的隨機試驗下，同樣的分配向量可能具有不同的實現概率。這四種分配機制的不同主要就體現在正概率分配向量集合的不同。

假設有N個個體，那麼在伯努利試驗中，一共有2的N次方個分配向量，而且每一個分配向量出現的概率都嚴格大於0。這也就可能導致所有個體都進入試驗組或者所有個體都進入對照組這類對於因果推斷不能提供任何信息的情況的出現，這樣會對分析的可靠性造成損害。而其它三種隨機試驗通過對於正概率分配向量集合不斷增加限制來提高因果推斷的精準度。

四種隨機試驗的定義如下：

伯努利試驗：每個個體是否得到處理獨立於其它個體是否得到處理。
完全隨機試驗：從N個個體中隨機抽取一定數量的個體組成試驗組，餘下的作為對照組。
分塊隨機試驗：把全體對象按照對潛在結果具有預測能力的協變數進行分塊，使屬於同一塊的個體在這些協變數上具有較大的相似性，比如按照性別分塊，學歷分塊等等。然後在每一塊內部，進行完全隨機試驗，不同塊的完全隨機試驗互相獨立。
配對隨機試驗：分塊隨機試驗的一種極端形式—每塊恰好只有兩個個體，通過拋擲一枚均勻的硬幣來決定每一對里究竟哪個個體進入試驗組。

對於上面的定義簡單做兩點解釋：

在伯努利試驗的定義里提到的「獨立」和對隨機試驗的個體獨立性要求是不同的，上一篇講過，個體獨立性是指任意個體得到處理的概率獨立於其它個體的協變數和潛在結果。我們最熟悉的伯努利試驗就是拋硬幣，對於每個個體，我們都拋一次硬幣，規定正面朝上就處理，我們很容易就能夠驗證對每個個體拋硬幣都不依賴於對其它個體拋硬幣的結果，並且伯努利試驗滿足個體獨立性要求。但是，後面提到的三種試驗中，可能出現某個個體是否得到處理依賴於其它個體是否得到處理的情況，但是它們依然滿足個體獨立性。
完全隨機試驗對應概率論里常見的不放回抽取。

從上面的定義可以看出，四種隨機試驗對正概率分配向量集合的限制在嚴格性上是遞增的。這樣做的理由在於排除那些「不太有用」的分配向量，「不太有用」是指它們不太可能有助於我們進行精確的因果推斷。一個所有個體都進入試驗組或者所有個體都進入對照組的分配向量能夠為我們提供的信息少於一個更為平衡的分配向量（比如一半個體進入試驗組，另一半個體進入對照組），這使得完全隨機試驗比伯努利試驗更好。當分塊的依據是對潛在結果具有預測力的協變數時，從完全隨機試驗轉到分塊隨機試驗和配對隨機試驗也具有類似的好處。然而，如果分塊的依據與潛在結果並沒有關係，那麼完全隨機試驗和分塊隨機試驗（配對隨機試驗）在因果推斷的精度方面並沒有顯著不同的作用。

本書接下來分別介紹了四種處理隨機試驗的方法：Fisher的P值方法，Neyman的重複抽樣法，回歸方法，以模型為基礎的推斷方法。由於篇幅限制，本篇先介紹前兩種方法，回歸方法（我們的老朋友）和模型推斷法放到下一篇再詳細介紹。經濟學的實證工作中因種種限制而較少進行經典隨機試驗，經濟學者更多時候手頭上只有觀測性數據。那麼，作者在這裡介紹各種處理隨機試驗的方法對我們有什麼幫助呢？我們都知道完全競爭市場這一假設和由它推出的一系列非常漂亮的結論都跟實際情況出入很大，但是我們把它當作一個benchmark。這一邏輯同樣適用於本書對經典隨機試驗的討論。對隨機試驗的分析可以為觀測性數據的研究提供一個模版，我們在做實證工作的時候絞盡腦汁地使用諸如DID, PSM，IV，RD之類的手段，不就說為了使因果分析的可信度接近於隨機試驗嗎？況且，現在已經還有不少學者通過做RCT（Random Controlled Trials）來研究經濟學的問題呢，本書在講Neyman的重複抽樣法時就就以Duflo, Hanna, and Ryan(2012)中的隨機試驗數據為例。這一隨機試驗是在印度農村展開的，以金錢激勵對教師表現的作用為研究對象。

現在來介紹Fisher的P值方法。給定來自於一個完全隨機試驗的數據，Fisher希望評估這樣一個原假設：對於每一個個體，其兩種潛在結果完全一樣，處理沒有任何效果。書中將這樣的原假設稱為sharp null hypothesis，我沒有找到比較好的翻譯方法，所以就姑且稱之為Fisher原假設吧。Fisher建立了一套方法來計算P值，書中簡寫為 FEP（Fisher Exact P-values），當然我們現在對P值法的應用範圍比Fisher最初提出時要廣。題外話，對統計學的發展歷史，尤其是Fisher，Neyman這些統計大神感興趣的讀者，可以參考The Lady Tasting Tea，豆瓣評分9.0。

在介紹Fisher的P值方法之前，還需要引進一個概念—統計量。統計量是分配向量，潛在結果的實現值，以及協變數的函數。在Fisher原假設下，我們可以確定統計量的分布。統計量的隨機性完全來自於分配向量的隨機性，潛在結果被看作是固定的。有了統計量的分布，我們可以知道實際觀察到的統計量的取值在分布中的位置。如果觀察到的統計量在原假設下非常不可能出現，這會被當作不利於原假設的證據。這樣的邏輯本質上就是數學中常用的反證法的一個「隨機」版本。我們觀察到的統計量要「多不可能出現」才會讓我們推翻原假設，這需要預先設定一個臨界值。具體來說，我們可以計算原假設下統計量的分布，我們從該分布中抽取一個數，這個數大於等於我們觀察到的統計量的數值的概率就是P值（也就是統計量分布的密度函數在觀察到的統計量右邊所覆蓋的面積），如果P值小於我們選取的臨界值，我們就會拒絕原假設。

FEP包括如下兩步：

選取一個Fisher原假設，不一定只能是前面提到的每個個體的兩種潛在結果完全相同的版本，只要可以使我們把所有沒有實現的潛在結果（即缺失值）也推斷出來即可。比如，每個個體的兩種潛在結果之間相差一個常數，或者一個倍數都可以。
選取一個統計量。選取的統計量應該對原假設和研究人員關心的備擇假設之間的差別具有敏感性。用專業的術語來講，統計量應該具有較強的統計檢驗功效，即在原假設錯誤的情況下拒絕原假設的概率。

FEP是非參數方法，因為它並不依賴於一個由一系列未知參數確定的模型。特別地，FEP不對潛在結果的分布建模，潛在結果在這裡被當作固定但是事前未知的量。被觀察到的潛在結果以及統計量的隨機性完全來自於分配機制，一個個體最終實現哪個潛在結果是由分配機制隨機決定的。

原假設的選擇不再需要細講，唯一需要注意的是，Fisher原假設中強調對於每一個個體，處理都是沒有作用的，這和處理在平均意義上沒有作用是完全不同的，而處理在平均意義上的作用是Neyman所關心的。

書中花了比較大的篇幅介紹各種不同的統計量。最流行的統計量自然是分別計算試驗組和對照組實現結果的均值，然後將二者相減再取絕對值。如果我們不是用均值，而改為用分位數，那麼我們就得到了分位數統計量。我們還可以將結果取對數再求均值。此外，還有常見的t統計量，次序統計量，Kolmogorov-Smirnov統計量，以模型為基礎的統計量等。有如此多不同的統計量，統計量的選擇就需要認真考慮了。原則上，統計量的選擇需要同時考慮比較可信的備擇假設是什麼，以及潛在結果在原假設和備擇假設下分別服從什麼分布。

假設我們懷疑實驗組的潛在結果是對照組的潛在結果的倍數，而原假設是處理對每個個體都沒有作用，那麼將結果取對數後再分別求不同組的均值並相減再取絕對值（有點繞，但是在不寫一個數學公式的情況下，這算是比較自然的描述了。。。）得到的統計量就是自然之選。因為當我們的懷疑正確時，這樣的統計量對備擇假設（實驗組的潛在結果是對照組的潛在結果的倍數）會比不取對數直接計算均值得到的統計量更為敏感，也就是說前者比後者具有更強的檢驗功效。

如果觀察到的潛在結果的經驗分布有離群值，原假設依然是處理對每個個體都沒有作用，而備擇假設是每個個體潛在結果之間相差一個固定的常數，那麼計算不同組的均值相減再取絕對值得到的統計量就只具有很低的統計檢驗功效。在這種情況下，用對極端的離群值不太敏感的統計量就更好，比如中位數，次序統計量，或者切尾平均值等。

作者進行了一個模擬，以研究不同的統計量在對結果的分布進行的不同設定下分別具有多大的統計檢驗功效。總的來看，次序統計量在一系列不同的設定下都有很好的表現，而其它統計量的檢驗功效在不同的設定下起伏很大。比如當生成的數據滿足每個個體潛在結果之間相差一個固定的常數時，均值統計量的表現很好，但是一旦引入極端的離群值，均值統計量的檢驗功效就大打折扣，而次序統計量的效果依然穩健。

花了大量篇幅介紹Fisher的方法，接下來我們簡要介紹一下Neyman的方法。差不多在Fisher建立FEP的同一時期，Neyman開始關注平均處理效應的估計和推斷問題。Neyman對於從總體中重複抽樣和隨機分配機制下的統計方法及其特徵感興趣。Neyman關心的基本問題是，如果所有的個體都被放入試驗組，平均結果是多少？如果把所有個體都放入控制組，平均的結果又是多少？更為重要的是，這兩個平均結果之差上多少？這就是前面提到的平均處理效應。平均處理效應是無法被觀察到的，因為它的計算需要知道所有的潛在結果，而其中一半都是無法被觀察到的。在Neyman的分析中，我們不能依據一個假設把所有缺失的潛在結果推斷出來。然而，我們仍然能夠對潛在結果的一些特徵進行估計，比如一階矩和二階矩。Neyman希望得到平均處理效應的無偏估計量，並且構造置信區間。無偏估計量是指估計量的期望等於我們希望估計的對象，這裡的求期望也是針對分配機制的隨機性進行的，潛在結果仍然被認為是固定的。置信區間是一個隨機區間，該區間以一定的概率包含我們想要估計的值，這裡的概率是一種頻率意義上的解釋，指我們做一百次這樣的隨機試驗，大概有一定比例（常見的99%，95％，90%）的試驗中，置信區間包含真值。在頻率學派的語境下，置信區間的解釋離不開重複抽樣。

一個很自然的統計量就是實驗組和對照組平均結果的差值，這一統計量是平均處理效應的無偏估計。有了統計量，接下來可以討論置信區間。置信區間的構建分為三步：

推導這一統計量的抽樣方差，具體的數學推導這裡不展開。
估計上一步推導出的抽樣方差。
利用中心極限定理以及第二步估計出的抽樣方差構建置信區間。

有了統計量和抽樣方差，也可以構建t統計量進行假設檢驗。但是Neyman框架下的假設檢驗跟Fisher的FEP有兩點不同。首先是原假設的不同，Fisher的原假設是對任何個體進行處理都是沒有作用的，而Neyman的原假設是平均處理效應為零。其次，Neyman的假設檢驗要依賴於大樣本下的正態性質，而Fisher的P值法不需要依賴於大樣本。

關於Neyman的方法有一點需要強調，在Neyman的框架下，潛在結果仍然是固定的，通過引入分配機制的隨機性，我們給統計量賦予了一定的隨機性，這點在Fisher和Neyman中都是一樣的，我們剛才提到的Neyman的分析方法也可以只依賴於這一隨機性。不同的是，Neyman還引入了一個「總體」的概念，我們前面分析用到的個體只是從擁有無數個體的總體中隨機抽取出來的，通過引入從總體中抽樣的隨機性，Neyman的分析框架下隨機性有兩個來源。通過迭代，我們可以證明前面提出的統計量（實驗組和對照組平均結果的差值）也是總體下平均處理效應的期望值的無偏估計量。

Imbens & Rubin：經典隨機試驗（中）

終於要開始介紹我們的老朋友——線性回歸啦！線性回歸可能是與我們見面頻率最高的統計方法了，我們在經濟社會數據的實證研究中最常用到它。然而，在完全隨機試驗中，我們有必要使用回歸方法嗎？如果我們關注的是平均處理效應，似乎直接計算實驗組和對照組觀測結果的均值之差就可以了，而上一篇介紹過的Fisher的P值法和Neyman的方法就足夠幫助我們進行統計推斷。那麼，在完全隨機試驗中使用回歸方法有什麼理由嗎？

在Fisher的P值法和Neyman的分析框架中，潛在結果（potential outcomes）被看作是固定的，隨機性來自於將個體分配到試驗組或是對照組的操作。而在回歸分析中，潛在結果不再是固定的，它們是隨機變數，是從無限的總體中抽取出來的。

作者在這裡考慮的模型是關於我們觀察到的潛在結果的模型，而非對潛在結果建模。模型關注的是觀察到結果的條件期望，而非其實際分布。估計出來的回歸係數是模型的參數。在完全隨機試驗下，無論模型是否為條件期望提供了精準的近似，都不會影響估計參數在樣本量趨於無窮時向超總體下的平均處理效應收斂（average treatment effect in the super-population）。

先介紹幾個重要的概念，這樣在後面的討論中會方便一些。

1、有限樣本平均處理效應：

這是Neyman感興趣的處理效應，但是我們知道這一效應是觀察不到的，因為每個個體只能夠被觀察到一種潛在結果。因此，Neyman用接下來介紹的這個統計量來進行估計。

2、試驗組對照組潛在結果均值之差：

可以證明，這一統計量是有限樣本平均處理效應的無偏估計量。這裡的隨機性都是來自於完全隨機試驗下個體被分配到實驗組或是對照組的隨機性。在下面的概念中，我們再引入超總體。

3、超總體(super-population)下的平均處理效應：

此時，我們將潛在結果也看作是隨機變數，它們是從無限大的超總體中抽取出來的。依然可以證明，試驗組對照組潛在結果均值之差也是超總體(super-population)下的平均處理效應的無偏估計量。

接下來分別討論三種線性回歸模型：只包括指示變數的線性模型，加入其它協變數的線性模型，加入協變數和指示變數交叉項的線性模型。

（1）只包括指示變數的線性模型

在完全隨機試驗中，對於觀察到的潛在結果建立如下線性模型：

Wi 是用來表示第i個個體是被分配到了實驗組或是對照組的指示變數，當個體i進入實驗組時指示變數等於1，進入對照組時等於0。通過最小二乘法可以求出τ的最小二乘估計值，通過簡單的代數運算可以發現它剛好就等於試驗組對照組潛在結果均值之差，而後者正是試驗的因果性效果。於是，在完全隨機試驗下，通過最小二乘回歸得到的指示變數係數估計值具有因果含義。

（2）加入其它協變數的線性模型

考慮如下模型：

我們依然利用最小二乘法進行估計：

但是，這裡估計出的指示變數係數不再等於試驗組對照組潛在結果均值之差。也就是說，在有限樣本下，最小二乘估計不再具有無偏性。然而，在滿足一些條件後，我們可以證明最小二乘估計量收斂到：

可以證明：

且有

因此，即使指示變數係數最小二乘估計值在有限樣本下不再具有無偏性，但是其大樣本性質依然保留：隨著樣本量趨於無窮大，它收斂於超總體(super-population)下的平均處理效應。而且，這一大樣本性質並不以回歸模型的設定是否正確為轉移。這是因為，在完全隨機試驗下，指示變數和協變數在超總體中不相關。

加入協變數會使估計量喪失有限樣本下的無偏性，那麼我們這樣做有沒有什麼好處呢？當協變數對潛在結果有較強的解釋力，加入協變數會使估計量的抽樣方差顯著減少，可以使估計更加準確。

（3）加入協變數和指示變數交叉項的線性模型

如果我們預期協變數和結果之間的關係在對照組和實驗組中有所不同，那麼我們會加入協變數和指示變數的交叉項。這樣做有兩方面的好處：一是加入更多的控制變數可能帶來估計值抽樣方差的進一步減小；二是使模型更加穩健。模型如下：

可以證明，最小二乘法得到的指示變數係數也在樣本量趨於無窮大時收斂到超總體(super-population)下的平均處理效應。

回歸方法能夠作為連接有限樣本下統計推斷和以模型為基礎的方法二者的橋樑，可以使研究者比較自然地在估計中考慮其它的變數。在完全隨機試驗下，可以利用線性回歸方法進行點估計並構建置信區間，這可以作為Neyman方法的一種很好的推廣。而且，無論真實的條件期望模型是否是線性的，都不影響估計值的大樣本性質。然而，在觀測性數據的研究中，線性回歸的結果對模型的設定是敏感的，此時使用線性回歸需慎重。

結語：線性回歸是最常見的統計模型，完全隨機試驗是因果推斷最理想的條件。因此，將二者結合起來，會幫助我們更加清楚地理解接下來的內容。下一次推送「經典隨機試驗」的最後一部分，介紹完全隨機試驗下以模型為基礎的方法（主要是貝葉斯方法）。

Imbens &amp; Rubin：因果分析的基本框架以及經典隨機試驗

Imbens & Rubin：因果分析的基本框架以及經典隨機試驗