如何看待復旦政治學教授唐世平「『隨機(田野)』實驗方法是個死胡同」的觀點?

原文:社會科學中的「隨機(田野)實驗」方法是個死胡同


誒這個問題貌似好老了。

我讀了一遍那篇博文,直觀感受是:

基本上沒覺得他在講RCT進入死胡同什麼的……讀下來覺得問題完全在於

1. 無腦直接上回歸,或者說直接武斷地用了reduced form而沒有用structural form來支撐;這個是通病啊,但是直接用reduced form相當於你直接講故事而放棄了「圓故事」的部分,那麼後面判斷是因果性還是相關性就很困難了啊。而且直接用reduced form也相當於沒有考慮到selection或者behavior change的過程,這也就是最後說的那點RCT可能造成行為改變,但是這不代表RCT不對,也不代表不能用計量,只能說明應該先通過structural form,給個微觀基礎,然後再得出計量模型才對啊,我覺得這不是學界共識嗎……?

2. 直接上回歸也就算了,回歸的模型還用錯了。博文中舉的那個T=0/1/2的例子,讓我感到很奇怪:難道社會學家們不知道什麼叫dummy variable嗎?難道一般的寫法不應該是用兩個dummy variable寫成

Y=a+b1(Y=1)+b2(Y=2)+e

嗎?

恕我直言,我完全無法理解什麼叫「三組結果放在一起回歸」……T取什麼呢?難道取T=0/1/2嗎(但是這是categorical的label而已啊)?如果是說像我上面寫的用兩個dummy的話,由於常數項的存在,這裡b1(b2)本身就已經表達了Y=1(Y=2)和Y=0這兩組的average treatment的差別啊,這時候b1(b2)顯著就是我們希望檢驗的結果啊。

3. 關於心理學的不可重複性問題,按照我這學期蹭的決策心理學的課教授的說法,其實是忽略了隨機性。首先,控制5%的significance level,不代表95%的power(實際上很多test,比如這學期我們講在weak IV/many IV的情況下做一些test,就是按照significance來取Reject Region,所以在H0下當然是沒問題的,但是在H1下的power就……);就算power也是95%,那麼我拿100對不相關的隨機變數,也會有5對是顯著相關的,如果是100個獨立的隨機變數,那就是100*99/2=4950對,也就是平均將會有250對左右變數算出來是顯著相關的,所以如果你用尋找顯著相關的眼光去看數據,只看到這些顯著相關,就要想想是不是要做一些Robustness check了啊……

但是這些問題跟RCT完全沒有關係啊,計量/統計沒學好,跟你用的數據是怎麼來的有關係嗎?


(1)如果真有完美的 randomized experiement, 那麼問題就簡單了,直接比較結果就完了。在真正的科學中,隨機實驗是最理想的做causal inference的方法。隨機實驗本身不是問題 -- 有問題的是在很多情況下,由於道德倫理等原因,經濟學和社會學的問題不可能用實驗的方法回答。比如說,我們不能為了研究金融危機的影響而人為地製造一場金融危機。

(2)不能因為在社會科學中構造理想的 randomized experiment 有困難,就武斷的認為這條道路是死胡同。有些問題(如上述的金融危機)是註定無法通過隨機實驗解決的,但也有很多問題是可以通過構造接近理想的隨機實驗來獲得接近理想的答案的。

(3)原博文表述欠缺邏輯。如果文章的幾層意思還需要其他答友來總結,說明文章本身條理不清楚。

(4)原文中唯一用到數學表述的地方(Y0 Y1 Y2 什麼的),也有明顯的錯誤。

(5)如果真想了解對隨機實驗的負面看法,不如去讀博文中提到的英文文獻,相信會有更多收穫。


首先謝謝唐教授對我們實驗經濟學的關注和批評,我相信我和我的同行們會欣然接受有指導性的建議和意見。

一門新興的學科和研究方法是不是死胡同,不是一個人說的算的,如果20年後很多重複性的實驗陸續的推翻了我們領域裡的基石般的結論,我覺得作為一名合格的科學工作者的態度就是承認實驗經濟學的「死胡同」,尋找更好的方法,搭建更貼合實際的理論。

But,(總有一個but),實驗經濟學自Vernon Smith以來半個多世紀的發展,有沒有走向滅亡呢?我感性的認識是沒有,反而實驗的方法被其它的領域採用:labor,development,personnel,marketing,political science,等。只有想不到沒有做不到。所以主觀的來講,我對實驗經濟學的未來是看好的。沒有一門學科一個領域是完美無缺無可指摘的,關鍵在於這個領域的想法和時代發展的時機是否配合。

回到唐教授的觀點,我非常尊敬他的觀點也敬佩他直言不諱的精神,但就這個領域發展的態勢來說,保持開明的態度觀望一段時間,看看實驗的方法和大數據/網路時代的化學作用會不會在近十年迸發出來?

退一萬步講,至少在實驗方法被越來越多top journal接受的事實下,我們這些做實驗的小蝦米也希望自己的項目能得到更多國內學者的支持,拿到更多的funding,發更多的top被國際承認,為中國的科研做點實際的貢獻,而不是被大批大批撤稿。

(利益相關:10年前在國內接觸實驗經濟學,在這樣一所號稱中國經濟學第一塊牌的學院,來present的實驗大牛被噴成翔。十年後,我會拿著行為/實驗經濟學博士的學位回國,要加入的團隊專註於行為和實驗,裡面的老師有著經濟學領域能想像的最好的publication。所以,10年,對於勤勞勇敢的中國人民來說,真的什麼都有可能。只要我們不互相拉扯。)

(最近知乎人心不古,拒絕人肉,有事私信。)


謝邀。

我對隨機實驗方法並不了解,也幾乎沒看過相關的文獻。之前上唐的研究設計課程,關注的主要是定性與定量之爭,也沒有涉及到對社會科學中實驗方法的批評。

我總結下唐的意思。唐的批評有三層:

第一層是引用了Deaton (2010) 和Sims (2010) 對社會科學隨機實驗的批評,但具體是如何批評的唐沒有陳述,按唐的說法他們的批評還停留在口水戰的層面。

第二層批評引用了Young (2015) 的研究,我的理解,其核心觀點是:用傳統的計量經濟學方法(即處理觀測性數據 (observational data) 的方法)來處理實驗數據是不合適的,前者只能估計average effect,而後者需要證明individual effect. 而這種處理方式正是目前許多研究者所普遍使用的。

第三層批評,按照唐的話來講是「致命一擊」,所謂社會科學隨機實驗,其實根本做不到嚴格意義上的隨機實驗,研究者拿到的數據都是有問題的。

唐這篇文章剛出來的時候微博上就有不少人在討論了。搞實驗研究的同行看到這種文章肯定是不高興的,但還沒有看到目前有什麼好的回應。

另外,唐肯定不是在否定隨機實驗的思想,無論是隨機實驗(操作意義上)、定性還是定量,背後的方法論主旨都是「對比研究」,這也是科學研究的核心。唐本人是自然科學研究出身的,也是教方法論的(他的閱讀量非常大,上他的課光是拷給我們的文獻就有幾百兆),質疑唐對方法論的理解實在是毫無必要。唐正是對方法論有著更深的理解(我沒說一定對),才會提出別人無法提出的質疑,我覺得這主要還是跟他廣泛的閱讀以及對各種研究方法所持有的開放態度(可以去看他發表在《公共行政評論》上的「超越定性與定量之爭」)有關。


發一篇我過去的文章,作為回答(老早寫的,還請輕拍)

(引用開始)

認知概率記

2010-07-07 23:16:01

在這篇文章中,我們通過逐步分析從古典概率開始,逐步進展到隨機變數,隨機變數的相互關係這樣的概念上的漸次發展的過程,逐步梳理出概率產生的現實基礎。

A.

實體的本身的出現次數,和實數之間建立的一種關係,構成古典概率。實體的各種排列組合出現的次數,仍然是古典概率的範疇。古典概率是對於骰子賭博和俄羅斯輪盤模型的抽象。

B.

接下來,發生了三件事情:

1. 實體的本身的個數,實體的可能具有的個數,變成了無限。

這個無限,包含三個部分。一個是說實體的個數是無限的,不再是骰子的個數那樣只有有限的幾個。

第二個是說,實體的可能具有的狀態,也是無限的,不只是一個方形骰子只有六個狀態。(「實體可能具有的狀態「這個概念,是實體的一種」屬性「,也是另一種實體。我很贊同這樣的觀點。)

第三個是說,對於一個實體來說,決定它的目前所處的狀態的因素,不再是簡單的可分的等同概率。這個意思實際是說,生成一個事物的現有狀態的因素千差萬別,通過不同的來源,不同的實體,不同的path,在歷史上不同地時刻作用到這樣一個實體的所有的邏輯和別的實體,均可以對於此實體的現有狀態產生作用。

2. 第二件事情是,針對這種無限性,人們假設這些複雜的現實實體仍然具有概率性質。為了將問題簡化,人們創造出了」隨機變數「這件實體。這個新生的實體的功能就在於將實體和」概率分布「(一種可積函數)建立起來了聯繫。

在第二件事情這個階段,概率分布仍然能夠簡單扼要地表示事物的發展狀態。不是正態就是泊松,實在不行就是函數擬合頻率,人為地造出一個函數出來。

3. 第三件事情是,人們將不同的隨機變數之間建立起來了聯繫。這件事情的實質,是說,用(X(A)-&>X(B))的隨機變數之間的推導和鏈接關係,代替了(A-&>B)的事物本身之間的推導和鏈接關係。

第三件事情的發生尤為關鍵。這使得人們擁有了部分程度上超脫於事情本身的因果律的本領。人們只需要首先在基層認同隨機變數的存在,然後在高層揣摩隨機變數之間的因果律就可以完成大量的「用概率實體取代普通實體」的任務了。

這些隨機變數之間的因果律,包括各階方差,最大似然估計,隨機過程,隨機馬爾可夫鏈/隨機狀態機,貝葉斯網路,維特比演算法等等,在各自然科學領域發揮著越來越深刻的作用。概率模型不只用來建模,也用來預測。

C.

發生了這三件事情。均無可厚非。

但是我對於隨機變數堆積之後形成的龐然大物不太信任的原因來自於一個基本觀察:

1. 在古典概率中,我們發現,一個二維隨機變數可能在二維空間的坐標體系中畫出一系列的散點。準確地講,散點描述將會逐漸逼近概率描述/概率描述將會逐漸逼近散點描述。這些都沒問題。問題在於,這個二維隨機變數在分別兩個一維空間的投射,將會導致用兩個一維空間的隨機變數無法描述的情形。即X(A)@X(B)!= X(A, B),其中@表示笛卡爾乘積關係。

有人說,這不就是獨立隨機變數的組合的問題嘛!你如果A和B完全獨立,就沒有這個事情啦。不完全獨立的話,就用協方差嘛。

於是人們就用一個一個的獨立性假設,一個一個的協方差矩陣,繼續搭建心中的理想國度。因為他們認為,解決好了兩個變數之間的獨立性,或是不獨立性的問題,事情就萬事大吉了。

2. 但是實際情形沒有這麼簡單。首先我們不去理睬到處濫竽充數的偽獨立性假設問題(Q1),我們也不去理睬協方差矩陣的時常無法檢測兩個實體的各類狀態的出現情況的問題(Q2)。這些普通存在的問題我們都不去管,當我們僅僅是處理到了三個變數的時候,就發現了理論上的問題的所在。

對於三個變數的問題來說,即使有三個變數兩兩之間的任意組合,共3個協方差矩陣,仍然無法復原3個變數共同的張量關係。

3. 這一矛盾在處理N個變數的問題的時候變得尤其突出。對於N個變數,其任意兩個變數之間的協方差矩陣(矩陣即二階張量)將會存在C(N,2)個,而三階張量將會存在C(N,3)個,一次類推。總共將會有Pow(2, N)-1個完全不能描述N個變數的相互關係的0階,一階,二階,高階張量。只有最後的一個最高的那個N階張量能夠肩負描述N個變數的實際分布/實際散點布局的任務。(Q3)

這一問題的產生,是只關注兩個實體之間的關係,而很少關注多個實體之間的關係的人們平時所難以見到,也較難理解的複雜情形。很多時候,人們只管著少數變數之間的虛偽的獨立假設Q1,用著自以為成立的多階疊加的有效性Q3,擬合著自己的發現,試圖發現變數之間的關係,並且試圖用這些模擬出來的關係疊加成對於現實世界進行概率模擬的隨機變數和隨機過程系統。

4. 舉個簡單的例子。這樣子處理問題,無疑是相當於說我知道小A和小B關係好(很大程度上),小B和小C關係好(很大程度上),小C和小A關係好(很大程度上),於是我就推導出小A,小B,小C三個人在一起的時候關係一定好(很大程度上)的這個結論一般,是對於世界運行狀態本身的太過naiive的抽象。

為什麼舉這個例子?因為這個例子反映了那三件事情中的第二件事情(創造隨機變數),第三件事情(兩件隨機變數之間建立聯繫)的經不起推敲。

5.

要舉這個例子,更加是因為這個例子反映了在變數獨立性這個大問題中,

第一個問題(似是而非的獨立性假設。),

第二個問題(實際檢測根本無法全面。小A和小B關係好。這是真的么?還是只是某些時候表現出來的?還是所有時刻都表示出來友好,但是實際全都是假裝的?),

第三個問題(多變數情形的複雜度遠遠勝過所有的兩兩組合情形之綜合的複雜度的問題。小A的狀態不只由它自身決定;也由小B的狀態決定;而且還由小B和小C的狀態決定;以及最後的三國爭霸,合縱連橫情形下,小A的情形由小A,小B,小C的綜合情形共同決定。)

6.

因為這樣的兩件事情,和三個問題,概率的大廈猶如建立在了散沙之上。於是也就難怪出現了次貸危機中的各項金融數據兵敗如山倒,像多米呢骨牌一樣爭先恐後地將自己的良好期望和方差全都拋棄,送給了自己的高階衍生和低階來源的情形。

因為這個事情,一位華人統計學家所發明的金融數學公式被當成了替罪羊。可是人們真的認為統計和概率是對於世界的真實模擬么?華爾街的天才們絞盡腦汁地用這些公式為自己撈錢生財都來不及,怎麼來得及讓他們去切合資本的實際情形,還要兼顧一般建模範圍之外的特殊情形呢?

建模崩潰之時,也就是模型不再起作用的時候。

D

最後,再談一下有關第二個問題的問題,即實際檢測的問題。

做統計的人們大概認為,這一部分是自己的所有工作中價值最低的那一部分吧?因為只需要導入數據,匹配一個看上去還行的基本模型,或是直接用裸的頻率函數作為分布函數,接下來就可以跟著做更高級的搭積木的事情了。

然而,這裡面卻隱藏著最深的陷阱。

1.

一位研究經濟的同學介紹他們的實驗過程。理性人前提,設計無理由免費拿鈔票的實驗,採集大腦fMRI數據,驗證假設,得出結論。這個實驗很先進,工具也很齊全。

我問他,如何保證採集出的有限的fMRI數據能夠反映人群的普遍狀況呢?如果說實驗人群具有某些很明顯的傾向性,會不會影響實驗結果呢?

這位同學回答說,「這個你放心,統計模型已經保證了人群代表的普遍性」。

這話在我聽來有點主末顛倒的意思。因為其實可以非常容易地想到一百種可能能夠推翻這個所謂的「普遍性」。而這一百種可能性,均沒有來自於「統計模型」。

2.

據我所知,很多心理,認知,經濟,行為,語言,知識管理實驗室的數據直接靠徵召本實驗室,本院系,本學校的學生群體完成測試,或者乾脆是熟人測試。

這和有人直接在街頭髮放問卷調查,然後信心滿滿地認為自己可以代表普通消費者的願望;有人在自己網站上設計了問卷,卻把最後結果說成「五成網友」,「八成網友」這樣的標題一般,是同樣的問題。大多數的Q2問題都是這樣的問題。人們自認為「統計模型」可以保證普遍性和代表性,卻不明白,由自己的手,自己的機構,給來參加自己這個數據採集的人們,所進行的採集,就已經是非普遍性和非代表性的有力保證了。

人們使用這樣的非普遍性,去研究普遍性問題,也難怪模型不準確,難以做出正確預測,即使做出正確預測,也難以防範少數的,但是確實顛覆性的情形的問題了。

3.

然而,還有少數的Q2問題卻遠非這麼簡單。

很多醫學實驗室的數據也只能是一個時期一個區域的現象出的數據。全國性的數據和省區的數據可能更具代表性一些。但是卻沒有人願意一下子拿全球的數據來說明問題。因為全球的數據之間的差別之大,將會有可能掩蓋過它們可能共同反映出來的那些有限的趨勢。

於是人們想出了對應於年齡段,人種,國家,性別等等因素的劃分方案。然後在每個劃分的內部進行檢測和實驗,得出結果。然後再試圖將結論推廣到更多的劃分中/在更多的劃分中驗證結論。

這種方法是嚴謹的方法,這也是為什麼醫學論文很多時候只要是來源於不同的數據劃分,即使實驗設計和理論模型的差別不大,也可以成為分別的論文的原因所在。

然而,當我們試著去解讀不同方法和不同時期所作的實驗以及所產生的數據時,卻發現自己遭遇了真正的問題。

這個問題是,在不同方法領域,和不同時期的實驗項目,人們的研究的主流思想,本體論,一整套的方法論,闡述方式,解決途徑,均有很大的不同。

人們發現,如果自己不得不使用某種方法所使用的主流思想來解釋一個實驗結果,理解一個檢測數據的時候,將會得出和用別的方法非常不同,乃至完全不同的視角和結論。

這個問題,其實就是科學研究領域的巴別塔問題。也就是日常生活中的個體觀念差異反映到科學研究中的體現。

首先是我們所看待的世界的種種個體和實體千差萬別,紛繁複雜。(C1)

然後是我們自己用來看待世界所使用的那個自己所認同的思想世界,亦是千變萬化,精彩紛呈。(C2)

4.

這個問題,就是Universal Language無法實現的問題,發生這個問題的時刻,也就是同理心Empathy發揮作用的時刻。

反映在科學研究領域上,這個同理心Empathy的作用,將體現為不同學科思想,學科思想內部的不同方法之間的影響,交融,提升,互通的過程。

所以,這樣子來說,在統計領域中的Q2問題(實際檢測根本無法全面)。它的實質就是我們腦海中用來建模外界實體的內部實體們是否真正有效的問題。

明白了這樣的道理,就不會輕易地認為「數據的普遍性被我們的統計性模型所保證」這樣的好事情能夠簡簡單單地就這樣發生了。

5.

正如白起兄和cucu君所說(概率是怎麼來的 (評論: 數理統計學講義)),統計是一種人類建立出來的實體。它像Meme一般,能夠獲得人們的認同,終於通過和其他的准meme實體之間親疏遠近的關係站穩了在人類語言和思想的材料庫中的位置,成為了一種人們談話中可以引用,思考中可以直接採取,辯論時不假思索地說出聲來的「已有之物」。

它的作用仍將發揮,將深入我們社會生活和精神世界的更多的層面,繼續成為我們人類整體繼續構建更加豐富和多彩的未來世界的「Building Block」。

畢竟,它讓我們比起早期的無法使用「概率」,「隨機變數」,「方差」,「馬爾可夫鏈」等基本概念的時代,進步了太多太多。

人們利用概率和統計學作為武器,使得自己對於世界的認知和把握,又更進了一步。

(引用結束)

此外,白起同學對此有過經典的回答:

你有你的時空,我有我的概率

概率也是個私人的產物

你有你的時空,我有我的概率 (評論: 數理統計學講義)

概率是怎麼來的 (評論: 數理統計學講義)


唐世平原文:

社會科學中的「隨機(田野)實驗」方法是個死胡同

幾年前,我在好幾個場合就對經濟學和政治學中越來越多的所謂的「隨機(田野)實驗方法(randomized fieldexperiment」) 嗤之以鼻,並且認為這將undermine(削弱)經濟學和政治學,或至少是將經濟學和政治學引入歧途,直到進入死胡同。【我們應該慶幸,社會學好像沒有中毒,儘管社會學和社會心理學很近,似乎更容易走入實驗法。】

算經濟學和政治學裡好有些清醒的人士。因此,對這些所謂的實驗方法的經濟學(和政治學)提出了許多質疑(不幸的是,政治學好像還在繼續向死胡同走呀)。

【以下這幾篇文章都是經濟學的大牛(Deaton和Heckman都是諾貝爾經濟學獎的獲得者,其他的幾位也都是牛人)寫的批評文章,其中的一兩篇可能會成為以後我的課程中的制定讀物(比如Deaton的文章)。】

Angus Deaton, 2010.「Instruments, Randomization, and Learning about Development,」Journal of Economic Literature 48 (2):424-455。這篇文章寫得非常好,值得每一位做定量的學生和學者好好讀讀,這篇文章會成為我以後課程中的必讀文章。(文章中的數學推導非常簡潔,就是簡單的道理,絕大部分同學花點功夫都可以看懂。)

Christopher A. Sims. 2010. 「But Economics is Notan Experimental Science,」 Journal of Economic Perspectives24 (2): 59-68.

但是,這些批評還只是停留在口水戰的水平:推崇「RCT實驗方法」的人還是可以說,你們說的那些批評也許有道理,但是我們的結果就是很牛逼(還可以發好期刊)!

於是,LSEAllynYoung(也絕對是大牛了吧)直接都這麼辦了:這位老兄花了三年時間,對53篇發表在美國經濟學協會(AEA)旗下的雜誌的實驗方法的文章做了一個randomtesting的重新檢驗(檢驗這些文章中的2003個回歸)。發現,只有25%或最多一半的文章能夠表明treatment是有用(hasan effect)的(Young2015,2)。而這些顯著的回歸結果甚至很多都是用的錯誤的模型(比如,固定效應,clusteredSE標準誤)。

看到這樣的結果,哥倫比亞大學的Chris Blattman (他本人也是實驗方法的推動者和受益者)感到非常有壓力。於是寫了一個blog:Blattman大致的意思就是:PH.D們,很抱歉,我們發了一堆實驗的(牛)文章,所以,你們也不得不步我們的後塵。但是,我們不看好這方面的未來前景:這方面的文章可能會越來越難以發表。所以,你們自己看著辦吧。【我甚至也懷疑,他自己的fieldexperiment的結果是否可靠。你們可以去看看。】

Blattman的博客的標題就是:「ifyou run field experiments, this might be the paper that will makeit harder to publish your work in a few years.」

Why I worry experimental social science is headed in the wrong direction

但是,也正是因為Blattman擔心的是如何發文章(他手頭可能有好幾篇這樣的文章,他上個月剛到UCSD來講的也是一篇這樣的東西,我乾脆就沒去聽),他沒有看到Young對實驗社會科學的致命批評。【而且還在為「實驗社會科學」辯護。

Young(2015,27-28)的核心批評其實就是:如果你的結果確實是實驗得來的結果,那麼你是不能用通常的計量經濟學的回歸模型來分析這樣的結果的。

要分析實驗結果,你要回到Sir RonaldFisher(1935)就基本確立的準則(randomizationstatistical inference, RSI or RI):分析實驗結果,我們要看到的是單個的treatment的在每一個被treated了的個體上的effect,而這些effect在被實驗了的個體的總樣本中是統計顯著的。同時,我們還需要確認,這樣的effect在沒有被treated了的個體(或至少是樣本)是不出現的。關於Fisher,我此前一個博客有介紹:「經濟學帝國主義」之一:三種意義上的「經濟學帝國主義」

而通常的計量經濟學的回歸模型都是用來檢測population averageeffect的。

用一點數學,會更加清晰

在截面數據的情形下,計量經濟學模型幾乎都是估計這樣一個模型:

Y=a+bT+e(方程1)

其中Y是結果(或者影響,假定可以取值是好轉、沒用、惡化),而T代表treatment,而且假定T取兩個值0(沒有接受treatment);1(接受了treatment)。

這個模型最重要的是那個b(通常說的betacoefficient,以及是否統計顯著),而這永遠都是相對於一個sample或者population來說的。

特別要提到的是,無論怎麼增加控制變數,或者其他花哨的東西(比如,交叉項),核心都還是這個最簡單的模型中的那個b(betacoefficient)。而你要做的是拒絕那個大家都習以為常的nullhypothesis(即,TY沒用影響)。

相反,如果你的數據是真正意義上的「RCT」實驗數據,那麼,你其實至少需要估計以下三個模型(在臨床醫學上,通常是三個,至少是兩個)。【在社會科學中的田野實驗中,幾乎不可能有「安慰劑」這個部分(比如,給你假幣)。因此,需要估計的模型可能通常只是兩個模型。】請特別注意這些模型中的標示。

Y2=a2+b2(T=2)+e:假定這個組是接受了真正的treatment(新的治療藥物;T=2)。

Y1=a1+b1(T=1)+e:假定這個組是接受了placebotreatment(安慰劑,且病人不知情。比如,生理鹽水;也可以是既有的某種治療,如果目標是表明新葯比舊藥好,T=1)

Y0=a0+b0(T=0)+e:完全沒有治療(即,連安慰劑都沒有)。

特別說明:在這三個統計估計模型里,Y2,Y1,Y0是比如生存率或者生命延長的時間(個體平均數),而我之所以把T2、T1、T0寫進方程里,只是讓大家覺得和方程1好像是非常像的。但其實,在後面的這三個方程中,T2、T1、T0是不變的(或已知的)。而一定意義上說,對這三個方程中的b0b1b2的估計,更像是估計一個殘差(residual),而不是一個parameter(參數)。也就是說,在這裡,我們關心的是,如果Y2、Y1、Y0有差別,不是因為病人本身的差別(比如,有的信教,有得過去經常鍛煉,有的過去體弱多病等等),而確實是因為他們接受的treatment的不同所造成的!

在這裡,你要拒絕的nullhypothesis則是:Y2Y1或者Y0沒有(顯著的)區別【這也是因為你通過randomization,已經排除了它們之間的差別是因為病人之間本身的差別造成的】。請注意,這時候,b2是否顯著不是唯一重要的:即便b2顯著(其實是說,b2作為一個殘差,不等於0,但是只要Y2Y1或者Y2Y0沒有統計意義上的顯著區別(這時候,可能通常都意味著,b1也是顯著的,甚至b0也是顯著的,但這不是最關鍵的!),那麼即便b2顯著也是毫無意義的。

而如果是嚴格意義上的(RCT)實驗數據,那麼這三個模型的估計都是直截了當的,而且不需要(甚至也不應該需要花哨的方法):因為randomization都是要達到那些無論怎麼花哨的方法都永遠達不到的估計可靠性。

但是,這個時候,如果按照通常的計量經濟學的做法,則是把:三組結果放在一起回歸,最後看那個總的b(betacoefficient)是否顯著。【大家稍微想想就知道了,結果肯定是只要b0、b1、b2的其中一個,或最多兩個是不等於0的,那最後的那個總的b(betacoefficient)就可能是顯著的!但是,然並卵,因為你拒絕的nullhypothesis是錯誤的!】

而目前絕大部分發表的實驗方法的社會科學論文都用的是那個Y=a+bT+e的模型!而如果那個bbetacoefficient)顯著了,多少作者們就想:「靠,我們太牛了,又是一篇AER或者APSR!」同學們,看到了吧,這有多麼的na?ve呀!

【還要注意,Young其實沒有點名任何一篇文章。我猜,他都不好意思說,這麼多大佬,發在這麼好的雜誌,連基本的東西都沒搞懂。而且,恐怕還有涉嫌修改數據等等。】

Allyn Young, 2015.Channelling Fisher: Randomization Tests and the StatisticalInsignificance of Seemingly Significant ExperimentalResults, http://personal.lse.ac.uk/YoungA/ChannellingFisher.pdf

【特別提到,此前在Science雜誌上的一篇文章表明,心理學的實驗結果文章只有三分之一左右的結果是可以別重複出來的。同胞們,這是心理學,乾脆就自認為自己是(自然)科學的學科呀!】JohnBohannon, 2015. 「Many psychology papers fail replication test,」Science,08/28/2015, 349 (6251):910-911.

事實上,因為Young也只是從技術上批評實驗社會科學的,他也沒有指出實驗社會科學最根本意義上的缺陷:以下的批評才是真正致命一擊。

首先,我們都知道,在人群中進行的許多藥物試驗中的所謂的「RCTs」其實根本也不是嚴格意義上的「RCTs」。嚴格意義上的RCTs實驗只能在小白鼠以下的動物或者植物上做(因為他們可以被大規模複製,而且有標準的動物模型,減少了許多可能的干擾因素或者機制)。我們甚至都沒法對猴子做嚴格意義上的RCTs(因為猴子很貴,樣本通常不夠大,因此做不到真正的隨機)。對人,在很多情形下,那RCTs就根本無從談起(比如,人可以要求自己接受某個治療,而這顯然是自我選擇,而且還有其他的因素加入)。其次,幾乎可以肯定,社會科學中的「田野實驗」都沒有做到「雙盲」,甚至「單盲」,更不要說是可以被重複的了。因此,這些文章的結果都是不可靠的,甚至不值得看。 【而鑒於這些實驗(文章)的internalvalidity都不可靠,那它們的externalvalidity就根本無從談起!】

我的建議是:童鞋們,醒醒吧(包括Blattman)!實驗方法不是給社會科學準備的。

「隨機(田野)實驗方法」的推動者們的目標是達到「randomized controlledTrials (RCTs),的「科學」水平【RCT是藥物試驗的核心方法】。這其實是無視人類社會的基本性質:我們人有思想,即便能夠被randomized,也無法在社會科學家想回答的問題中被全部controlled(Bhaskar1979)。


我這學期上的課:Columbia University POLSW4368

Experimental Research: Design, Analysis, and Interpretation Professor Donald Green

教材 《Field Experiments: Design, Analysis, and Interpretation》(下文引用是縮寫為FEDAI)

隨機田野實驗(Randomized Controlled Trails, 下文簡稱RCT)

下劃線引自博客原文黑體是本人觀點。

——————————————————————

Young(2015, 27-28)的核心批評其實就是:如果你的結果確實是實驗得來的結果,那麼你是不能用通常的計量經濟學的回歸模型來分析這樣的結果的。

我們一開始並沒有用複雜的計量模型,就是最簡單的difference-in-mean (算實驗組和控制組的平均值差)。做回歸模型不是為了算那些回歸因子(比如性別,年齡,收入…) 對於實驗結果有什麼影響,(我們根本無法在給定的干預變數以外做其他因果推斷)。那些回歸是因為控制共變數(covariates), 從而減少對實驗效果估計的不確定性(uncertainty)。

一句話:回歸模型是為了在實驗干預數據中加入更多的共變數信息(比如實驗參與者的性別,年齡,收入),用加入的信息來提高實驗效果估計的準確度(precision)。

(詳見FEDAI 第四章)

——————————————————————

要分析實驗結果,你要回到Sir Ronald Fisher(1935)就基本確立的準則(randomization statistical inference, RSI or RI):分析實驗結果,我們要看到的是單個的treatment的在每一個被treated了的個體上的effect,而這些effect在被實驗了的個體的總樣本中是統計顯著的。同時,我們還需要確認,這樣的effect在沒有被treated了的個體(或至少是樣本)是不出現的。

而通常的計量經濟學的回歸模型都是用來檢測population average effect的。

恩,這是一個跨層次分析推論(Ecological inference and Analysis)的問題:用個體層次的數據,得出的確實總體層次的結論。但是,這個鍋不該由隨機田野實驗來背吧,難道這觀察性實驗(observational study)用調查數據(survey data)就沒有這樣的問題了嗎,那為什麼社會調查的路不是死胡同呢?

回到起點,某個實驗要回答的問題的什麼呢?(What is the modeled result?) 如果發表的文章里,關注的是平均效應,總體結果,difference-in-means在基本假設成績的前提下,就是一個無偏估計(unbiased estimator)

至於實驗效果的個體差異(heterogeneous treatment effect ),也是一個可以測試(test)和建模(model)。 (FEDAI 第九章)

***

4.13 更新和教授聊過這篇文章的批判後更新:

「在政治學實驗里會用到多層 (multilevel) 設計,我們關心的是:比如這個選區 (precinct) 的投票率變化。在這個層面上,我們並不關注某個人有沒有投票,所以一般不存在ecological inference的問題。當然在可能我們以後也會遇到這樣的問題,需要進一步考慮(I should think harder)」

***

——————————————————————

相反,如果你的數據是真正意義上的「RCT」實驗數據,那麼,你其實至少需要估計以下三個模型(在臨床醫學上,通常是三個,至少是兩個)。【在社會科學中的田野實驗中,幾乎不可能有「安慰劑」這個部分(比如,給你假幣)。因此,需要估計的模型可能通常只是兩個模型。】

通常安慰劑組是很難做到的,但是並不是沒有(文中也說是「幾乎」),比如上這門的課的教授就做過三組的實驗設計((Gerber, Green, Kaplan, and Kern 2010) ,尤其是在non-compliance的情況下,安慰劑組的設置非常有用。也許以前做RCT的學者沒有意識到這些問題,但是RCT越做越多,就會遇到越來越複雜的現實情況(在鼓勵實驗者接受干預時,人家不接受怎麼辦?你如何分析這部分被鼓勵參加卻不參加的人?有些人你沒鼓勵卻去參加了,這部分人和你鼓勵後去參加的是同一群人嗎?你能一起分析嗎?)。

(詳見 FEDAI 第五章)

正是在更加複雜的困難中,才誕生了更加成熟的實驗設計。要是大家都認為RCT是死胡同,都不做了,那才真是死胡同了。

——————————————————————

Y2=a2+b2(T=2)+e:假定這個組是接受了真正的treatment(新的治療藥物;T=2)。

Y1=a1+b1(T=1)+e:假定這個組是接受了placebo treatment(安慰劑,且病人不知情。比如,生理鹽水;也可以是既有的某種治療,如果目標是表明新葯比舊藥好,T=1)

Y0=a0+b0(T=0)+e:完全沒有治療(即,連安慰劑都沒有)。

在這裡,你要拒絕的null hypothesis則是:Y2和Y1或者Y0沒有(顯著的)區別【這也是因為你通過randomization,已經排除了它們之間的差別是因為病人之間本身的差別造成的】。請注意,這時候,b2是否顯著不是唯一重要的:即便b2顯著(其實是說,b2作為一個殘差,不等於0),但是只要Y2和Y1或者 Y2和Y0沒有統計意義上的顯著區別(這時候,可能通常都意味著,b1也是顯著的,甚至b0也是顯著的,但這不是最關鍵的!),那麼即便b2顯著也是毫無意義的。

這一段說的就是關心的是difference-in-means,而不是實驗組,安慰劑組,控制組,某一組的平均值,美國政治學RCT的大牛之一(我們授課老師)也是這樣講的,我們從來沒說b2(實驗組)的係數顯著就行了。

——————————————————————

而如果是嚴格意義上的(RCT)實驗數據,那麼這三個模型的估計都是直截了當的,而且不需要(甚至也不應該需要花哨的方法):因為randomization都是要達到那些無論怎麼花哨的方法都永遠達不到的估計可靠性。

但是,這個時候,如果按照通常的計量經濟學的做法,則是把:三組結果放在一起回歸,最後看那個總的b(beta coefficient)是否顯著。【大家稍微想想就知道了,結果肯定是只要b0 、b1 、b2的其中一個,或最多兩個是不等於0的,那最後的那個總的b(beta coefficient)就可能是顯著的!但是,然並卵,因為你拒絕的null hypothesis是錯誤的!】

——————————————————————

我在這門課(POLSW4368)上老師可從沒這樣教,推薦的閱讀文章里也沒有隻做這些回歸。有壞的文章並不能證明方法本身是壞的。觀察性研究,定性研究也不乏分析差,建模離譜的文章,但觀察性研究不是死胡同,定性研究也不是。

——————————————————————

【還要注意,Young其實沒有點名任何一篇文章。我猜,他都不好意思說,這麼多大佬,發在這麼好的雜誌,連基本的東西都沒搞懂。而且,恐怕還有涉嫌修改數據等等。】

假造數據,修改數據的醜聞是存在的,教授主動撤回過一篇文章,因為第一作者的博士生造假數據。現在的頂級期刊都要求上交一手數據和圖表代碼,在dataverse上很容易找到。找不到就聯繫作者本人,一般沒有特殊情況人家都會給數據的。

現在社科領域的大佬都是50,60,70年代出生的吧(從我在哥大政治系的觀察得出),1925年random assignment這個概念才正式提出(以前沒有被定義,雖然有實踐)。就算是現在,2016年,並不是每個美國大學的經濟系(政治系,心理系…)都專門開了田野實驗(Field experiment)的課,何況那些大佬讀書的年代。

也許有些做RCT的人也只是在哪節定量方法論的綜合課程,或者博士生討論課上非系統地學過RCT吧。多開設正統的實驗設計課程才能讓未來的學術基金少被浪費點,也讓真正有意義的實驗文章上頂級期刊的版面。

大佬沒搞懂基本東西,如何推出「RCT是個死胡同」。

***

4.13 更新和教授聊過這篇文章的批判後更新:

「實際上做實驗的學者一般分析數據比做觀察性研究的還要小心。現在美國做定量的基本要先學觀察性研究,但學實驗設計的人很少。說那些發文章的人基本問題沒搞懂這一點實在值得商榷」(教授讓我有時間給他翻譯一下中國學界具體是怎麼批判RCT的...)

——————————————————————

Allyn Young, 2015. Channelling Fisher: Randomization Tests and the Statistical Insignificance of Seemingly Significant Experimental Results,http://personal.lse.ac.uk/YoungA/ChannellingFisher.pdf

不是Allyn Young而是Alwyn Young

Allyn Abbott Young (September 19, 1876 – March 7, 1929) was a celebrated American economist.

Alwyn Young is a professor of economics and the Leili Johannes Huth Fellow at the London School of Economics and Political Science

他檢測美國經濟學協會(AEA)旗下的53篇實驗文章里的回歸模型,他寫的這篇paper難道就沒有發表偏差(publication bias)嗎?就算他的批評沒有偏差,經濟學頂級期刊上的RCT回歸模型好多不好不正確(沒考慮block,cluster,沒有reweight),那也只能說明隨機實驗建模部分的問題,不能一棒子打死說是死胡同吧。

這些錯誤的回歸模型,我們上課的有講過,反覆強調,Green也經常吐槽「some folks in econ」, 「even some researcher in some fancy university, chair professor…」

重要的事情說三遍:模型的鍋不要全讓RCT背,經濟學RCT的黑帽子不要扣到整個社會科學頭上。是的,做RCT的都多多少少會犯錯(不用概率給數據重新加權是最容易犯的,導致結果偏差很大),但是後人也是會總結前人經驗的。

隨機田野實驗的科班教育真的是每節課都在強調這些問題,作業里也會讓你找錯誤。老師也經常吐槽經濟學,心理學,還有政治學同行犯的小錯誤,「很多人…, 這樣對嗎?」 「No, absolutely no!」 還是那句:很多人犯錯不代表這是死胡同,這說明實驗設計分析的教育普及還有很長的路要走。

——————————————————————

【特別提到,此前在Science雜誌上的一篇文章表明,心理學的實驗結果文章只有三分之一左右的結果是可以別重複出來的。同胞們,這是心理學,乾脆就自認為自己是(自然)科學的學科呀!】 John Bohannon, 2015. 「Many psychology papers fail replication test,」 Science, 08/28/2015, 349 (6251): 910-911.

追求可重複性(replication)是社會科學界的一大進步(個人認為),證偽性是科學的標誌之一,我沒學過心理學,也不認為它是自然科學。但我不認為他們做的東西沒有意義,他們走的路是死胡同。

——————————————————————

事實上,因為Young也只是從技術上批評實驗社會科學的,他也沒有指出實驗社會科學最根本意義上的缺陷:以下的批評才是真正致命一擊。

首先,我們都知道,在人群中進行的許多藥物試驗中的所謂的「RCTs」其實根本也不是嚴格意義上的「RCTs」。嚴格意義上的RCTs實驗只能在小白鼠以下的動物或者植物上做(因為他們可以被大規模複製,而且有標準的動物模型,減少了許多可能的干擾因素或者機制)。我們甚至都沒法對猴子做嚴格意義上的RCTs(因為猴子很貴,樣本通常不夠大,因此做不到真正的隨機)。對人,在很多情形下,那RCTs就根本無從談起(比如,人可以要求自己接受某個治療,而這顯然是自我選擇,而且還有其他的因素加入)。其次,幾乎可以肯定,社會科學中的「田野實驗」都沒有做到「雙盲」,甚至「單盲」,更不要說是可以被重複的了。因此,這些文章的結果都是不可靠的,甚至不值得看。 【而鑒於這些實驗(文章)的internal validity都不可靠,那它們的external validity就根本無從談起!】

這個批判沒有錯,同樣實驗(RCT)派也會批判分析觀察性數據 (observational data, 比如問卷調查) 的文章:在沒有隨機分配(random assignment) 的干預下,分析一個政策,項目,措施的影響效果往往夾雜著選擇偏差(selection bias):是對英語有積極性的孩子去上了培訓班,因為積極性所以成績比普通人好,還是培訓班讓孩子英語提高了呢?如果去上培訓班的人本來就有更高的積極性,沒去的是積極性更低的,那麼比較上沒上培訓班的兩組人,根本就不是同一水平線上的比較。

(FEDAI 第一章有更多例子)

「真正的RCT根本無法做到,所以田野實驗不合適社科領域」,這句話要求RCT在沒有任何假設(assumption)的條件下成立,但實際上無論在定性還是定量的世界(framework)里,這都不可能。發文章的人假設(assume)是否 「雙盲」 或「單盲」並不影響他們對實驗效果的估計,如果你不同意,可以重新檢測:重新做同樣的實驗,但是分成雙盲,單盲,不盲。

——————————————————————

我的建議是:童鞋們,醒醒吧(包括Blattman)!實驗方法不是給社會科學準備的。

「隨機(田野)實驗方法」的推動者們的目標是達到「randomized controlled Trials(RCTs),的「科學」水平【RCT是藥物試驗的核心方法】。這其實是無視人類社會的基本性質:我們人有思想,即便能夠被randomized,也無法在社會科學家想回答的問題中被全部controlled(Bhaskar 1979)。

觀察性(observational study)研究也有選擇偏差(selection bias),各種數據都有測量問題(measurement error),統計誤差(statistical uncertainty)。因為達不到完美的效果就放棄一條路徑,最後可能會變得無路可走。

社會科學研究的因果關係本來就會牽涉到很多變數(variables), 一個社會現象,一個事件,一個人之所以成為今天這個樣子,能用幾個變數總結嗎?——當然不能,實驗(RCT)法不能, 觀察性(observational study)研究也不能。定量不能,定性的理論框架也不能,因為人能考慮到的因素總是有限的。

總結起來,文中大多數對於隨機田野實驗(RCT)的批判,並不是由RCT帶來(induce)的,也不只局限於RCT。所謂「實驗社會科學最根本意義上的缺陷」,不如說是整個社會科學的缺陷。但世界本來就沒有完美的路徑,完美的模型。文中的批判並沒有錯,但離開整個社科方法論的框架,對於RCT過於苛責,並說其是「死胡同」未免過於偏激。實際上,RCT的優越性就在於有隨機(randomize) 帶來的直接因果推斷(causal inference)。研究者會因為各種原因(自身知識,研究經費,倫理政策...) 而選擇不同的方法,說句老套的話:對於某個研究者,某個課題,不同的研究方法或許有合適與不合適之分,但方法本身並沒有絕對的高下,更沒有 「庄康大道」 與 「死胡同」 之分。

博文作者自己也提倡 「超越定性和定量之爭」,那為何要引起一場 「 『死胡同』 與 『庄康大道』(不知道作者心中的庄康大道是什麼)」之爭呢。


一點開博文就發現作者把Alwyn Young老師的名字錯打成Allyn Young了,後者雖然也是LSE的老師但是生存時間段是Sep 1876—Mar 1929。。。。。。(猜測是唐老師使用維基百科的時候有點急)Alwyn Young老師自己是非常厲害的學者,因為是做宏觀的緣故(e.g. 經常做一些growth accounting顛來倒去的東西),非常注重理論的嚴格性,經常會用一些公式代來代去的方法來說明回歸公式最終存在bias(我對宏觀懂得不多所以上面這句話是我憑感覺瞎講的),但其實稍有科研經歷的人應該知道theoretical econometrics和applied econometrics完全是兩個世界,因為我們並不是生活在真空中的球形雞,而且很多時候即使理論上存在微小bias的可能的作品依然是非常suggestive的。

———————————————————

回去看了一下博文,我始終覺得唐老師的博文里在批評的東西有兩個:1)treatment effect不能用回歸分析。這個不是RCT獨有的,基於政策衝擊的自然實驗也有這個東西;2)RCT不能真正隨機化。

針對(1),我發現我沒看懂唐老師那段「但是,這個時候,如果按照通常的計量經濟學的做法,則是把:三組結果放在一起回歸,最後看那個總的b(beta coefficient)是否顯著。【大家稍微想想就知道了,結果肯定是只要b0 、b1 、b2的其中一個,或最多兩個是不等於0的,那最後的那個總的b(beta coefficient)就可能是顯著的!但是,然並卵,因為你拒絕的null hypothesis是錯誤的!】」是什麼意思。一般不就是給treated group加dummy variable嗎,還有就是像DID一樣加個交叉項,什麼叫「總的b」。。。。。唐老師舉的三組裡面,去掉安慰劑效應那一組,剩下的沒被treated的一組不存在treatment的那個b,被treated的那組有個代表treatment的b,放在一起不就是一個b嗎。。。。

針對(2),RCT的目的就是努力切除內生性問題(否則找個自然實驗就可以了,RCT裡面可是有RC兩個大字的),就算實踐上沒切乾淨,切了也總比沒切好吧(事實上做得挺好的)。。。。。就算論證了RCT不行,不等於論證了不用RCT更好吧。。。。。能上RCT,相比不能上RCT而直接找自然實驗而言,總是一個weakly improvement。。。。吧。。。?


我覺得現在經濟學啊就是到處想認爹媽,把自己打造成物理學、化學、生物學等一眾實驗科學的一門,所以現在有了實驗經濟學、隨機實驗、自然實驗等等。

但是呢,經濟學是實驗科學嗎?不是,經濟學根本不可能是實驗科學,它就像數學一樣理性,所以,一句話:

數學之於自然可以相當於經濟學之於社會科學。


不請自來。

從幾位答主的回答來看,這位學者主要是對社會科學領域實驗方法進行了批評。隨機性的確是概率論和計量經濟學的基礎。實驗的樣本能不能做到隨機性的確影響了研究結果的可靠性。

但這樣的批評並不是第一次被提出來,而是從實驗方法應用到社會科學(包括政治學)之初就被提出和反思的。歐洲批判學派對於實驗、實證研究的批評最為猛烈,但是後來他們也有限地採用了實證範式。現在,社會科學領域(包括國內學界)都越來越多地採用此類方法。

對於這類批評,研究者不能置之不理,而是納入到論文論證中進行詳細地考慮。

對於國內研究人員來說,最好的是融合實驗與其他方法,根據自身論題採用最合適的方式來研究。但無論如何,不能再回到從前那種工作經驗總結式的所謂的「定性研究」上了。


看大神寫的東西太累,直接評論,感覺研究社會科學,統計計量什麼的用的有點過量,連扔骰子都不可能完全iid,很多時候重複用了太多很強的條件。社會科學需要一些更細膩的描述


如果他在文章中對計量經濟學的說法是對的話,這篇文章我覺得沒什麼大問題;但是我稍微看了一下他重點引用的Young (2015),發覺兩個人說的好像不完全是同一回事。不知道 @慧航 有什麼看法

借Nick He的回答順著說下去

  • 第一層:兩篇都是經濟學的文章,我對經濟學並不太熟悉,說不出什麼
  • 第三層:這個問題我說不清楚,我覺得社會科學的研究當中有一部分還是可以做到完全隨機的,但是文章作者覺得不可能,一兩句話內我也無法提供什麼有價值的反駁

第二層:這是我主要想講的,因為涉及到了統計方法,這部分我稍微有點了解。如文章所言,一般藥物做療效研究的時候,是這樣的

(圖片來自:Schoeyen, H. K., Kessler,
U., Andreassen, O. A., Auestad, B. H., Bergsholm, P., Malt, U. F., ...
Vaaler, A. (2014). Treatment-resistant bipolar depression: a
randomized controlled trial of electroconvulsive therapy versus
algorithm-based pharmacological treatment. American Journal of Psychiatry, 172(1), 41-51.)

  我的舉例和圖片實際表示的並不相關。例如說紅線代表一種新葯,藍線代表安慰劑(又或者沒吃藥,或者已存在的藥物);如果想要說明新葯有效,那麼最嚴格的統計基礎應該是:兩條線的斜率存在顯著差異,且紅線斜率不為0。這是醫藥研究使用的標準

  而按照唐世平教授引用的Young (2015)的說法,目前計量經濟學主流的做法,是分別對紅線和藍線做回歸,如果紅線斜率不為0,而藍線斜率不顯著,則表示某種干預有效。這種做法在統計上來說,確實更容易造成假陽性結果。這也是為什麼Young (2015) 對研究效應的統計進行統合,以更嚴格的方式進行之後,不少原本陽性的結果並不能獲得重複

  另一方面,唐世平教授和Young (2015)都提到,計量經濟學存在對固定效應的濫用,以及對異方差處理不當的情況(例如濫用穩健參數、clustered 變異)。這方面的應對其實不難,進一步擴大多層線性模型(Mixed Effect model)的應用就好。通過加入隨機效應,就可以對每一層個體單位的參數分別進行估計;另外這類模型當中的協方差矩陣是可以有多種設置的,針對不同的數據類型甚至同一模型內不同層次的協方差都可以有不同的設置,這可以更好地應對數據間的相關性。只是不太清楚為什麼好像沒有看到太多人在用

參考

Young, A. (2015). Channeling Fisher: Randomization Tests and the Statistical Insignificance of Seemingly Significant Experimental Results. Working paper, October.


推薦閱讀:

為何動漫愛好者很多喜歡哲學或政治學?
在現代國家形成史,德、日、俄等後進現代國家都出現過從極端民族主義思潮到極權的過程,誘發極端民族主義的社會條件與文化心理在這些國家與社會有哪些相似之處?
政治學入門讀物哪本比較好?
在馬基雅維利的《君主論》中第三章 為什麼說「被占國人民不習慣自由生活時,掌控國家更容易」?
英國脫毆,法國右翼政黨崛起,特朗普當選,朴槿惠事件是否暗示著底層人民的反抗,世界新變革的來臨?

TAG:統計學 | 社會學 | 經濟學 | 政治學 | 計量經濟學 |