計量經濟學中,樣本容量是不是越大越好?

題主在寫應用計量的論文,由於研究問題的需要,樣本量非常大,而且數據完全可以整理出來。(具體多大可以參考這篇文章Trade, Democracy, and the Gravity Equation ,base model是100萬以上觀測)想問:

使用大樣本做微觀計量實證是否存在潛在的問題?我曾經跟一個老師討論過,他說用這麼大的樣本做回歸,即使某個解釋變數跟被解釋變數不相關,也能做出「好的」結果(意思是係數很容易顯著)。個人認為,很多統計規律本來也是基於大樣本的假設下才推導出的,按理樣本量越大,回歸結果準確性更高,諸如collinearity這類問題也會隨著樣本量增大而減弱。

我的老師說法有道理嗎?如果沒有道理,他為什麼會這樣說,不至於純粹主觀臆斷吧?如果有道理,那麼大家能接受的樣本量大致是多少,是不是樣本量過大以後反而容易被審稿人challenge,即使能用了IV證明causality?


這種觀點單純從統計的觀點來看,是很有問題的。

我們一般說的「好的」結果,一般來說指的是「顯著」的結果。我們知道,當我們做統計檢驗的時候,有兩類錯誤:

  1. 第I類錯誤:當原假設為真,卻拒絕了原假設
  2. 第II類錯誤:當備擇假設為真,卻接受了原假設

一般來說,我們做檢驗,是控制了第I類錯誤,比如常用的0.05的顯著性水平,意味著我們如果b=0,那麼做出「顯著」的結果的可能性為5%。這個數值理論上是固定不變的,不隨著樣本量的變化而變化。

問題出在第II類錯誤上。第II類錯誤意味著備擇假設為真,但我們卻接受了原假設。在檢驗理論中,我們通常是控制第I類錯誤,而盡量減少第II類錯誤。

我們通常定義P(拒絕原假設|備擇假設為真)為檢驗的「power」,當power越高,犯第II類錯誤的可能性就越小。

保持其他條件不變,當樣本量增加的時候,power會越來越高的,意味著當備擇假設為真的時候,犯第II類錯誤的可能性越來越小。

換句話說,如果參數本來就是「顯著」的,那麼當樣本量增加的時候,你更不會因為運氣的原因做出不顯著的結果來。

所以換句話說,樣本量越大,你越不需要靠「運氣」做出「好」的結果。

而他的原話指的是第I類錯誤,我們上面說了,第I類錯誤的發生概率是我們已經通過顯著性水平(5%)控制了的,所以他說的現象並不會發生。

所以呢,在我看來,至少現在我還沒想到什麼原因使得「大樣本」劣於「小樣本」,至少從統計理論方面來看。

**************

補充一點,如果真的要說第I類錯誤,那我也得說道說道。很多的檢驗都是所謂的「大樣本檢驗」,特別是不假設誤差項分布的時候,一般的檢驗都是基於大樣本性質的。常見的比如t-test, F-test一般是有分布假定才能得到的,否則只能是一個近似,當樣本足夠大的時候檢驗才「準確」。

這裡「準確」的含義是指,當原假設為真時(即模型本來就不顯著),那麼100次檢驗有5次會犯錯誤(做出了顯著的結果)。

所以當樣本不夠大的時候,其實我們的犯第一類錯誤的概率(p-value)也是不準的,樣本足夠大的時候才能保證p-value是準確的。

就醬。

*********************

再補充一條, @果陀提到的跟我說的不衝突。他提到的主要是「經濟顯著性」的問題,也就是一個變數對y可能是有影響的,但是影響很小,那麼雖然有「統計顯著性」,但是沒有經濟顯著性。

我上面提的是「統計顯著性」的問題,是一個0-1的問題:這個變數就經有沒有影響?而 @果陀提的是「經濟顯著性」(scale)的問題:這個影響究竟有多大?

在大樣本情況下,正如我上面所說,一些「經濟顯著性」不強的變數,可能更容易顯著,但是做出這樣的結果來不是說結論錯了,結論沒錯,統計上而言,結論上再正確不過了。只不過如果影響的確比較小,「經濟顯著性」可能沒那麼強。

如果樣本很小,某些「經濟顯著性」不強的便利可能壓根不顯著,這從統計上而言反倒是錯了,犯了棄真的錯誤。

只不過如果做不出統計顯著性,好像也沒必要探討經濟顯著性。而只有做出了統計顯著性,才有餘地討論經濟顯著性(scale)。

從這點來講,樣本大了絕對不會讓你犯錯,只不過要對係數的大小(scale)多加小心。


老師的意思可能是too-large sample size problem

以下的材料(Kennedy,2008 p. 60-61)對理解這個問題可能有用:

參考文獻:

[1]. Kennedy, P., A guide to econometrics(6E). 2008: MIT press.


結論是樣本量越大越好,你們老師的論斷是錯誤的。如果解釋變數跟被解釋變數不相關,當樣本量"足夠大"時,係數幾乎不可能顯著;除非你的估計不收斂,亦或者是有偏的。

但是,實證研究中常常會出現這樣的情況:樣本量越大,估計出來的相關性往往是顯著的,即使真值是不相關的。其原因在於,數據不滿足模型假設!!

現實的數據即使再怎麼好,與模型假設不可能完全一致。當樣本小的時候,這種模型誤設在一定程度上可以歸於誤差項;但是當數據量足夠大的時候,這種錯誤就會很明顯的暴露出來。

發現這種模型假設的錯誤往往更加有價值,這意味著傳統理論太粗糙而不足以解釋真實世界。當數據量增大的時候,就應該用更加精確的模型去描述數據,而不是拿著一個錯誤的模型去得出結論。


看了大家從數理統計、計量的角度分析這個問題,我就講一下最近聽你們一個講座(艾春榮教授的關於大數據的講座),他提到大樣本下應該警惕的是謬誤回歸,而謬誤回歸很容易忽略掉了。因為在大樣本或大數據下,回歸的結果很容易顯著(原因見其他答案),這有很多例子,因此這個情形下,更多的考慮是其因果關係,如果你找不出變數之間有任何聯繫,作回歸就沒什麼必要了;如果變數之間存在因果關係,回歸結果越顯著越好啦。


正好現在做的項目涉及到了這個問題,而且我的情況剛好印證了你老師的理論。

我個人認為,在某些情況下,樣本過大會導致任何statistical tests都significant。拿最常用的t test舉例子,在計算t value的公式中,分母是根號下variance除以樣本容量減一,也就是是樣本n越大,t就越大,而樣本平均數的差值的大小(分子)就會被無限的忽略掉,導致不管sample mean有多小,t都是顯著的。在我現在做的研究中,兩個對照組的年齡,一個是45.36, 一個是45.71。按理說這兩組年齡應該算是完全沒啥不同,但是算出來就是顯著,因為n=300k。顯著的結果導致我後邊的模型很受影響,因為模型中混入很多像這樣其實沒啥作用的變數。

遇到這種問題怎麼辦呢?我個人的方法是bootstrap。每一次從樣本中隨機抽取3000個樣本,然後進行t test,再將樣本放回,再重複,這樣做幾百次,看哪些變數在這幾百次的t test中都能保持顯著。這樣能更精確的篩選變數的作用。


先看結構,再看量。

結構就是看數據全不全面,全面的前提下符合貝葉斯的條件就夠了。如果沒有信念P,就根據自己需要的精度和能接受的成本均衡。

純粹問好不好的話,所有數據都統計走起,肯定是最好的了。^_^結構好的前提下越多越好。

至於你老師說的東西是和理論研究是否相符的問題,本來理論就只是理論而已,所有研究複雜問題的理論都是錯的(不夠精準),包括有些簡單問題也是這樣比如說經典物理理論。老師的話是讓你方便答辯什麼的,你聽了就是,關於複雜性和非線性的問題自己感興趣研究便好,沒必要糾結。


我從另一個角度試著解釋看看。

首先,不考慮取樣成本的話,樣本量大從統計檢驗上說應該是只好不壞的,問題在於此時統計檢驗力極強,因而會出現雖然統計結果顯著但效果量(effect size)很小的情況。那麼這個「顯著」可能並沒有什麼實質上的意義,也就是雖然有「統計顯著性」(statistical significance),卻沒有「實際顯著性」(practical significance),在經濟學情境里就是沒有「經濟顯著性」,(economic economic significance)。如果只用統計顯著性來取捨預測變數,容易在模型中納入不必要的冗餘變數。

胡亂舉個例子:譬如說我們要對某項考試成績進行預測,在樣本量極大的情況下可能會出現某一預測變數(譬如當天有沒有吃早飯)的標準化回歸係數很小很小(如b* = 0.005),但該回歸係數仍顯著的情況(而當樣本較小時,這個係數將通不過顯著性檢驗)。那麼這個變數在實際進行預測時其實是沒有太大意義的,屬於「你來了也沒什麼用增加模型複雜性不增加模型解釋力快聽你媽的話回家吃飯去」系列。

所以我猜你老師指出的樣本量太大帶來的問題不是出在統計上,而是這樣容易出現「由於統計顯著而被選入解釋模型的變數實際上並沒有什麼經濟意義」之類的問題。畢竟統計結果只是用於提供決策信息的,而最終的決策是否明智,統計是必要條件而不是充分條件。如果除顯著性外,再結合效果量進行判斷,可以減少這種情況的發生。

總結:說到底,不是樣本量太大帶來的問題,而是「唯統計結果是從」惹的禍。


這兩天看書剛好看到,希望可以幫到題主。在第二個圖可以看到,原來不是顯著的情況下通過擴大樣本量變顯著了。


關鍵在於抽樣!

關鍵在於抽樣!

關鍵在於抽樣!

你說時間序列?

關鍵在於可比性?


概率層面,樣本數越大,各種統計值越接近真值。

但是經濟學不是純概率,除了數學統計,還要去用人文學科的思路去【解釋】這些數據。

雖然現在無論論文還是研究,兩者可以說是一個過程,甚至往往認為的故意混為一個過程,即明明是主觀觀點,特地包裝成一個客觀的統計結論。

題注的超大大樣本,客觀上,確實給這種操作留有了空間。

具體地說,小樣本往往能且只能解釋單一的某些觀點,而大樣本,通過有意無意地取其中的數據子集,則可以解釋一切你想解釋的觀點。

舉個簡單例子,題主說的,全世界200多個國家,我取了其中150多個國家的數據,難道沒有代表性?

----------- 最極端的情況下,這150個國家的數據,是可以不包括中、美、印度、西北歐、日韓等發達國家的。 這樣即使150個國家的數據,當然也不能有效解釋出什麼問題。

再比如一個典型例子:美國大選,

大選本身就是一種超大樣本統計,按道理大選結論就能說明問題了吧。

但是你想通過大選數據,確鑿論證川普比希拉里強?這個並不顯然地簡單和直觀。

相反上,大選數據有很多manipulate的空間,去論證希拉里比川普更好。

(比如百分之多少受過高等教育的人支持希拉里、百分之多少高等院校、可研機構的人支持希拉里)

一言以蔽之,使用超大樣本,除非你把全部數據一視同仁地同時使用,並且說明這些數據不是來自一個更大的樣本中的子集,就沒什麼問題。

但是一旦你使用的只是其中的子集,就會發生該評審老師擔心的問題:你的數據是否經過有意無意的篩選?從而支撐你特定的結論?


我也在學習相關內容中,目前為止自我感覺可以從統計上挑2點說下樣本量並不是越大越好。

第一,相對於總體而言樣本量太大並不會太好,至少有時不會滿足統計中最流行的中心極限定理,因為此時不能保證其中樣本觀察值獨立性的假設,也就不能保證抽樣分布,然後什麼統計檢驗顯著性水平都做不了。

第二,其實也可以從計算式子看出,當其他都是一樣的條件,在樣本量大時進行顯著性水平測試時,即使實際不是顯著的,但由於樣本量大,使得分母變大,標準誤差就會變小,也就是樣本統計量的標準方差小,它的分布圖象顯得很集中,因此它的尾巴面積會顯得更小,也就能得出統計上的顯著結論等等,但實際並不清楚,畢竟你將這個試驗放在和他來自一樣總體僅樣本量比他小時得出的結論會不一樣。


我們老師對數據的一句描述是:rubbish in,rubbish out.數據不在龐大而在於精準和沒有太多的干擾因素。但是絕對的完美無干擾數據在自然社會裡當然是不存在的


我建議大家不要強答。更不要拋出一些統計的一類二類錯誤來解釋。

我在做的論文中也出現這麼個問題,我的樣本有300萬。所以,主要取決於你回歸什麼樣的模型,如果ols我覺得沒影響,但如果是其他的模型或者非係數方法的話,某些公式里樣本數量越大,方差也就越大。舉個例子,比如說survival function和hazard function。隨著你的樣本的增加,也許survival rate和hazard rate依舊固定不變,但他們的方差卻是在隨著樣本的增加而變小。這也就是你老師所說的:本來無關係,但樣本多了就顯著了的問題。有些研究會說某些模型樣本在多少多少的範圍內會準確。建議看你研究的相關領域的理論論文,應該有人研究過係數偏差、置信區間和一致性之內的。那些文章中會有討論。


就一般的抽樣設計能力來說,的確會出現你老師所說的情況。因為你設計的抽樣方式跟現實並非完全契合,所以抽樣數據的特徵也跟現實有偏差,而且這種偏差會隨著樣本數據量的提升逐步擴大,當然理論上樣本量再繼續擴大,偏差又會逐漸減小,畢竟樣本量的極限就是普查嘛


首先經濟類計量分析需要實際數據支撐,很多文章收集數據要好幾年。

大的樣本容量會給出客觀實際的結論,也就可能會使回歸結果偏離預期。一學姐曾提過不斷限制樣本條件但算出來還是與預期相悖,這個時候就得再仔細對數據分類,考慮更多影響因素,思索什麼因素使計量結果偏離預期。老師的教導是:自圓其說。如果不想修改預期推倒重來,就要找到使之偏離的因素並加以合理解釋。

這個合理解釋不是說逃避,而是在有知識基礎上的實際情況,一般要求有大量專業相關知識,各類文獻,還有對實例的把握。

如果都做不到,那就縮小樣本吧,用更有共性的數據做出顯著結果吧。


從一個分析工作的角度回答。量化數據的分析通常是比較不同的分組情況。這裡的分組可以是很簡單的,例如性別;也可以是多種複雜條件的疊加,例如各種移民身份的定義等。一個小樣本在多條件下的分組就會發現某些組別的人比其他組別少很多。那麼此分組中的樣本數太少就會導致標準差非常之大,組間比較就沒有什麼意義。如果是一個相對大的樣本,那麼組別之間的分析就會相對容易一些。這也說明離開實際情況討論大小樣本沒有什麼意思。關鍵在於分析的或者比較的目的是什麼,樣本量能夠滿足這個目的就是一個合適的樣本量。


還要具有隨機性,代表性呀


從大數據的角度來看,數據收集越大,我們掌握的事實數據越多,就越可能接近真實值。範圍越大,數據因為各種原因造成的偏差相對變小,各種往四面八方的偏差相對被修正到中間值,理論上不會因為樣本量大造成結論偏差。但我們數據選擇的重點在於選擇的樣本是否良好地代表了研究對象,不知道你的老師提出的問題有沒有和這個相關?

關於這類研究,我也一直很疑惑。我們基於某一公司、領域、地區或者國家什麼的面板數據研究某兩個或多個值間關係,我們提出的假設是相對線性的,同時也忽略了很多其他可能有微弱影響的因素,這真的不會給結論造成影響嗎?是否有可能是許多微弱影響因素共同作用的結果和結論才是真實相關、而我們的研究對象是偽相關呢?我們的研究是無法前後對比的,因為是基於經濟方面的事實數據,我們無法預判假如在那個時候不發生這件事,是否仍然會按此發展?或者以類似的經濟體作為參照對象,其中被我們忽略的微小不同是否會造成影響偏差的情況,從而導致參照對象與研究對象的區別?

之前和我弟討論關於論文數據的問題,我是經管類,他是工科。他表示他們就是做實驗 記錄 是否成立 不成立重新調整實驗方案 直到得出結論。聽著我就特別羨慕,感覺自己的論文就是大開腦洞想像一下哪些數據之間可能有關係,然後查文獻 找數據證明自己的腦洞正確。是否有一天我們可以發現,好久以前提出的被我們廣泛應用的某一關聯關係是偽相關?想想之後會發生什麼就覺得好有趣


簡單答一下:不能完全說錯,但有些情況下不是這樣的。

先從計量經濟學關心的bias和consistency兩個角度來講。第一,如果regression model沒有能capture certain data structure的話,樣本容量越大,bias越大。第二,即便樣本容量很大,也不能保證你關心的係數能夠實現consistency。還有一點,大樣本容量的優勢在於more variations in the data,如果variations少,也難得到「好的」結果(誠然,認為係數顯著就一定好的這種說法,也還是太像joking。)

你老師說的是經驗判斷,對於一個初出茅廬的研究者,這是很直觀的general knowledge,但是對於鑽研causality的計量學科來說,這話不嚴謹。對於每一個具體的問題,樣本容量大並不一定就能得到你想要看到的significant effects,就算看到了,也要看是不是有bias。(其實我也主要是intuitively speaking。。。)

知識有限,歡迎指正。


看模型或者統計背後的真實原因,那才是模型反饋出來的。統計指標能通過,說明適用性越強啊,能經得起更多樣本的檢驗。


偏差只要存在,樣本容量再大也沒有意義


當然


作為一個先入計量坑後入machine learning坑的大三狗,說下我的觀點吧。

首先,在計量裡面數據量大,不會有害處。真要說的話,只有運算時間,但這對計量方法來說,不足為道。

其次是,無論在什麼領域,只要數據的質量能保證,都是越大越好。因為大數據集可以通過抽樣得到小數據集,但反過來是做不到的。

第三,計量的數據集大小能做出顯著結論就夠了。你要知道經濟學感興趣的是inference。如果要forecast,除非你開了上帝視角,不然計量是一定干不贏機器學習那堆方法的。


推薦閱讀:

相關係數具有傳遞性嗎?
為什麼樣本量太大時用卡方檢驗做獨立性檢驗會失效?
如何有效處理特徵範圍差異大且類型不一的數據?
能否使用3的指數來減小二進位文件存儲的體積?
應該怎樣理解bootstrap的結果可以通過λ=1的泊松過程來模擬?

TAG:統計學 | 計量經濟學 |