如果用總體作為數據,那麼回歸係數的顯著性還有意義嗎?


隨機性都沒有了顯著性就無從談起。

因為顯著的定義就是原假設為真的情況下,統計量比觀察值更extreme的概率 (p-value) 小於某個預設的level,比如0.05。如果總體已經觀察到了,樣本的獲得沒有隨機性,也談不上概率了。

當然現實中很少有獲得「總體」的情況,要不不現實,要不問題本身就沒什麼意義了。

另外一種情況是總體中每個subject的outcome有測量誤差且不可忽略,這也會帶來隨機性。這時候問題實際上關乎modeling層面了。

-----------------------------------------------------------------------

被編輯收錄的高票答案我個人不能完全同意。主要不同意的地方在於回歸的範圍很廣,有很多模型不依賴變數的正態假設,比如有些semi-parametric model甚至不做具體的分布假設,但是仍然可以討論回歸參數的顯著問題。那位答主也給我留了言,我的理解是他回答的問題是「如果研究者把樣本當作總體會出現什麼情況」,或者"總體作為數據的情況是否可能出現」。這些都是有意義的問題,但是我不確定是否是題主提出的問題「如果總體作為數據,那麼回歸的顯著性還有意義嗎」。

另外不同意的地方是其答案中暗示當樣本足夠大時,可以假設正態分布。這和一個比較廣泛的關於中心極限定理的誤解有關,也特別容易對不太了解統計的人士造成誤解:中心極限定理的描述對象是獨立同分布的變數之和或平均值,而不是變數的總體分布本身。比如擲硬幣,不管重複多少次,結果都只能是兩面之一(忽略其它罕見情況),但是正面朝上的總數近似於正態。所以對於二元變數有對應的模型(比如Logistic Regression),對於heavy-tailed的變數也有相應的方法,等等。

-------------------------------------------------------------------

另一個答案回答的問題其實是「如果觀察到總體,能不能得出因果關係即causality」。可是題目問的是顯著性,不是因果性。因果關係是另一個範疇的問題。是無論有沒有觀察到總體都存在的問題。通過和答主的進一步交流,我們發現主要分歧在於他所說的population是包括了所有可能的treatment assignments及結果,即他領域內所謂superpopulation。但是我認為名詞之間不應該混淆。既然已經有「超總體」(superpopulation)對應這個概念,在我們談論總體(population)的時候,就應該能夠確認談論的不是超總體,否則這兩個名詞就失去了專屬的意義。

因果關係確實不能輕易得出,因為觀察不到counterfactuals,即同一個subject如果其它條件都不變,得到的treatment是未觀察到的那個,outcome是否不同,即所謂平行宇宙會出現什麼情況。王同學給出了一篇很有意思的paper,大家如果對causal inference有興趣可以去讀一下。

但是那個答案最後對permutation test的說法也有待商榷。如果已經觀察到Y了,test的時候再怎麼重新分配treatment,counterfactuals也觀察不到了,因果關係也不能得出。除非一開始設計實驗的時候做隨機分配,或者拿到數據後想辦法adjust可能的confounder。要不然大家研究causality那麼費勁幹嘛,直接把數據拿來做permutation test不就完了。

還有用X的隨機性教育我的,一般來說X是effect的ancillary,其分布不依賴回歸係數,做inference的時候會先conditioning on X,將其視為常數。求p-value時統計量裡面的涉及X的項也視為常數。這也是統計課本上很少有討論X分布的原因。

有一個例外是有新的觀測進入樣本要做預測,這時候X的方差就需要考慮進來了。但是題主問的是已知population,不存在新觀測的問題。

-------------------------------------------------------------------------


這個問題問得很好啊,Abadie,Athey,Imbens和Wooldridge四位計量經濟學巨牛2014年有一篇論文主要就是講這個事兒(Abadie et al., 2014, Finite Population Causal Standard Errors)。他們舉的例子是,美國的州總共就50個,所以任何以州為單位的回歸都不涉及抽樣的過程,也就是題主說的「以總體為數據」。比如我們感興趣的問題是,年平均氣溫是否對經濟發展有影響,那麼是不是用各州的人均GDP對年平均氣溫做個回歸,得到的係數就是確定無疑的答案,從而其顯著性沒有什麼意義了呢?

答案是否定的。原因在於,我們想知道的並不是氣溫高的州是不是比氣溫低的州經濟更加發達,而是原本氣溫高的州如果氣溫降低了,其經濟增長會受到怎樣的影響(前者只是「描述」,即相關性,後者才是「推斷」,亦即因果性)。換言之,可以想像在某個平行宇宙中,由於造物主的手一抖,加州變成了寒冷的州,而阿拉斯加四季如春,那麼兩地的發展會發生怎樣的變化呢?

顯然,在每一個這樣的平行宇宙中,我們都可以得到一個GDP對氣溫的回歸係數,係數的大小會隨著該宇宙中各州氣溫的實際分布而有所不同。在統計學和計量經濟學裡,所有這些平行宇宙的總和被稱為「超總體(superpopulation)」,而我們觀察到的這個總體(即五十個州及其氣溫和GDP狀況),可以被視為從超總體中抽出的一個樣本。由此得到的回歸係數標準誤,則說明了氣溫對GDP的真實效應在超總體中分布的離散程度。如果標準誤小,顯著性高,就意味著如果隨機地給各州分配一次氣溫,我們觀察到的結果有很大的可能接近目前的情況。否則,目前的情況則更應該被視作是由偶然因素引發的意外。

其實這也正是Fisher隨機檢驗的基本思想:在得到估計值之後,我們可以把自變數再重新分配給每個個體,基於零假設和每次分配的結果,我們都能算出一個新的估計值;最後只需要看看原始估計在整個估計值分布中的位置,就能知道顯著性(p值)是多少了。


在估計ATE時,由於「因果識別的根本問題」,一個observation不可能既是處理組,又是對照組,不存在掌握總體數據的情況。

這個我覺得高票答案也是過分了,學術討論有對有錯,@王也 不管說得對不對,人家也是讀專業書的

Alberto Abadie, Susan Athey, Guido W. Imbens, Jeffrey M. Wooldridge

高票答案匿名作者來說說,王也引的文章這四個作者哪個是民科?


    @王也 和 @匿名用戶 的回答主要討論的是「通常用於無限總體的回歸分析套用到小規模有限總體得到的標準誤的理論意義」,實證研究者未必感興趣,但值得數理統計偏理論方向的科班同學閱讀。我的回答主要面向心理與教育實證研究領域的知友,將問題操作化為:全國人口普查數據若干變數作線性回歸,得到的回歸係數顯著性有沒意義。如果此問非所問,題主可忽略下文。

    回答摘要:真實世界的觀測數據樣本量足夠大,回歸係數總是顯著。這個假問題背後的真問題是:回歸係數顯著性被濫用於自變數取捨決策;回歸分析並非求真而是求參數節儉模型可讀。下面從幾個不同的視角澄清若干對實證研究者有意義的教學盲點。

  • 區別「x 作為 Y 總體的參數」與「X 作為 (X, Y) 總體的變數」

如果用總體作為數據作回歸,「x 作為 Y 總體的參數」與「X 作為 (X, Y) 總體的變數」是不同的情境。這裡不妨把問題簡化到正態分布線性回歸的最 low 情形,回歸模型有兩種,教科書常說的一種:假定 x 不是隨機數而是「下一輪重複研究中不變的」n 維固定向量,Y 才是 n 維正態隨機向量;實際常用的另一種:假定 p X 和 1 個 Y 合起來是 p+1 維隨機分布。要區分二者,可以操作性地問:下一次獨立重複抽樣,X是不是要變。很多實證研究是後者的設定,套用的卻是前者的模型。有一個挺普遍的實踐問題可以提醒研究者理解二者的重要區別:R^2的定義隨 x 的範圍發生實質性的改變,數值從0變到1。兩種模型的R^2及其總體參數推斷有非常不同的意義。

對於前者「x 作為 Y 總體的參數」,如果在若干個 x 點上有各自 Y 條件分布總體,每個總體包含很多個案。那麼,只有在近似的意義上才好對這些不同 x 點的 Y 條件分布總體套同一個足夠簡單具有可讀性的回歸模型。所謂近似,就是把包含很多個案的 Y 條件分布總體看成某種無限個案分布的大樣本,這種分布雖然個案無限,參數卻更為節儉。這裡要點是:回歸分析並非求真,而是求參數節儉模型可讀

  • 由抽樣操作定義的潛在無限總體

Wilkinson TFSI (1999, p.595) 指出,初學者往往混淆「某個有限的具體人群」、「特定變數組無限次獨立抽個案的隨機總體」。這篇文獻強調,總體實際上由抽樣的操作標準定義,只要沒把抽樣的操作說清楚,就等於沒有說清楚總體。統計推斷,推及的是同樣的抽樣操作得到的無限次「下一輪重複結果」的分布。

大部分統計教科書理論模型的抽樣,是有放回地無限次獨立抽個案,抽出無限長序列。大部分實證研究則相反,是從有限研究群體中不放回地抽一組樣本。在群體規模夠大,兩種情形的分布足夠近似,教育和心理領域的實證研究中不會去特別處理二者的差異。題主如果是指教育和心理領域的研究可以作為數據輸入的「總體」,典型情形比如普查數據,不是理論上包含無限個案的有放回獨立抽樣的總體。

  • 回歸係數顯著性容易誤讀誤用,置信區間不容易誤讀誤用

「包含許多個案的有限總體」算總體還是大樣本,也許只有應試教育答題意義,在教育與心理領域的實證研究中並無大礙。「包含許多個案的有限總體」算出的點估計能不能當作總體參數,置信區間半徑是直接的依據,區間半徑窄於數據精度,就可以在置信水平的把握上認為是總體參數。置信水平的操作化意義是:無限次「下一輪重複研究」得到的置信區間踩到潛在的固定總體參數的頻率比例。

可以這麼看:「包含許多個案的有限總體」先被近似地當作一個大樣本,背後是包含無限個案的某種節儉參數的總體(比如正態分布)。然後各種基於節儉參數分布假設統計模型才被套用,得出估計值和置信區間。當研究者說某個「有限總體」作回歸得到顯著性報告,他通常都是把「有限總體」當作可以任意無限抽樣的總體的大樣本。更具體比如,如果研究者說所有人的智商正態分布,這個「地球上的所有人」是有限多的,其實是正態分布總體的大樣本。這裡的要點是,「包含許多個案的有限總體」並不能被節儉而精確地表述,只可以節儉而近似地表述為「潛在無限總體」的大樣本。

樣本量很大的時候,報告置信區間+點估計總是穩妥的。不是說報告「假設檢驗p值 + 點估計」一定不行,只是 p 值比置信區間更容易被誤讀。比如很小的點估計+顯著的p值,容易被誤讀為有明顯的效應;如果看置信區間,區間裡頭每個點都小到可以忽略為零,就知道應該報告效應顯著地可忽略。如果非要用拒絕H_0的八股措辭,可以說:拒絕了「效應絕對值 ≥ 可忽略閾值」的虛無假設。在 如何看待「Basic and Applied Social Psychology」禁用 p 值事件? - 李曉煦的回答,有更系統一點的講述。

在心理和教育領域,題主所謂「用總體作為數據」是有現實感的問題,操作化實例比如全國人口普查數據若干變數作線性回歸,問其中某自變數要不要用於預測因變數。此類研究實質不在於總體有限還是無限,而在於「顯著不顯著」不等於實證中的「要不要用於預測」。這個錯誤解讀還有一層教學背景:絕大多數教材,都在以烹飪手冊的方式,示範回歸係數顯著性如何作為增刪自變數的操作依據。在(區別於實驗設計生成數據的)大樣本觀測數據實證研究中,這是一個很基本的範式錯誤。只要是來自滾滾紅塵現實世界的觀測數據,樣本量任意擴張,所有回歸係數都會顯著;樣本量如果夠小,所有回歸係數都會不顯著。

  • 回應@匿名用戶 回答的評論

@匿名用戶 的回答批評本答案原來版本中「大樣本的樣本分布近似正態」,這個批評沒錯。本答案最初版本過多借重「p X 和 1 個 Y 合起來是 p+1 維近似正態分布」的模型設定,這是教育與心理學觀測數據實證研究、特別是結構方程模型的實證研究默認假設。對於本文所針對的受眾讀者,如果現在回答版本的「包含無限個案的某種節儉參數的總體」不知所云,不妨仍以近似多元正態總體去解讀。

另外,在回歸應用很重要的一個概念細節注釋一下 @王也 的回答。回歸分析的「預測」完全不涉及 Counter-factualist 因果。預測就是對總體的「給定X水平下Y條件分布的描述」,具體比如用現在的化石數量 / Pre-dict 過去的物種數量。預測是描述的特例而不是因果的特例。在強調實驗設計的學科,因果總是以Counter-factualist的定義區別於預測。但是在社會學、政治學、計量經濟學,大部分實證研究都不涉及控制組設計和實驗變數操控,因果這個詞視語境未必有實驗設計學科那麼強的意味。比如各種回歸分析的實證結果,都在報告 X Y 的效果,這個「效果」好像是「因」,其實只是「有地預測」。對這一點的批評者,沒有必要僅僅因為摳一個術語而無視 @王也 回答本意,不妨把其中所有的因果通通替換成預測以免歪樓。

最後,對不同研究社群的互相置評說兩句。我的科班訓練背景是數學系的概率統計,在教育、心理院系教統計課,算比較了解兩群人之間的Cultural Shock。甲之常識乙之盲點是很經常碰到的事情,通常在理解對方為什麼將常識視作盲點的時候,反而不會急切置評。Critical Thinking 有所謂稻草人謬誤,具體而言,這篇回答論點並非大樣本就得近似正態、回歸就得線性關係誤差正態,@王也 的回答論點並非因果=預測。這些被抨擊的稻草人不妨讀作數學證明格式里的「不妨設」。


如果覺得 Y 沒有隨機性了,回歸方程係數就沒有隨機性了,那是大學沒學過抽樣設計或者實驗設計。

experimental design 的本質是確定在哪些 X 的location 觀測Y,來 最大化 回歸方程能從觀測點Y 獲得的信息量。 Y 的全體是已知的,但是Y 和 X 的 (線性)相關方程是未知的。 Y 沒有隨機性,但是這個回歸方程仍然是不確定的。 在確定這個 回歸方程的時候,回歸 係數的variance是對這種不確定性的刻畫。線性回歸中,回歸係數的方差應該是X矩陣的一個function。 回歸係數 有方差,就有顯著性。

感覺王也的答案說的也是這個意思。


如果已經知道「總體」,那你應該在這個系統內是全知全解的。我想這時候應該不需要回歸模型?

你的離散「總體」的參數總是不會完全符合假設分布,所以一定是從數據上推翻回歸對「總體」的假設的,因此回歸在這種情況下無法使用才對。


如果有總體數據,就不需要去估回歸參數了。本來就是為了通過回歸參數去研究總體,總體數據都有了,就沒必要估算了。


統計渣來獻個丑,說錯了請輕噴,也歡迎討論。

我覺得,這個問題是不是能考慮成,假設的模型用樣本內(in-the-sample)數據檢驗是否有效?因為你都用總體數據了,那豈不是所有數據都是樣本內了。

感覺這麼一想的話,顯著性還是蠻有用的。

啊,打字好累啊。


先說說顯著性是什麼

顯著性,又稱統計顯著性(Statistical significance), 是指零假設為真的情況下拒絕零假設所要承擔的風險水平,又叫概率水平,或者顯著水平。

你已經得到總體了,那麼就不存在估計值的問題了,因為你得到的【樣本】不存在隨機性,那麼概率就無從談起了。顯著性也就沒有意義了。


這種情況下,貌似是直接「求」參數(如果有的話)而不是「估」參數,所以確實沒有統計推斷的必要了……

但是,「已知總體」要求直接給出概率的定義,這種假設強到沒人敢用啊……


How do you interpret standard errors from a regression fit to the entire population?

個人認為Context matters. 看完Top 10 統計 PhD 和 @王也 的分歧,我覺得有沒有意義

完全取決於手裡的問題。

PS,為啥知道了總體的joint distribution 就不能跑個回歸呢?

"The term regression is used in a much broader sense today. A regression of y on x

is any feature of the probability distribution of y on x. The feature of interest might be

the mean, median, mode or variance" (Manski, 1991) 用這個定義,我覺得回歸當然適

用於總體數據啊。

以及怎麼出現了四位計量大佬是民科這個說法?從科普的角度講,四位確實還挺親民的。


總體是一個隨機變數的所有實現,每一個樣本點只是一次總體的實現,無論你有多少實現的數據,你也不可能以總體為數據。


好好看看ASA關於p-value的claim,為什麼還這麼糾結顯著性,知識需要更新啊~


回歸係數的顯著性不是說在當前模型下,此項回歸係數對因變數的影響是否有效(顯著)么?

為啥很多答案感覺都看不懂....(我是半瓢水)

我的理解,舉個栗子:

我們有總體所有的數據,分別為:

小明的身高:A

小明老婆的身高:B

小明爸的身高:C

小明媽的身高:D

小明老婆她爸的身高:E

她媽的升高:F

社會發展指數:G

國民平均身高:H

小明 隔壁老王的身高:I....

有預測模型 SB=aA+bB+cC+dD+eE+fF+fG+hH+iI+e

當預測因變數SB 為小明老婆生兒子的概率時,恕我直言,上述回歸係數顯著性檢驗都接受假設。

感覺還是有點意義的嘛。


哈哈,你把全樣本帶進入跑回歸,那計算機怎麼知道它是全樣本,還不是按抽樣的處理,該顯著顯著,不顯著就不顯著唄


統計學意義還是實際意義?

其實也沒關係,因為樓主說的情況下,兩種意義都無。


推薦閱讀:

為什麼異方差只有對非線性模型來說才是致命的?
計量經濟學中t檢驗f檢驗是什麼 他們有什麼關係?
一個變數的計量結果原本不顯著,但增加控制變數後變得顯著,其結果是否可信?
面板數據可以用非線性模型嗎?
什麼是時間序列模型,什麼是弱平穩和嚴格平穩?

TAG:統計學 | 統計 | 計量經濟學 |