回歸係數檢驗的問題?


頻率學派(我們以下所說的都是頻率學派的內容,區別於貝葉斯學派,詳見」貝葉斯學派與頻率學派有何不同? - 知乎用戶的回答「)的觀點是,參數存在客觀的絕對真理,但通過取樣估計不能看到背後的絕對真理,只能模糊地看見參數大致的位置,原因在於存在額外的雜訊。在這個例子中,零假設(回歸係數=0)就是對回歸係數這個永恆真理的猜想。

H0:絕對真理的回歸係數=0

如果H0成立,也就是如果絕對真理回歸係數=0,那麼在一次抽樣中,由於抽樣誤差引入的雜訊,致於估計出的回歸係數不可能精準地等於0。多次重複抽樣的結果亦如此,每次抽樣都能得到一個對於回歸係數的估計,但這些估計值都不可能精準地等於0,而是在0附近的若干值。通常,這些估計值靠近0的可能性大,遠離0的可能性小。特殊情況就是服從正態分布。

假設檢驗的邏輯是一句不證自明的話:「小概率事件在一次抽樣中難以發生」。

如果H0成立,那麼通過抽樣而得到的參數估計值應當服從某個統計分布。而我們通常不會重複若干次抽樣,而是只抽一次,得到一個估計值。這個估計值應當在真值附近波動。

在本例中,這段話翻譯為,如果絕對真理的回歸係數=0,那麼在重複抽樣中,通過樣本估計的回歸係數應當服從某個統計分布,具體而言,是以0為期望的某個分布。如果在一次抽樣中,得到的一個估計值a偏離0太遠,以至於在H0成立的假設下,如果要抽到比a還極端(離0更遠)的值,其可能性小於某個閾值(習慣用5%,這種預先設定α說法是基於E. Pearson和J. Nayman的假設檢驗理論,區別於Fisher的尾區概率p值的理論,詳見」統計學假設檢驗中 p 值的含義具體是什麼? - 知乎用戶的回答「),那麼得到估計值a就是小概率事件。統計學家們相信自己沒有那麼點兒背,一次抽樣就抽到一個小概率事件,所以傾向於認為是H0錯誤導致的,於是拒絕H0,認為絕對真理的回歸係數應當是某個非零值。

但如果碰巧H0還就真是等於零,而我們因為得到了極端估計值a所以否決掉了H0,這樣的判斷就犯下了錯誤。

頻率學派假設檢驗的解讀,一定是建立在重複抽樣之上的。

也就是說,如果零假設正確,那麼抽樣100次,得到100個估計值,平均可能得到5個極端估計值,如果我們因此而拒絕零假設,就會有5次機會做出錯誤的論斷。

一旦諳熟這一套邏輯,我們來看這句話的意思。

「若拒絕H0(回歸係數為0),表示回歸係數等於0的可能性小於0.05。」

首先,「回歸係數等於0的可能性」本身不是頻率學派的說法。在頻率學派中,回歸係數的取值是絕對真理的某個取值,不能討論其概率。討論其概率是貝葉斯學派的做法。所以在本句話中的「可能性」並不是討論其概率的意思。

其次,「可能性」在本句中的意思應該是我們做出統計推斷的「信心」,對於「信心」的解讀就需要用到重複取樣的思路。如果零假設正確,按照這樣的假設檢驗的方法和判斷流程,抽樣100次,得到100個估計值,平均可能得到5個極端估計值,如果我們因此而拒絕零假設,就會有5次機會做出錯誤的論斷。現在我抽取了一次樣本,取到了極端值而拒絕之,認為回歸係數不等於0,而如果絕對真理的回歸係數=0,則我的這一套方法得出錯誤結論的機會大概是每重複抽樣100次犯5次(回歸係數真實=0,而我判斷其不等於0的可能性=0.05)。如果當初設定的閾值是40%,那麼我的這一套方法得出錯誤結論的機會大概是每重複100次犯40次(回歸係數真實=0,而我判斷其不等於0的可能性=0.4)。

可見,這個閾值(0.05或0.4)描述的是這一套方法在重複取樣中犯」否定正確零假設「這一錯誤的概率,反映的是對這套方法的」信心「。


謝邀。

你這個說法也對,也不對。

先說為啥不對,出現某個t值的概率永遠為0,因為t分布是連續的分布。

為什麼也對呢?那個0.05,也就是我們說的alpha值,實際上就是犯第一類錯誤的概率,也就是本來H0成立,你卻拒絕了它的概率,換句話說就是我做了100次假設檢驗,真值為0我卻拒絕的次數為alpha

現在引入一些符號。假設事件AH_0為真,B為拒絕原假設,那麼:

alpha=Pleft( B|A 
ight)

而檢驗的power為:

eta=Pleft( B| ar{A} 
ight)

也就是H_0為假,並且拒絕H_0的概率。而你想要的概率是給定拒絕,而H_0為真的概率,根據貝葉斯公式:

Pleft( A|B 
ight) =frac{Pleft( B|A 
ight)cdot Pleft( A 
ight)  }{Pleft( B|A 
ight)cdot Pleft( A 
ight)  +Pleft( B|ar{A} 
ight)cdot Pleft( ar{A} 
ight)  }
=frac{alphacdot Pleft( A 
ight) }{alphacdot Pleft( A 
ight)+etacdot Pleft(  ar{A} 
ight) }

所以,這個概率有三個因素所影響,除了alpha外,檢驗的勢如果越高,則(給定拒絕H_0而實際H_0為真)的概率越低。


謝邀,獻醜,輕拍。

首先限定下我回答的內容:t值出現的可能性與H0成立的可能性是不是相關的?

話說,這真的是小問題可以引申出大道理啊。

先推薦點題主比較需要的內容。cousera上的一組視頻Coursera.org,重點理解下什麼是Power。把type one error(alpha棄真)和type two error(eta取偽)看明白。

H0和H1成立的可能性很複雜。容易知道的是,某個假設成立的前提下,出現給定結果的可能性有多大。通過對實驗的設計來控制eta,通過推測方法的設計來控制alpha

對於alpha或者說對於H_0,如果發現試驗結果落在可能性非常低的區間里,就逆推回去,說原假設不大可能成立。但這個逆推過本身就可能犯錯(即小概率事件真的發生了)。p-value就是控制這個逆推過程錯誤的概率。

好了,回到問題。需要回答的是P(H_0  True)。這個,比較難說。咱們由淺入深。不妨假設已經知道了P(H_0  True),看看還能知道什麼。

首先,根據定義:

alpha=P(Positive|H_0  True)eta=P(Negative|H_0  False)

翻譯過來,H0成立的情形下,推斷結果顯著的概率是alpha;H0不成立的情形下,推斷結果不顯著的概率是eta

那麼,根據貝葉斯公式:

P(H_0  True|Negative) =
frac{P(Negative|H_0  True)P(H_0  True)}
{P(Negative|H_0  True)P(H_0  True)+P(Negative|H_0  False)P(H_0  False)}

代入alpha, eta,並記p=P(H_0  True)

P(H_0  True|Negative) =
frac{(1-alpha)p}
{(1-alpha)p+eta (1- p)}

這個才是真正意義上的,「推測結果不顯著的前提下,H_0成立的概率」。但其中有兩個重要變數未知,P(H_0  True)eta。這也是為什麼統計上那麼強調,沒拒絕不等於接受。像不像女神對備胎的態度?

如果看完上面的視頻,你會知道,eta取決於樣本容量,取決於產生數據的真實分布與H_0相距多遠,本身就很難知道。

不過請注意一點,eta越小,小到趨近於0時,P(H_0  True|Negative) = 1!

也就是說,在你基本不會犯Type Two Error的前提下,推測的結果一定是對的。這個時候,你才可以大膽的說:「不要那麼保守,試驗結果不顯著,原假設就一定成立!」

至於P(H_0  True)?那是上帝的秘密。更深入的討論必須結合具體問題,或者你的世界觀。

情景A:上帝根據P(H_0  True)來為世界選一個狀態,然後把你丟進這個世界。那麼你的世界裡不是P(H_0  True),就是P(H_0  False)。你當然可以作試驗來推測一些東西,但這時你的推測結果反映的是你的信念,即自己究竟處在兩個狀態中的哪一個。而世界本身的狀態不會變化。

情景B:上帝把你丟入這個世界,發現你竟然喜歡做實驗。好吧,那上帝給你來點刺激:不確定性。根據分布P(H_0  True),一會兒讓你試驗的結果來自於H_0  True,一會兒讓它們自於H_0  False,但分布本身不變。那麼請問,作為設計試驗的觀察者,你能推測出P(H_0  True)嗎?(我個人表示絕望。而且懷疑這樣子設定問題的合理性。)

對於情景A,來想像一個多次試驗的例子。

如果H_0是真的,那麼每次做推斷的結果應該都是不顯著,但在這許多次試驗中(收集數據,作推斷),根據你設計的推斷規則和置信水平,比如5%,大概會有5%的結果顯著。但你並不知道這是小概率事件發生的結果,你只是忠實的做著推斷——拒絕H_0。所以:

Prob(收集到「導致你犯Type One Error的數據」)=5%。

那麼,如果你發現做了1000次試驗,即拿1000組不同的數據作同一個推斷(問同一個問題),發現竟然有50%甚至80%的結果都顯著,那H_0極可能不是真的。

但具體怎麼通過實驗次數E,每一次的樣本容量N,其中顯著的比例S,用來推斷的公式f,來反推P(H_0  False),我不清楚。

不過統計上有一個公式,叫Hoeffding"s Inequality,說的是大樣本情景下的故事。儘管你沒有進行很多次試驗,但是你一次試驗就收集了很多數據,似乎相當於作了很多試驗,如果沒有抽樣的系統性偏誤(Bias),那麼推測的結果的可信度也肯定比一次小樣本的推斷來的可靠。具體到這個答案的設定,就是N 	o infty, eta 	o 0。但Hoeffding"s Inequality給出的也不過是個上限。具體P(H_0  False)=?,我不清楚。

最後,虛位以待統計大牛,免得我誤人子弟~


愚以為題主是沒有理解老師說的,只記住了大概,所以有相關疑問。

我來理理思路:

我看到了H0 ,題主看的應該是英文書吧, 那個reject 應該翻譯成否定, 是否定 H0,不是拒絕哦。所以這應該是一道 假設驗證和線性回歸結合的題。

α=0.05 表示你需要有95%說出你的結論,不管你說X和Y符合線性關係還是不符合。

所以第一步,做假設,H0:β1=0 表示 X和Y 沒有線性關係。

第二步,假設Ha:

第三步,計算檢驗參數t

第四步,確定否定區間

第五步,判定t是否在否定區間

來道例題,這是我的答題新風尚~

所以上表中的數據可以得到

怎麼求來的看我之前的回答(如何推導會計中線性回歸方程公式? - Zhang Calvin 的回答)

設α=0.05,也就是說你有沒有95%的把我說X和Y之間是存在一個線性關係

Ho: β1=0(真值,不是由樣本得來的量)

Ha: β1≠0

求t=19.7436(計算公式在上面,自己翻一下)

比較 t_{0.025,10-2} 和 t 之間的大小

查表得t_{0.025,10-2} =2.306 (查的是t檢驗 的正態分布表,如圖)

於是發現,t&> t_{0.025,10-2} ,所以在否定區間內,所以推翻Ho,即Y與X 沒有線性關係。所以我們可以有95%把握說 X和Y 符合線性關係。


0.816


這真是個奇怪的問題。。

首先t是連續分布,不能算單點概率。

如果你在沒有任何數據的情況下,想知道t值在critical region的概率,那確實是取決於你H0的significant level,這個區間越小,H0被reject的幾率越小。

如果說t值出現在H0範圍的概率為40%,那麼H0成立的可能性為40%,可這就是句廢話啊。。

也許是我沒能理解題主的意思。


推薦閱讀:

長尾數據如何進行回歸分析?
什麼是歸一化,適用場景是什麼?請舉個例子說明歸一化帶來的好處是什麼?

TAG:統計學 | 統計 | 回歸分析 | 回歸模型 | 線性回歸 |