回歸係數檢驗的問題?
頻率學派(我們以下所說的都是頻率學派的內容,區別於貝葉斯學派,詳見」貝葉斯學派與頻率學派有何不同? - 知乎用戶的回答「)的觀點是,參數存在客觀的絕對真理,但通過取樣估計不能看到背後的絕對真理,只能模糊地看見參數大致的位置,原因在於存在額外的雜訊。在這個例子中,零假設(回歸係數=0)就是對回歸係數這個永恆真理的猜想。
H0:絕對真理的回歸係數=0
如果H0成立,也就是如果絕對真理回歸係數=0,那麼在一次抽樣中,由於抽樣誤差引入的雜訊,致於估計出的回歸係數不可能精準地等於0。多次重複抽樣的結果亦如此,每次抽樣都能得到一個對於回歸係數的估計,但這些估計值都不可能精準地等於0,而是在0附近的若干值。通常,這些估計值靠近0的可能性大,遠離0的可能性小。特殊情況就是服從正態分布。
假設檢驗的邏輯是一句不證自明的話:「小概率事件在一次抽樣中難以發生」。
如果H0成立,那麼通過抽樣而得到的參數估計值應當服從某個統計分布。而我們通常不會重複若干次抽樣,而是只抽一次,得到一個估計值。這個估計值應當在真值附近波動。
在本例中,這段話翻譯為,如果絕對真理的回歸係數=0,那麼在重複抽樣中,通過樣本估計的回歸係數應當服從某個統計分布,具體而言,是以0為期望的某個分布。如果在一次抽樣中,得到的一個估計值a偏離0太遠,以至於在H0成立的假設下,如果要抽到比a還極端(離0更遠)的值,其可能性小於某個閾值(習慣用5%,這種預先設定α說法是基於E. Pearson和J. Nayman的假設檢驗理論,區別於Fisher的尾區概率p值的理論,詳見」統計學假設檢驗中 p 值的含義具體是什麼? - 知乎用戶的回答「),那麼得到估計值a就是小概率事件。統計學家們相信自己沒有那麼點兒背,一次抽樣就抽到一個小概率事件,所以傾向於認為是H0錯誤導致的,於是拒絕H0,認為絕對真理的回歸係數應當是某個非零值。
但如果碰巧H0還就真是等於零,而我們因為得到了極端估計值a所以否決掉了H0,這樣的判斷就犯下了錯誤。
頻率學派假設檢驗的解讀,一定是建立在重複抽樣之上的。
也就是說,如果零假設正確,那麼抽樣100次,得到100個估計值,平均可能得到5個極端估計值,如果我們因此而拒絕零假設,就會有5次機會做出錯誤的論斷。
一旦諳熟這一套邏輯,我們來看這句話的意思。
「若拒絕H0(回歸係數為0),表示回歸係數等於0的可能性小於0.05。」
首先,「回歸係數等於0的可能性」本身不是頻率學派的說法。在頻率學派中,回歸係數的取值是絕對真理的某個取值,不能討論其概率。討論其概率是貝葉斯學派的做法。所以在本句話中的「可能性」並不是討論其概率的意思。
其次,「可能性」在本句中的意思應該是我們做出統計推斷的「信心」,對於「信心」的解讀就需要用到重複取樣的思路。如果零假設正確,按照這樣的假設檢驗的方法和判斷流程,抽樣100次,得到100個估計值,平均可能得到5個極端估計值,如果我們因此而拒絕零假設,就會有5次機會做出錯誤的論斷。現在我抽取了一次樣本,取到了極端值而拒絕之,認為回歸係數不等於0,而如果絕對真理的回歸係數=0,則我的這一套方法得出錯誤結論的機會大概是每重複抽樣100次犯5次(回歸係數真實=0,而我判斷其不等於0的可能性=0.05)。如果當初設定的閾值是40%,那麼我的這一套方法得出錯誤結論的機會大概是每重複100次犯40次(回歸係數真實=0,而我判斷其不等於0的可能性=0.4)。
可見,這個閾值(0.05或0.4)描述的是這一套方法在重複取樣中犯」否定正確零假設「這一錯誤的概率,反映的是對這套方法的」信心「。
謝邀。你這個說法也對,也不對。先說為啥不對,出現某個t值的概率永遠為0,因為t分布是連續的分布。為什麼也對呢?那個0.05,也就是我們說的值,實際上就是犯第一類錯誤的概率,也就是本來H0成立,你卻拒絕了它的概率,換句話說就是我做了100次假設檢驗,真值為0我卻拒絕的次數為。現在引入一些符號。假設事件為為真,為拒絕原假設,那麼:而檢驗的power為:也就是為假,並且拒絕的概率。而你想要的概率是給定拒絕,而為真的概率,根據貝葉斯公式:
所以,這個概率有三個因素所影響,除了外,檢驗的勢如果越高,則(給定拒絕而實際為真)的概率越低。謝邀,獻醜,輕拍。
首先限定下我回答的內容:t值出現的可能性與H0成立的可能性是不是相關的?話說,這真的是小問題可以引申出大道理啊。先推薦點題主比較需要的內容。cousera上的一組視頻Coursera.org,重點理解下什麼是Power。把type one error(,棄真)和type two error(,取偽)看明白。H0和H1成立的可能性很複雜。容易知道的是,某個假設成立的前提下,出現給定結果的可能性有多大。通過對實驗的設計來控制,通過推測方法的設計來控制。對於或者說對於,如果發現試驗結果落在可能性非常低的區間里,就逆推回去,說原假設不大可能成立。但這個逆推過本身就可能犯錯(即小概率事件真的發生了)。p-value就是控制這個逆推過程錯誤的概率。好了,回到問題。需要回答的是。這個,比較難說。咱們由淺入深。不妨假設已經知道了,看看還能知道什麼。
首先,根據定義:
,翻譯過來,H0成立的情形下,推斷結果顯著的概率是;H0不成立的情形下,推斷結果不顯著的概率是。那麼,根據貝葉斯公式:
代入,並記
這個才是真正意義上的,「推測結果不顯著的前提下,成立的概率」。但其中有兩個重要變數未知,和。這也是為什麼統計上那麼強調,沒拒絕不等於接受。像不像女神對備胎的態度?
如果看完上面的視頻,你會知道,取決於樣本容量,取決於產生數據的真實分布與相距多遠,本身就很難知道。不過請注意一點,越小,小到趨近於0時,!也就是說,在你基本不會犯Type Two Error的前提下,推測的結果一定是對的。這個時候,你才可以大膽的說:「不要那麼保守,試驗結果不顯著,原假設就一定成立!」
至於?那是上帝的秘密。更深入的討論必須結合具體問題,或者你的世界觀。
情景A:上帝根據來為世界選一個狀態,然後把你丟進這個世界。那麼你的世界裡不是,就是。你當然可以作試驗來推測一些東西,但這時你的推測結果反映的是你的信念,即自己究竟處在兩個狀態中的哪一個。而世界本身的狀態不會變化。
情景B:上帝把你丟入這個世界,發現你竟然喜歡做實驗。好吧,那上帝給你來點刺激:不確定性。根據分布,一會兒讓你試驗的結果來自於,一會兒讓它們自於,但分布本身不變。那麼請問,作為設計試驗的觀察者,你能推測出嗎?(我個人表示絕望。而且懷疑這樣子設定問題的合理性。)
對於情景A,來想像一個多次試驗的例子。
如果是真的,那麼每次做推斷的結果應該都是不顯著,但在這許多次試驗中(收集數據,作推斷),根據你設計的推斷規則和置信水平,比如5%,大概會有5%的結果顯著。但你並不知道這是小概率事件發生的結果,你只是忠實的做著推斷——拒絕。所以:
Prob(收集到「導致你犯Type One Error的數據」)=5%。那麼,如果你發現做了1000次試驗,即拿1000組不同的數據作同一個推斷(問同一個問題),發現竟然有50%甚至80%的結果都顯著,那極可能不是真的。但具體怎麼通過實驗次數E,每一次的樣本容量N,其中顯著的比例S,用來推斷的公式f,來反推,我不清楚。不過統計上有一個公式,叫Hoeffding"s Inequality,說的是大樣本情景下的故事。儘管你沒有進行很多次試驗,但是你一次試驗就收集了很多數據,似乎相當於作了很多試驗,如果沒有抽樣的系統性偏誤(Bias),那麼推測的結果的可信度也肯定比一次小樣本的推斷來的可靠。具體到這個答案的設定,就是。但Hoeffding"s Inequality給出的也不過是個上限。具體,我不清楚。
最後,虛位以待統計大牛,免得我誤人子弟~
愚以為題主是沒有理解老師說的,只記住了大概,所以有相關疑問。
我來理理思路:我看到了H0 ,題主看的應該是英文書吧, 那個reject 應該翻譯成否定, 是否定 H0,不是拒絕哦。所以這應該是一道 假設驗證和線性回歸結合的題。α=0.05 表示你需要有95%說出你的結論,不管你說X和Y符合線性關係還是不符合。所以第一步,做假設,H0:β1=0 表示 X和Y 沒有線性關係。第二步,假設Ha:第三步,計算檢驗參數t第四步,確定否定區間第五步,判定t是否在否定區間 來道例題,這是我的答題新風尚~
所以上表中的數據可以得到怎麼求來的看我之前的回答(如何推導會計中線性回歸方程公式? - Zhang Calvin 的回答)設α=0.05,也就是說你有沒有95%的把我說X和Y之間是存在一個線性關係 Ho: β1=0(真值,不是由樣本得來的量)
Ha: β1≠0求t=19.7436(計算公式在上面,自己翻一下)
比較 和 t 之間的大小查表得=2.306 (查的是t檢驗 的正態分布表,如圖)於是發現,t&> ,所以在否定區間內,所以推翻Ho,即Y與X 沒有線性關係。所以我們可以有95%把握說 X和Y 符合線性關係。
0.816這真是個奇怪的問題。。
首先t是連續分布,不能算單點概率。
如果你在沒有任何數據的情況下,想知道t值在critical region的概率,那確實是取決於你H0的significant level,這個區間越小,H0被reject的幾率越小。
如果說t值出現在H0範圍的概率為40%,那麼H0成立的可能性為40%,可這就是句廢話啊。。
也許是我沒能理解題主的意思。
推薦閱讀: