線性回歸中的 ANOVA 的作用是什麼?

做線性回歸的時候,回歸結果中都會包含ANOVA的分析,裡面有Regression和Residual,請問ANOVA是來衡量什麼的呢?它在回歸分析中的作用是什麼呢?


線性回歸中的ANOVA作用是根據顯著性判斷整體模型是否有效。我用最傻瓜的SPSS只展示最簡單的回歸。

Regression對應預測變數的效應,Residual是相對應的誤差

1. 當預測變數只有1個的時候, ANOVA的結果就是線性回歸中關於預測變數的結果t^{2}=F

2. 當有2個或以上預測變數的時候,ANOVA的結果對應線性回歸整體模型的有效性

例如這個圖的ANOVA顯示,整個模型是有效的。具體每個預測變數的係數,看下面的結果;兩個預測變數當中,只有age的係數是顯著的,Satisfaction的係數不顯著


(多圖)補充:統計基礎上的簡單解釋+幾個簡單例子

好吧,研究僧又學了一遍線性回歸,覺得本科學的都是渣。

重新補充一點。

首先假設模型是

通常我們看到的ANOVA表是這樣的。

這裡的SSR(X1)代表的是 the part of Y could be represented by X1

SSR(X2)代表的是 the part of Y could be represented by X2

SSE(residuals) 代表的是 the part of Y could not be represented by X1 and X2

F value 代表的是

用來檢驗是否significant。

最末尾的p-value是指的是在超出所求F* 後的概率,所以越小越好。

所以anova最簡單的作用就是衡量是否是significant 檢驗。

這裡是分割線

——————————————————————————————————

線性回歸博大精深,淺淺的學習也學了一個學期,只能簡單的說一下,如果題主希望具體了解,這裡推薦幾本書。蔣毅的《統計建模與R軟體》,以及全英的書 《Applied Linear Regression Models Fourth Edition》 Michael H. KutnerChristopher J.
NachtsheimJohn Neter,《Introduction to Mathematical Statistics Fifth Edition》
Robert V. HoggAllen T. Craig,有需要可以看一下。再推薦一個網站,可以逛下論壇上下課什麼的。網址為: Dataguru煉數成金

如維基百科所言:

方差分析(Analysis of variance,簡稱ANOVA)為資料分析中常見的統計模型。

方差分析依靠F-分布為機率分布的依據,利用平方和(Sum of square)與自由度(Degree of freedom)所計算的組間與組內均方(Mean of square)估計出F值,若有顯著差異則考量進行事後比較或稱多重比較(Multiple comparison),較常見的為Scheffé"s method、Tukey-Kramer method與Bonferroni correction,用於探討其各組之間的差異為何。

再引用WolframAlpha里的定義

如圖,這是一個最簡單的Anova表。

SSR是擬合值與期望的平方和,SSE是原值與擬合值的平方和,SSTO是原值與期望的平方和。

如圖。

如圖,這是一個最簡單的anova F檢驗

簡單來說,就是用所得到的數據帶入檢驗統計量,得到統計量的值,再來和標準值作對比,或算出p-value,來判斷是原假設(h0)還是備擇假設(ha)。

原假設與備擇假設又名零假設與對立假設。

引維基概念:

假設檢驗是推論統計中,除了估計之外,另一個重要的工作。我們一旦能估計未知參數,就會希望根據結果對未知的真正參數值做出適當的推論。

統計上對參數的假設,就是對一個或多個參數的論述。而其中我們欲檢驗其正確性的為零假設(null hypothesis),零假設通常由研究者決定,反應研究者對未知參數的看法。相對於零假設的其他有關參數之論述是對立假設(alternative hypothesis),它通常反應了執行檢定的研究者對參數可能數值的另一種(對立的)看法(換句話說,對立假設通常才是研究者最想知道的)。

假設檢驗的種類包括:t檢驗,Z檢驗,卡方檢驗,F檢驗等等。

再用R軟體里構造一個例子。anova在R軟體里為anova() 的函數

樣本:

代碼以及結果

以上我們可以得知residuals, r-square, 回歸方程,通過所得數據大小來判斷這個樣本是否符合線性條件,以及在到之後的調整。

可以清晰地從圖中看出所用樣本的關係。

四幅圖分別是:

1. 圖中表示數據的殘差圖和它的擬合直線,由圖可知,此樣本數據不是線性的。

2. 上圖為qq plot,用來驗證數據是否為正態分布,由圖可知,上述數據並不是很符合正態分布

3. 圖為標準化殘差與預測值的殘差圖,由圖可知,樣本數據不是線性的

4. 標準化殘差對槓桿值散點圖:槓桿值是帽子矩陣的對角線元素,還含有lowess曲線和Cook距離曲線。

其實這只是很小的一部分,還有很多其他的相關量。

如果有什麼不懂,可以隨便問,我盡量答~希望能幫到題主。


Linear Regression analysis 和 ANOVA 是兩種不同的統計方法。

ANOVA 是 Analysis of Variance 的縮寫。它是怎麼來的、主要用於解決什麼問題、如何用,請參考及其相關的 references,解釋非常詳盡:Analysis of variance。

Linear Regression analysis 和 ANOVA 的數學模型長得很像,但它們有本質的區別:

1. Linear Regression analysis 給出的是一個模型建議(一個函數),ANOVA 給出的則是不同組別觀測值間是否存在差別以及怎樣的差別(非函數)。

2. Linear Regression analysis 解決的問題是作為應變量的 Y 是如何受自變量(或多個) X 影響的;ANOVA 解決的問題是通過比較方差觀察某一或某些隨機變量是否以及如何受某一或某些因素(factor)影響而呈現出(組間)差別的。

---------- 消歧義補充 ----------

1. 說這兩種是不同的方法和它們有本質區別,這兩個觀點都不有悖於在某些情況下使用它們可以得出等價的結果;但並不能因為可以得到等價結果就說這兩種方法是等價的。

2. 說這兩種是不同的方法和它們有本質區別,並沒有否認它們之間存在甚至是存在深層的內在聯繫。有人就提出過這樣的觀點:Why ANOVA and Linear Regression are the Same Analysis。因每人研究領域不同會有不同觀點這是很正常也是應該存在的事情。我們如果認為自己的說法是有理有據的,就堅持自己的觀點;堅持自己並不意味著一定要推翻那些不同於我們的觀點。在認可「因側重點不同而存在認知上的差異」這個基礎上,質疑是永遠都沒有問題並且應該被提倡的。

3. 在知識儲備暫時沒有豐富到可以貫通地理解不同方法之間的同與異之時,還是建議分開學習理解這兩種方法。

---------- 補充完畢 ----------

所以,題主能不能把你想知道的「線性回歸中的 ANOVA」是對什麼做 ANOVA 再說詳細一些,方便大家幫你;比如你用的是什麼軟體,你想問的是不是其他知友提到的那個「表」。


看到 @ninedegree 說計量經濟學「加了很多無法驗證的假設」,而統計則是「用客觀的方法去估算」。我想問問作為統計學家的你:

你們玩 OLS 的時候有沒有假設被解釋變數的條件分布?如果沒有假設具體的分布,有沒有假設它的形狀(moments)?

你們玩 The Method of Moments 的時候有沒有假設數據分布的形狀?

你們玩 Maximum Likelihood Estimation 的時候有沒有假設似然函數?

你們玩 Bayesian 的時候有沒有假設似然函數以及先驗概率?


統計學最大的問題是應用統計方法的人只是會用,遠談不上有深入的理解。題主也許在計量經濟學中學到了回歸和方差分析,甚至會以為這些只是計量經濟學的一部分;高票答主也是搞計量的,可能都沒怎麼用過ANOVA,想當然的就覺得沒用了。

不管你用什麼方法,統計學家都會提供給你很多統計量,有的用來估計模型參數,有的用來檢驗假設,有的用來判斷模型本身的正確性。應用過程中要特別清楚每個數字背後是什麼含義,怎麼解釋。R^2估計的是模型的解釋能力,但並不能用來判斷回歸係數是否顯著;方差分析中的p value可以用來判斷係數顯著,又不能推斷關係是否為線性。

回到題主的問題。ANOVA可以看作是一種特殊的linear model。在covariate都是factor的時候(如性別,治療/對照),統計學家發現線性模型有一種更簡單好用的形式--方差分解。你在用線性模型時看到的表並不一定是ANOVA table,那個表講的是每個covariate的顯著性。如果covariate是factor,那麼每一行就是一個factor的一個leve。

============================

回答@Jichun Si :

你的一個誤區是認為只有計量經濟學關心模型的解釋能力和因果關係。實際上統計學家對此的重視絕不可能更少,統計學早期發展中反覆討論的一個問題是吸煙和肺癌的因果關係,ANOVA被發明的動機也是研究影響農產品產量的因素,當前研究熱點高維統計也是圍繞模型的interpretability。只關心模型預測能力的統計學家只是極少數。

這道問題被統計學家攻佔的顯然原因是題目中的線性回歸和ANOVA都是最基本的統計工具,在各種領域都有廣泛應用。我希望題主和讀者都能跳出它們在計量經濟學中的應用來看待這些統計方法。例如你說的R^2在計量經濟學中意義不大,但在一個一般的問題中,它還是衡量模型好壞的一個好用易解釋的指標,不可妄下結論。

============================


為啥還有這麼多學統計的人來反駁我的答案?你們不翻一下答案,反對我的都是學統計的,學計量的一個也沒有吱聲。我下面列舉的這些都是仔細學過高級(微觀)計量的人的共識。不同領域處理方法不一樣,我已經補充了,爭論下去實在沒有必要。

題主一開始把這個問題只歸了兩類,「計量經濟學」和「數學」好嗎?壓根沒有歸到「統計學」這一類。就好象我知道我的統計學知識不夠不去統計板塊答題一樣,希望學統計的不要在不了解計量經濟學的前提下妄自回答計量經濟學的問題。

你們看一下題主的問題是,「做線性回歸的時候,回歸結果中都會包含ANOVA的分析」,在做線性回歸的時候啊!他問的是線性回歸結果裡面那張ANOVA表好嗎?你們學統計的一個個煞有介事的介紹ANOVA的應用是鬧哪樣。

要說統計,雖然我不是統計的phd,但是學計量的基礎就是統計。誰不是從實分析 泛函分析 概率 統計一點一點讀上來的?不要以為學計量的人都是土鱉好不,說過了,解決的問題不一樣,處理方法不一樣,僅此而已。

最後一次修改,懂的自然懂,反正我也沒有必要也沒有任何激勵去給你們學統計的宣傳計量的最新進展。

===================================

特別聲明,本人以下回答只針對計量經濟學領域!我看到題主沒有把統計學放到分類裡面,只有計量經濟學才敢於這麼回答的。統計我懂的只是皮毛,但是要說計量~

其實很多人對計量經濟學的理解還是統計學在經濟學中的應用。為什麼統計學在心理學、社會學上都有應用,偏偏沒發展出計量心理學、計量社會學?有計量史學(cliometrics),但是計量史學還都是計量經濟學的應用。

因為阿,計量經濟學跟統計學技術手段類似,但是解決的問題是不一樣的。計量經濟學更注重解釋,而非預測;計量經濟學更關注因果,而非相關;計量經濟學更關注經濟理論,是用數據match理論,而非用數據發現理論。

所以在最開始的時候,經常聽說有統計學家和計量經濟學家沒辦法交流。為什麼?因為解決的問題不一樣,其技術手段也不一樣。比如 @TJ Zhou對我的反駁,你們好好看看評論裡面我們的討論就知道,我們看似都在討論線性回歸,但是討論的問題根本不是一個問題。

我為什麼說R2不重要?不只是我說,計量領域的懂一點的都這麼說。為什麼?因為R2很大程度上度量的是u的方差跟x的方差大小的問題。但是計量領域絕大多數情況下根本不關心你的u的方差有多大好嗎?有更直接的指標看x對y的影響,幹嘛還要看R2呢?

當然現在是有很多做統計的轉而做計量經濟學,其實也是用統計的方法解決經濟的問題,並不是說計量經濟學就是統計的分支了,計量經濟學是經濟學好嗎?

記得前段時間有個國際著名計量經濟學家,之前是某統計學院院長,在學院大會上說了一句「在我是個統計學家之前,我是個經濟學家。」結果統計學院一大堆人都在吐槽這句話。計量經濟學跟統計學的差別可見一斑了。

煩請反駁我的 @TJ Zhou還有那位覺著我沒有深入理解統計方法的 @趙卿元同學仔細看看我的回答。我如果在這個方面沒有一點底氣和信心,敢說這麼絕對的話?敢專門發個專欄說R2在計量裡面不重要?我找罵是不是?

還有那個 @斯逸卿 的「如果y對a、b、c、d回歸,係數都顯著。這個顯著只是在統計意義上顯著,可能經濟意義上不顯著,表現為R方的增量很小。」導致R方增量很小的原因很有可能是你增加的d相對於u來說本身就沒有多少variation,歸根結底還是要看u的variance。當然你說預測可以理解了,但是經濟學上d明明可以解釋y,你忽略它就不對了嗎!

=================================

分解方差。

現在很少有人看這個了。

方差分析跟R2一樣,對你的模型的解釋能力幾乎沒有任何參考意義。

===================

回答評論裡面的問題,答案是沒有什麼能評估模型的解釋能力。

先說R2為什麼不可以。

我們假設一個最簡單的數據生成過程(DGP),y=x*b+u,其中x~N(0,1),b=1,u~N(0,1)。這個時候你可以做出0.5的R2。但是如果u~N(0,2),那麼你只能做出0.25的R2。但是這兩個DGP僅僅是誤差項的方差改變了而已,我們關注的是b不是嗎?就算R2小到只有0.0001,也許只是u的方差太大了,但是x對y還是有解釋能力的對不對?而且解釋能力跟R2無關。

方差分析有同樣的問題。組內的方差其實就是誤差項啊~

看一個模型的解釋能力,要看的東西很多,但是沒有一甚至幾個假設檢驗或者指標可以直接看出來。計量經濟學模型也是依賴假設的,關注一下現實的問題,看看你建立的模型跟現實是否符合才能看出模型是不是有解釋能力。

比如你要問一下,識別是不是清楚?有沒有內生性?做probit的時候有沒有異方差?有沒有sample selection的問題?有沒有其他機制可以導致你做出來的回歸結果?如果你做GMM,你的矩條件是否合理?等等等等。

所以,看模型解釋能力看什麼?看現實問題。

==============================

其實要說沒用,還是有用的,看的人只是很少,不是沒有。

比如當你研究歧視的時候,男女的工資差異可以分為兩部分,一部分是你觀察到的男女的差別,比如教育等,還有一部分就是誤差項了。

在這個背景下,比較觀察到的組間方差和觀察不到的組內方差是有意義的。

================================

哇塞!斯坦佛的phd @趙卿元 都來反駁我唉!

其實吧,這個問題就是計量跟統計的差別,計量關注因果,統計關注相關。計量關注統計量是不是顯著,而不是這個模型的擬合程度(R2),這個是最關鍵的差別。要不然R2最高的方法就是OLS,還要發明工具變數、面板固定、隨機效應、聯立方程什麼的模型幹嘛?

經濟學家不是不關注誤差項。在計量經濟學家看來,誤差項的方差是多少並不重要,重要的是你的誤差項裡面有什麼。你的誤差項方差再大,如果不是系統性的誤差,不影響你的x的外生性,愛怎麼大怎麼大,係數顯著就好。但是如果你的誤差項裡面有系統性的誤差,你的誤差項方差再小,你的模型也是錯的,你估計出來的係數完全不是你想要的東西。在這種情況下,你甚至說不清楚你估計出來的是什麼東西~

還有,ANOVA其實就是特殊情況下的OLS模型,上面我舉例子了,經濟學也有可能用到ANOVA,我沒說這個東西絕對沒用,只是在計量領域,用處不大~至於我有沒有用過ANOVA,只有我自己知道~

============================

順便吐槽一下吧,改天修改一下發到我的專欄里去。

計量經濟學中那些從統計學、初級計量裡面帶來的惡習

1、隨意刪變數

什麼?某個變數不顯著?刪掉!呵呵~這個變數如果理論上對你的y有影響,但是做不出顯著,一可能是你的模型錯了,二可能是數據沒有足夠的variation做出顯著。如果刪掉,你其他的估計都會受到「遺漏變數」的影響,估計的係數理論上都不對的~

2、多重共線性

這個多少跟第一條有關係。什麼?你的模型有多重共線性?好嚴重啊!刪變數吧!

為什麼不能刪變數第一條已經說了。

解決多重共線性最好的辦法是增加樣本,別的好像沒辦法了。

至於有人用「主成份分析法」,呵呵,你還知道你估計的東西是啥不?

3、變數篩選

也跟第一條有關係,做很多很多回歸,把顯著的變數留下來,不顯著的刪掉。不解釋了,參見第一條。

4、異方差

都21世紀了,你還在線性模型裡面檢驗異方差?沒聽說過white heteroskedasticity robust的統計量嗎?這個還需要檢驗?還需要加權最小二乘?

只有非線性模型中異方差是致命的,線性模型中異方差可以很方便的用white或者Newey-west來解決。

5、R2

這個多少跟主題有關。實際情況是,時間序列你做出低於90%的R2都不正常,但是微觀數據你做出50%的R2都很困難。

OLS是在給定的數據和變數條件下R2最高的,因為他是個線性投影。工具變數估計是一個非正交投影,所以R2肯定比OLS的要低。但是我們還是要發展IV之類的方法,這也從側面反映了R2不重要。

所以你如果用R2去比較模型,完全沒有意義。

6、Box-Jenkins

不是專業做時間序列的,不做過多評價。但是基於ACF、PACF圖的什麼「截尾」、「拖尾」是很不靠譜的方法,已經是共識了。

==========================

這篇回答只限內部討論,請知乎的小編不要再把這篇發到微博上去了。裡面有八卦,不想傳開,如果小編感興趣,去轉專欄裡面的文章吧。p.s. 上次你們在微博上推我的文章,曲解我的意思好不好!以後你們公開推別人的回答,可不可以徵詢一下作者的意見!


看過太多統計技術導向的答案。題主既然問出這樣的問題,想必不是統計學的專業人士。而更多地是在應用的角度來看待方差分析。簡單的說:

方差分析的一個功能是用來判定自變數多大程度上可以被因變數解釋,就是通常所說的 R Square。解釋力與R Square無關的陳述顯然是不正確的,特別是一個模型的目的是為了建立因果關係或者進行預測的前提下。「因為R2很大程度上度量的是u的方差跟x的方差大小的問題。但是計量領域絕大多數情況下根本不關心你的u的方差有多大好嗎?有更直接的指標看x對y的影響,幹嘛還要看R2呢?這句陳述本身是不對的,因為標準化以後的x對y的影響如果大,那麼R suqare也應該大。在自變數是單變數的前提下,標準化之後的b實際上就是r,就是相關係數。我為什麼強調標準化,因為大部分情況下非標準化的B是沒有意義的。

比如,我們說父母家庭的收入每增加100元,子女的收入就會增加20元,而子女的受教育年限每增加1年,子女的收入就會增加50元。但是,我們不能說父母家庭的收入的影響就不如受教育年限重要,因為父母家庭收入的差異很大,他的一個標準差可能就是數十個100元,而子女的受教育年限的標準差僅僅是個位數。

方差分析的另外一個功能是用來判斷哪一個自變數的影響更大一些。當然,多元回歸也能判斷。但是當自變數是類別變數的時候,那麼,用回歸來判斷就麻煩一些,需要對變數進行虛擬化(dummy)。方差分析沒有這麼麻煩。關於變數虛擬化,就不在這裡展開。類別變數的例子,比如我們想知道是不同宗教信仰與種族,是否分別對個人收入產生影響,那個影響更大一些,這個時候就就不宜通過回歸分析進行。

在類別變數的前提下,結合回歸分析,方差分析還可以幫助我們發現交叉影響。在上邊的那個宗教、種族的例子當中,我們可能會發現,種族對收入會產生影響,宗教不會,但是在一個特定的種族內部宗教的影響卻是顯著的,這就是交叉影響。

最後,要強調的是,回歸分析與方差分析本質上是一致的,都是在因變數為連續變數的模型中,基於最小二乘法的多變數統計模型。其實,基礎的多元統計模型在原理上無非就兩類,一類是對最小二乘法模型(回歸分析,因子分析,方差分析),一類是基於最大似然率(Maximum Likelihood),比如Logistic Regression, Logit Analysis等等。這些模型用來分析因變數是類別變數,特別是二分變數的模型。比如,銀行用來判斷什麼樣的用戶可能會流失,流失本身是一個二分變數(0,1),而用戶的屬性,可能是連續變數,比如存款數量,交易頻率,信用評分,用戶年齡,也可能是類別變數,這個時候用Logistic Regression比較好。

當然,還有其它的多變數分析,不屬於以上任何一類,比如CHAID(基於Chi-Suqare),Cluster(基於各種類型的空間距離)等等。

總是,根據變數屬性(類別還是連續,或者更細分到Scale[可以近似認為連續變數], Ordinal(序列變數,比如老中青年齡等級, 類別變數(性別,區域,宗教等))以及分析目的:發現因果相關關係,抽取相似性還是建立分類等等,選擇合適的統計模型,或者對統計結果進行不同的解釋,這需要對統計方法有一個全局的認識,同時對其數學原理有大致的了解。大部分人不需要會運算矩陣,計算特徵值這樣的基礎工具。

———————————————————————————————————————————補充一個,支持上面的一個答案,同時說明一下Dummy變數的使用。在我們有明確假設的時候,使用回歸分析要比方差分析更為適宜。

比如,我們知道男性壽命比女性短,但是這是因為性別的自然因素導致的,還是因為男性承擔較大的社會壓力導致的?如果我們假設即使男性承擔的較大的社會壓力,性別自然因素還會起到縮短壽命的作用,我們應該用回歸分析,將死亡年齡設為因變數,自變數有2個:1)表示社會壓力的變數(可以是一個變數組合),2)性別變數,把女性性別設為0,男性性別設為1(或者相反),來看看性別變數的回歸係數檢驗是否顯著。如果我們的對自然性別的影響沒有傾向性假設,就應該看方差分析。


這個問題看起來是變成對噴了,不過我和題主一樣關心 出現在線性回歸結果里的ANOVA是啥。

個人理解,實際上,ANOVA並不是線性回歸結果里的,只不過較多的統計軟體都順帶做了ANOVA。它是一個多因素方差分析,衡量了變數x的變異對變數y的變異解釋程度,也就是說某種程度上表示的內容和線性回歸的R是一回事。

ANOVA最擅長針對的事情,是可控變數實驗,檢驗比如多塊田施肥量的區別是否對產量有影響,多組小白鼠的用藥量是否有效果。這個時候,由於實驗中控制了除了施肥量、用藥量等的其他變數,那麼ANOVA的結果是有說服力的。

然而,線性回歸問題就有點微妙了。線性回歸最經常處理的事情,是經驗科學,面對的是觀察數據而不是實驗數據。這個時候,觀察到的變數是x,而大量的變異躲在u裡頭,就算R很高,也說明不了問題,因為嚴格來說不知道多大的R算高,多一個變數就多一點解釋,增添變數總會使得R提高。線性回歸里,特別是計量經濟學裡的OLS,優先關心線性回歸模型中x是否能解釋y,次要關心解釋了多少程度,解釋再厲害也搞不定u。

這個時候,一些統計軟體順帶輸出的ANOVA,就缺乏說服力了,脫離了可控實驗的環境,ANOVA就只是參考參考了。ANOVA和R很像,但是兩者在觀察數據上,有一個就夠了。擅長觀察數據的線性回歸順帶出一個可控實驗的ANOVA,有點不倫不類。

統計終究是工具,脫離了問題,就濫用了。


@Jichun Si的答案開啟了群嘲模式,作為統計PhD必須反駁一下。

ANOVA的基本作用是告訴我們變數對模型的貢獻程度(方差解釋比例)和這種貢獻的可信程度(顯著性水平).比如檢驗某個變數是否顯著,可以用t檢驗,也可以用方差檢驗;在簡單情形,這兩個檢驗是等價的.

我以前也想過ANOVA能做的事情,線性回歸同樣能做,還要ANOVA幹啥.後來學了更多才明白,一, ANOVA的方差解釋比例是一個衡量模型好壞很直觀的指標,且不依賴假設;

二,ANOVA的想法更直觀簡單,所以很容易移植到更複雜的情形.比如在函數型數據分析中,依然可以用ANOVA,而線性回歸里的單個變數的顯著性檢驗就不行了.再比如在樣條回歸里,單個變數的顯著性檢驗也很難解釋,而ANOVA依然有一定的作用.

做統計分析的人會很謹慎的談論"因果"這個詞.很難用模型來說明一個變數與另一個有因果關係.(X計量學能這麼干,不是因為它牛逼,而是因為加入了很多無法驗證的假設.X)如果非要說有因果,那就一定要加入無法用數據驗證的假設。

之所以用統計,就是因為大部分時候我們不知道變數重不重要,所以用客觀的方法去估算.如果有先驗知識,可以加進模型;但不能心裡預設一個答案,然後責怪統計方法不靠譜.

(XX至於y=xb+u的例子就不說什麼了,他顯然沒有弄明白什麼叫模型的解釋能力.XX)

兩個完全不同的問題是不能比較模型解釋能力的。模型解釋能力強還是弱,指的是對同一個問題,一個模型比另一模型好。

=================================================================

方差分析作為一個工具,在它的假設條件成立或近似成立時都是有意義的.如果假設條件不成立,那它的檢驗結果當然沒有意義.所以要討論方差分析是不是有意義得討論它的假設條件,而不應該討論是不是它是不是應用在計量領域.

過於強調計量的特殊性是說不過去的.也許在計量領域,很多情況下假設條件不滿足,所以很多計量經濟學家不看方差分析表.但是如果這樣就得出方差分析沒有用的結論就太主觀了,也不能引申為計量領域方差分析沒有用.

這個問題和領域沒有關係。


「方差分析(analysis of variance, 簡寫為ANOVA)是工農業生產和科學研究中分析試驗數據的一種有效的統計方法. 引起觀測值不同(波動)的原因主要有兩類: 一類是試驗過程中隨機因素的干擾或觀測誤差所引起不可控制的的波動, 另一類則是由於試驗中處理方式不同或試驗條件不同引起的可以控制的波動. 方差分析的主要工作就是將觀測數據的總變異(波動)按照變異的原因的不同分解為因子效應與試驗誤差,並對其作出數量分析,比較各種原因在總變異中所佔的重要程度,以此作為進一步統計推斷的依據.」

以上摘自湯銀才《R語言與統計分析》。


作為同時擁有Econometrics和Applied Statistics學位的來答一下。

此ANOVA彼ANOVA,ols輸出相關的ANOVA table是所謂的generalized linear hypothesis test。Significant F 則說明模型線性關係基本存在,如果不Significant,則需要考慮別的function form。這麼說吧,GLHT顯著不代表模型正確,但是GLHT不顯著模型一定錯了。軟體輸出結果顯示ANOVA只因為GLHT和ANOVA的function form 一樣,軟體就直接按ANOVA輸出了


R^2估計的是模型的解釋能力,也就是【擬合】程度,但並不能用來判斷回歸係數是否顯著;ANOVA方差分析中的p-value可以用來判斷【自變數和因變數的係數顯著問題】,又卻不能推斷關係是否為線性,也給不出具體的回歸係數值;回歸分析其實上面2點都兼而考慮,並且在這個基礎上能更好的給出【回歸係數的置信程度】

不同點在於使用用途,而用好的基礎是理解含義才能體會區別。

並且有些東西是想通的,不是非A即B


方差分析 用於配對設計資料的方差齊性,方差不齊的話,要考慮樣本的質量啦


我的想法比較簡單,相對於係數t檢驗從單個變數的角度去看待模型,anova是從整體的角度出發來看待模型,一方面是看自變數整體是否顯著(與只有截距項的模型相比,現有模型是否有顯著提升),這就是F檢驗。另外anova 還考慮到了模型預測值的變異性能夠在多大程度上解釋因變數變異,也就是擬合優度。


舉個例子把,只有一個自變數 家庭背景 的情形,因變數事業成就 被拆分成 與家庭背景 相關為1的部分(Fitted)+ 與家庭背景 不相關的部分(Residuals)。題主所說的Regression就是 Fitted 。回歸方程或者幾乎絕大多數統計模型,都在作下面的分解。

Observed = Fitted + Residuals

ANOVA 報告這兩個部分的波動大小,這裡被分解的波動是 SS Sum of Squares of Deviations)。嚴格說是 和方分析 而不是 方差分析。其中的離差 Deviation ,就是一組數相對自己均值的偏移。

這件事在幾何上有非常直觀的意義。如果把離差運算寫成下標,注意到殘差的均值是0,下面是一個完美的 = + n 元空間兩個垂直向量的相加關係,n 就是樣本量。所以SS 就是它們各自的長度的平方。

Observed_{Dev} = Fitted_{Dev} + Residuals

ANOVA 作了向量的正交分解、向量長度平方的分解,還有第三個分解是維度(df)的分解。 n 維空間被分解為 1 (均值維度) + p p個自變數線性組合,預測值比均值多出來的空間維度) + 殘差的 (n -1 - p) 維度。

ANOVA 表格把其中的幾何對象報告了一番。至於 F 檢驗,R^2等等統計報告里常見的東西,都假定讀者心裡頭已經有這樣一個 n-1 維空間里的直角三角形勾股弦。比如這條勾(Residuals),它的長度平方平均到它所佔據的每個維度上,用來估計回歸式抽樣誤差varepsilon的總體方差sigma^2

覺得讀懂了可以小測一下。n 個觀測值作為原坐標,在 n 維空間中對應紅箭頭。點開評論可以看答案



回歸是對樣本均值建模,接受殘差的存在。

回歸的好壞要看殘差:

其中一點是看殘差方差與樣本方差相比是不是足夠縮小,說明大部分樣本信息已經包含在了主體模型當中。


反對「R方對你的模型的解釋能力幾乎沒有任何參考意義」的說法。

研究模型,大體上出於兩種目的:

  1. 我要預測Y,解釋變數a、b、c、d自己找,無限制。偏實務
  2. 現有的研究發現a、b、c對y有預測能力,我要確定d是否有預測能力。偏學術

第一種,R方顯然越大越好,說明能解釋/預測Y的絕大多數波動

第二種,R方有兩個作用:

其一,如果y對d回歸,係數即使顯著,也可能存在omitted variable bias,從另一個方面表現為R方小於已有研究的R方。

其二,如果y對a、b、c、d回歸,係數都顯著。這個顯著只是在統計意義上顯著,可能經濟意義上不顯著,表現為R方的增量很小。


關於R^2的問題,如果給定樣本點只有兩組觀察值,它會最大是1


線性回歸有個齊方差假定,每個線性回歸都需要做一個方差檢驗……

方差檢驗又叫f檢驗或者anova……


推薦閱讀:

如何簡明地解釋「線性回歸」「貝葉斯定理」「假設檢驗」這些術語?
通過邏輯回歸的sigmoid函數把線性回歸轉化到[0,1]之間,這個值為什麼可以代表概率?
多元線性回歸建模如何確定選擇哪些解釋變數?
用簡單易懂的語言描述「過擬合 overfitting」?

TAG:線性回歸 | 方差分析 |