回歸分析中,x對y回歸和y對x回歸,也就是交換順序之後,為什麼係數不是倒數的關係?
如果y=beta*x
我們估計x=gamma*y然後用估計出來的gamma計算y=(1/gammahat)*x為什麼這個1/gammahat不等於我們直接估計第一個式子得到的betahat?
這個問題問的很好,剛好可以解釋為什麼回歸被叫做回歸。
先看帶截距項的一般情況吧,不帶截距項可以理解為中心化之後再做的回歸
首先,模型是y=a+bx+ε,還有一個隨機誤差項ε,在最小二乘法目標下
最小化誤差平方和:
求導得正則方程:
最後的參數和LS估計有如下形式:
其中:
以及:
注意到斜率項bhat可以改寫為:
其中s_x,s_y是樣本標準差:
所以,如果用x~y進行回歸,假設 ,則有
倒數是
發現他們的區別了嗎?
- x~y 得到的回歸直線: ,斜率估計
- x~y 得到的(逆)回歸直線: ,斜率估計
他們的關係是:
或者說
計算完了,然後看為什麼叫回歸
假設(x,y),對於給定的x,y服從圖中所示的正態分布。
該正態分布的中心,E(y|x),在對稱軸(虛線)之下
此虛線稱之為SD線:方程是
x變化時,f(x)=E(y|x)形成回歸直線(紅線),稱之為回歸函數:
相比於虛線,回歸直線的斜率乘以了rho,更平緩,在兩端有向中心回歸的趨勢。這就叫回歸效應。
「回歸」是由英國著名生物學家兼統計學家高爾頓(Francis Galton,1822~1911.生物學家達爾文的表弟)在研究人類遺傳問題時提出來的。為了研究父代與子代身高的關係,高爾頓搜集了1078對父親及其兒子的身高數據。他發現這些數據的散點圖大致呈直線狀態,也就是說,總的趨勢是父親的身高增加時,兒子的身高也傾向於增加。但是,高爾頓對試驗數據進行了深入的分析,發現了一個很有趣的現象—回歸效應。因為當父親高於平均身高時,他們的兒子身高比他更高的概率要小於比他更矮的概率;父親矮於平均身高時,他們的兒子身高比他更矮的概率要小於比他更高的概率。它反映了一個規律,即這兩種身高父親的兒子的身高,有向他們父輩的平均身高回歸的趨勢。對於這個一般結論的解釋是:大自然具有一種約束力,使人類身高的分布相對穩定而不產生兩極分化,這就是所謂的回歸效應。
================================
如果說不帶截距項的過原點的回歸也一樣,推算一下:
模型:
最小二乘:
求導得到正則方程:
解得LS估計:
所以如果用x~y,假設 ,則:
可見
或者說逆回歸線的斜率估計:
二者相比:
(小於等於1的原因就不用我解釋了吧)
手機打公式不方便。
簡單的說就是回歸的優化目標,不是點到回歸曲線的距離,而是沿著y軸方向的距離(y-y』)^2. 如果沿著對角線反轉一下,不一定能繼續保證最優。
已有的三個回答里有兩個是拿帶常數項的回歸說的……怎麼說呢,和樓主問的不是一個事啊,樓主問的是不帶常數項的情況,其實比帶常數項的更簡單。
假定有一個關於x和y的樣本,把它們摞向量里分別記為X,Y。
那麼用Y對X回歸,係數是 。
它乘上用X對Y回歸的係數,是這玩意
由柯西-施瓦茨不等式,這東西小於等於1。除非倆向量方向一樣,不然嚴格小。
=================
卧槽,答完發現這是第300個答案,怒馬!
學經濟的人會經常亂換 variable, 基本上不管回歸的假設。學統計的人會不厭其煩告訴你, independent variable, dependent varaible, 不能換,不能換,不能換! (重要的事說三遍)。 所有回歸的數學證明的依賴於這些假設,破壞了這些假設,理論就成了假理論, 預測就成了假預測。 比如, 用年齡,性別,參加工作時間去預測薪水比較make sense, 但隨便換,用參加工作時間去預測性別就不太靠譜了。
首先需要明確,在實際問題中,回歸分析的自變數和因變數是問題的原因和結果,是不可隨意互換的,所以這個問題在某種程度上不具有實際意義。
假設我們不考慮上述關係,問題也需要從兩方面考慮:
一:在真實的含有隨機擾動項e(隨機誤差項)的方程中,互換自變數與因變數斜率應互為倒數。
因為模型中存在隨機誤差項,將龐大而對因變數影響不大的變數們都統一在一起表示,並且由於這些變數們對因變數的影響有正有負亦可相互抵消,使得模型對數據的擬合更加精確。互換x和y即可得到:
因此斜率互為倒數是成立的。
二:在擬合方程中,互換自變數與因變數斜率不一定互為倒數。
在擬合方程中有:
其中x是實際值,而y-hat僅僅是預測值。
同理,互換x和y會得到:
其中x-hat是預測值,y是實際值。
兩個擬合方程產生兩條不同的擬合直線,分別經過
和
因此斜率不一定互為倒數。
從內生性角度回答一下:題主之所以認為兩個回歸係數的估計值會是倒數關係,是假定了兩個方程均無內生性,都能夠估計得到一致性的結果。然而,這兩個方程中至少有一個有內生性問題(互為因果),所以至少有一個的係數估計值是不一致的。
簡單的說,題主至少估計了一個假的係數233
因為老師比較水,他沒告訴你,回歸因子是怎麼推導出來的. 例如y=a+bx+誤差項:回歸因子b等於x和y的協方差除以x的方差.
道理很簡單:因為我們在搞最小二乘法的時候,就用Δy來近似代替距離d,得出的結果自然就不能進行這種x、y交換嘍~
那要是以距離d為標準來擬合,那會怎麼樣呢?公式會複雜很多,如下:
Δ=(lxx-lyy)^2+4*lxy^2, a^=(lyy-lxx+√(Δ))/(2*lxy)(註:a^即斜率) ,b^=y_-a^*x_(註:x_、y_均為平均值)
顯然,(lyy-lxx+√(Δ))/(2*lxy)*(lxx-lyy+√(Δ))/(2*lxy)=[Δ-(lyy-lxx)^2]/(2*lxy)^2=1
因此可以進行x、y互換。
但是為此搞得那麼複雜,沒必要,對吧。
相關問題:
在進行線性回歸時,為什麼最小二乘法是最優方法? — 我的回答推薦閱讀:
※如何評價多倫多大學新建的向量學院 (Vector Institute)?對人工智慧領域會有何影響?
※真正意義的隨機數生成器存在嗎?
※最小二乘、極大似然、梯度下降有何區別?
※人工智慧(AI)是如何處理數據的?
※如何通俗理解beta分布?