標籤:

線性回歸的相關指數R平方的表達式(見圖)是怎麼來的?


R^{2}=1-frac{sum_{i=1}^{n}left(y_{i}-hat{y_{i}}
ight)^{2}}{sum_{i=1}^{n}left(y_{i}-ar{y}
ight)^{2}}

假設是一元的情況 y_{i}=eta x_{i}+varepsilon_{i}

y_{i} 是觀測到的值;

ar{y} 是觀測到的值的平均數,即ar{y}=frac{1}{n}sum_{i=1}^{n}y_{i}

hat{y_{i}} 回歸後根據係數計算出來的預測值,即hat{y_{i}}=eta x_{i}

那麼sum_{i=1}^{n}left(y_{i}-hat{y_{i}}
ight)^{2} 就是所有觀測值和預測值之間距離的平方之和;

sum_{i=1}^{n}left(y_{i}-ar{y}
ight)^{2} 是所有觀測值和平均數之間距離的平方之和;

假設一種極端的情況,觀測值和預測值100%一致,那麼 sum_{i=1}^{n}left(y_{i}-hat{y_{i}}
ight)^{2} 這一部分則等於零,R^{2} 等於1。

R^{2} 越大,越接近1,則表明解釋變數x_{i} 和預測變數y_{i} 之間的相關性越強。


y-yi為殘差,描述的是實際值與預測值的差異,是對模型優劣的一種評價,但是,這個還不夠,因為,結果會因為正負抵消掉這種差異性,所以,需要用平方來消除這種差異,也就是分子,

另外,其中分母為定值,因為yi和yi平均都是元數據,不涉及回歸,所以,任何模型都不會影響分母。

那麼,殘差平方和越接近0,r方越接近1。

這樣就構建了一種對整個模型的評價(因為是考量到所有點的殘差),繼而就可以對兩個模型做比較,R方越大,模型越好。

R方做了連個事情,1.對所有觀測進行殘差聚合 2. 歸一化

如果不對,我再改答案。


推薦閱讀:

如何簡明地解釋「線性回歸」「貝葉斯定理」「假設檢驗」這些術語?
線性回歸中的 ANOVA 的作用是什麼?
通過邏輯回歸的sigmoid函數把線性回歸轉化到[0,1]之間,這個值為什麼可以代表概率?
多元線性回歸建模如何確定選擇哪些解釋變數?
用簡單易懂的語言描述「過擬合 overfitting」?

TAG:線性回歸 |