線性回歸的相關指數R平方的表達式(見圖)是怎麼來的?
01-14
假設是一元的情況
是觀測到的值;
是觀測到的值的平均數,即 ;
回歸後根據係數計算出來的預測值,即 ;
那麼 就是所有觀測值和預測值之間距離的平方之和;
是所有觀測值和平均數之間距離的平方之和;
假設一種極端的情況,觀測值和預測值100%一致,那麼 這一部分則等於零, 等於1。
越大,越接近1,則表明解釋變數 和預測變數 之間的相關性越強。
y-yi為殘差,描述的是實際值與預測值的差異,是對模型優劣的一種評價,但是,這個還不夠,因為,結果會因為正負抵消掉這種差異性,所以,需要用平方來消除這種差異,也就是分子,
另外,其中分母為定值,因為yi和yi平均都是元數據,不涉及回歸,所以,任何模型都不會影響分母。
那麼,殘差平方和越接近0,r方越接近1。
這樣就構建了一種對整個模型的評價(因為是考量到所有點的殘差),繼而就可以對兩個模型做比較,R方越大,模型越好。
R方做了連個事情,1.對所有觀測進行殘差聚合 2. 歸一化
如果不對,我再改答案。
推薦閱讀:
※如何簡明地解釋「線性回歸」「貝葉斯定理」「假設檢驗」這些術語?
※線性回歸中的 ANOVA 的作用是什麼?
※通過邏輯回歸的sigmoid函數把線性回歸轉化到[0,1]之間,這個值為什麼可以代表概率?
※多元線性回歸建模如何確定選擇哪些解釋變數?
※用簡單易懂的語言描述「過擬合 overfitting」?
TAG:線性回歸 |