線性回歸分析的幾何解釋

04-15

本文從幾何的角度介紹回歸分析、回歸係數、總偏差平方和、回歸平方和、殘差平方和，以及R^2。

《常用統計量的幾何解釋》、《趨勢性回歸分析與相關性回歸分析》、《分析橡膠在文華商品指數中的權重》、《alpha與beta》等文章已在路上，敬請關注。

價格以趨勢方式波動

價格以趨勢方式波動是技術分析的前提假設之一。

一段時間內，如果價值從A上漲到B的路徑是單調遞增（遞減）的，線性或非線性均可，那麼它就是上漲（下跌）趨勢。如果在這段時間內，價值既沒有上漲也沒有下跌，那麼就沒有趨勢。

而價格的波動性，決定了價格軌跡與趨勢並不重合，但是價格對趨勢的偏離程度是穩定的。

現在的問題是，如果確定價值的趨勢？

雖然不能明確的計算趨勢，技術分析理論發明了趨勢通道線這個工具。趨勢通道線根據價格軌跡給出了趨勢的上下界。

這種方法簡單而有效，一直沿用至今。

從實踐到理論

有沒有可能從理論的角度更精確的定義趨勢呢？

要解答這個問題，我們需要重新闡述一下問題。

已知價格在一段時間內的軌跡，基於價格圍繞價值均勻波動的前提，我們希望確定價值軌跡，使得價格軌跡偏離價值軌跡的程度最小。

價值軌跡在時間上一定是線性的嗎？

不一定，我們剛才說了，上漲（下跌）趨勢，只要是單調遞增（遞減）的就可以。

但是，單調遞增（遞減）的非線性軌跡可以用線性來近似。這種近似可以極大的簡化這個問題。

那麼到底用什麼方法呢？

回歸分析（regression analysis)。這是確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。

這種方法可以在平面中，根據已知軌跡找到一條直線，使得已知軌跡均勻的分布在這條直線附近。

而且，已知軌跡對這條直線的偏離程度比對其他所有可能直線的偏離程度都小。

將該直線的方程記為：

$y=a+bx$

其中x被稱為自變數，y被稱為因變數，b為回歸係數。針對於前面提出的問題，x是時間，y是在該時間點上的價值。

那麼現在的問題是，如何計算回歸係數b。

假設我們已知的價格軌跡為Y?，價值直線上的點為Y?′。使得Y?對Y?′偏離程度最小的b就是我們需要的。

回歸係數b的幾何意義

假設( X?，Y?′ )是平面中在同一條直線y=a+bx上的N個點。

根據《常用統計量的幾何解釋》一文的邏輯，由於 X? 與 Y?′ 完全線性相關，所以兩種方法計算的二維平均偏離中心點 ( E(X?) , E(Y?′) ) 程度相等：

$frac{1}{N}sum(X_{i}-ar{X})(Y_{i}-ar{Y})= sqrt{frac{1}{N}sum(X_{i}-ar{X})^2} imes sqrt{frac{1}{N}sum(Y_{i}-ar{Y})^2}$

X? 與 Y?′ 的一維偏離程度的比例就是b：

$b=frac{sqrt{frac{1}{N}sum{({Y_{i}}-{ar{Y}})}^2}}{sqrt{frac{1}{N}sum{(X_{i}-ar{X})}^2}}$

假設另一個序列 Y? 與 X? 定位的點分布在直線y=a+bx附近。

對於我們在前文提出的問題，Y? 與 X? 已知，Y?′未知，要求b。但是，Y?可以用Y?′來近似估計。

所以，我們現在的思路是用Y?′估計公式3中的分子。

( X?，Y?′ )的二維偏離程度，也就是( X?，Y?′ )與中心點( E(X?)，E(Y?′) )的矩形面積的總和，近似等於( X?，Y? )的二維偏離程度。

$frac{1}{N}sum(X_{i}-ar{X})(Y_{i}-ar{Y})approx frac{1}{N}sum(X_{i}-ar{X})({Y_{i}}-{ar{Y}})$

所以，Y?′ 的一維平均偏離程度，也就是公式3的分子，等於：

$sqrt{frac{1}{N}sum{({Y_{i}}-{ar{Y}})}^2}=frac{frac{1}{N}sum(X_{i}-ar{X})(Y_{i}-ar{Y})}{sqrt{frac{1}{N}sum{(X_{i}-ar{X})}^2}}$

X? 和 Y? 都是已知的，所以：

$b=frac{sum(X_{i}-ar{X})(Y_{i}-ar{Y})}{sum(X_{i}-ar{X})^2}$

這裡延伸一下，Y?的一維平均偏離程度與Y?′的一維平均偏離程度是什麼關係？

這要從X?與Y?的相關係數入手。X?與Y?相關係數r的幾何意義是：X? 、 Y?′ 的二維總偏差程度與X?、Y?′的一維偏離程度乘積的比例。（參考《常用統計量的幾何意義》）

$frac{1}{N}sum(X_{i}-ar{X})({Y_{i}}-ar{{Y}})= r imessqrt{frac{1}{N}sum(X_{i}-ar{X})^2} imes sqrt{frac{1}{N}sum({Y_{i}}-{ar{Y}})^2}$

由2、4、7可以得到：

$sqrt{frac{1}{N}sum{({Y_{i}}-{ar{Y}})}^2}=r imes sqrt{frac{1}{N}sum{(Y_{i}-ar{Y})}^2}$

再把8帶入3，可以得到b的另一種計算公式：

$b=r imes frac{sqrt{frac{1}{N}sum{(Y_{i}-ar{Y})}^2}}{sqrt{frac{1}{N}sum{(X_{i}-ar{X})}^2}}=r imes frac{sigma _Y}{sigma _X}$

熟悉資本資產定價模型的朋友可能會知道，這裡的b就是我們常說的β。不熟悉的朋友也不用著急，我們以後會在《alpha與beta》一文中講解。

最後，a也可以很容易得到：

$a=ar{Y}-bar{X}$

偏差分析

接下來，我們來評價Y?對Y?′擬合度的高低。

$SST=sum(Y_{i}-ar{Y})^2$

總偏差平方和（又稱總平方和，SST，Sum of Squaresfor Total）：每個因變數的實際值（給定點的所有Y）與因變數平均值（給定點的所有Y的平均）的差的平方和，即，反映了因變數取值的總體波動情況。

$SSR=sum({Y}_{i}-{ar{Y}})^2$

回歸平方和（SSR，Sum of Squares forRegression）：因變數的回歸值（直線上的Y值）與其均值（給定點的Y值平均）的差的平方和，即，它是由於自變數x的變化引起的y的變化，反映了y的總偏差中由於x與y之間的線性關係引起的y的變化部分，是可以由回歸直線來解釋的。

$SSE=sum(Y_{i}-{Y}_{i})^2$

殘差平方和（又稱誤差平方和，SSE，Sum of Squaresfor Error）：因變數的各實際觀測值(給定點的Y值)與回歸值（回歸直線上的Y值）的差的平方和，它是除了x對y的線性影響之外的其他因素對y變化的作用，不能由回歸直線來解釋的。

從面積分析，很容易得到下面的結論：

$SST=SSR+SSE$

SSE越小，Y?′對Y?的擬合度越高，回歸直線保留的因變數信息越多。

我們將SSR佔SST的百分比定義為R2：

$R^2=frac{SSR}{SST}=1-frac{SSE}{SST}$

容易得出結論，R2∈[0,1]。

一元線性回歸的R2就是自變數X與因變數Y的相關係數的平方。這也是很顯然的。

（正文完）

歡迎關注微信公眾號：文華程序化