求一條直線使得這條直線到給定點集距離的平方和最小。應該怎麼推導?

注意這並不是最小二乘法。(也許是我想多了

推了好久也不會,求大牛們指教。


終於搞懂了,於是怒答一發終結此題。

不妨令所求直線為y=kx+b,點集為(x_1,y_1),(x_2,y_2),...(x_n,y_n),則我們需要最小化的就是sum_{i=1}^{n}frac{(kx_i-y_i+b)^2}{k^2+1}

整理一下即:frac{sum_{i=1}^{n}(k^2x_i^2+y_i^2+b^2-2kx_iy_i+2kbx_i-2by_i)}{k^2+1}

再稍微整理一下:frac{(sum{x_i^2})k^2+sum{y_i^2}+nb^2-2ksum{x_iy_i}+2kbsum{x_i}-2bsum{y_i}}{k^2+1}

不妨令上式為f(k,b),這樣的話,我們利用拉格朗日乘數法對b求偏導數,得到:

frac{partial{f}}{partial{b}}=2nb+2ksum{x_i}-2sum{y_i}=0

不妨令ar{x}=frac{sum_{i=1}^{n}x_i}{n},ar{y}=frac{sum_{i=1}^{n}y_i}{n},那麼能夠得到b=ar{y}-kar{x}

將這個結果帶入f(k,b)中,經過整理得到:

f(k,b)=frac{Ak^2+Bk+C}{k^2+1},其中:A=,B=,C=

現在我們想求f(k,b)的最小值,那麼我們進行移項得到:

(A-f(k,b))k^2+Bk+C-f(k,b)=0

我們需要k有解,那麼就需要保證B^2-4(A-f(k,b))(C-f(k,b))geq{0}

這是一個關於f(k,b)的二次不等式,下面為方便說明設delta=f(k,b)

通過整理能夠得到-4delta^2+4(A+C)delta+B^2-4ACgeq{0},而左側又是一個開口向上的二次函數,數形結合一下,這個函數與直線y=0會有一個或兩個交點,我們求解這個方程,取其中比較小的那個解就是答案啦。

關於有可能這個函數的最大值<0,那麼就會無解?但是這種情況是不會發生的。

二次函數ax^2+bx+c最值為frac{4ac-b^2}{4a},套用到這裡就是:

frac{4	imes{-4}	imes{(B^2-4AC)}-16(A+C)^2}{-16}=B^2-4AC+(A+C)^2=B^2+(A-C)^2geq{0}

這樣的話,我們就完美的解決了這個問題啦。

如果有人給我點贊的話,我就告訴你們A,B,C是什麼!

這個式子能資瓷在O(1)時間內增量維護答案,支持在點集中加點和刪點。

這是我第一次答題,居然答的還是自己的題,手動捂臉。

UPD:沒有人點贊我也會告訴的啦。。。

A=sum{x_i^2}-frac{(sum{x_i})^2}{n}

B=frac{2sum{x_i}sum{y_i}}{n}-2sum{x_iy_i}

C=sum{y_i^2}-frac{(sum{y_i})^2}{n}

看起來還是很對稱的哦。


線性回歸,可以用NORMAL equation簡單求出。


@蒙阿奇樓上正解


Total least squares


雖然並不顯然,但確實等價於最小二乘法。如果再推廣一點(不限於n-1維超平面),可以作PCA。

EDIT:

好像弄錯了,不等價。應該是PCA。


線性回歸,數學書上很清楚了,小台階已經鋪墊的很細了。如果看不懂,那就沒人能「講」清楚了。

抄教科書很沒意思的。


推薦閱讀:

請問為何「E(XY)=E(X)E(Y)」或者「相關係數=0」等價於「變數之間沒有線性關係」?有沒有幾何解釋呢?
在進行 OLS 估計時,為了滿足 BLUE 條件,為什麼會有 X 取值要在重複抽樣時固定的前提?
學生化殘差中的學生化是什麼意思?
非線性回歸的驗證?
線性回歸中,殘差的和為什麼等於0?這個假設的依據是什麼?

TAG:數學 | 線性代數 | 線性回歸 |