在進行線性回歸時，為什麼最小二乘法是最優方法？

11-15

我覺得應該用這樣的直線，它使得每個點到直線的距離之和最小

同意 @Jichun Si 不太同意 @王芊的說法。

Andrew Ng的推導應該只是說明了，在Gaussian雜訊的假設下，最大似然可以推導出最小二乘，僅此而已，個人認為並沒有說明最小二乘的必要性。

最小二乘是在歐氏距離為誤差度量的情況下，由係數矩陣所張成的向量空間內對於觀測向量的最佳逼近點。

為什麼用歐式距離作為誤差度量（即MSE），09年IEEE Signal Processing Magzine 的《Mean squared error: Love it or leave it?》這篇文章做了很好的討論。鏈接：http://www2.units.it/ramponi/teaching/DIP/materiale/mse_bovik09.pdf

這篇文章在"WHY DO WE LOVE THE MSE?"中說，MSE：

1. 它簡單。
2. 它提供了具有很好性質的相似度的度量。例如：
1）它是非負的;
2）唯一確定性。只有x=y的時候，d(x,y)=0；
3）它是對稱的，即d(x,y)=d(y,x)；
4）符合三角性質。即d(x,z)&<=d(x,y)+d(y,z).
3. 物理性質明確，在不同的表示域變換後特性不變，例如帕薩瓦爾等式。
4. 便於計算。通常所推導得到的問題是凸問題，具有對稱性，可導性。通常具有解析解，此外便於通過迭代的方式求解。
5. 和統計和估計理論具有關聯。在某些假設下，統計意義上是最優的。

然而，MSE並非沒有缺點。並不是所有的問題都可以套用該準則，在「IMPLICIT ASSUMPTIONS WHEN USING THE MSE」說，它基於了以下幾點對於信號的假設：

1. 信號的保真度和該信號的空間和時間順序無關。即，以同樣的方法，改變兩個待比較的信號本身的空間或時間排列，它們之間的誤差不變。例如，[1 2 3], [3 4 5]兩組信號的MSE和[3 2 1],[5 4 3]的MSE一樣。
2. 誤差信號和原信號無關。只要誤差信號不變，無論原信號如何，MSE均不變。例如，對於固定誤差[1 1 1]，無論加在[1 2 3]產生[2 3 4]還是加在[0 0 0]產生[1 1 1]，MSE的計算結果不變。
3. 信號的保真度和誤差的符號無關。即對於信號[0 0 0]，與之相比較的兩個信號[1 2 3]和[-1 -2 -3]被認為和[0 0 0]具有同樣的差別。
4. 信號的不同採樣點對於信號的保真度具有同樣的重要性。

本文後面還討論了MSE對於圖像和語音這些具有空間和時間信息的信號來說，並非就是完美的，並舉了不少例子。有興趣的可以下下來論文自己看。對於本問題來說，我覺得這些討論已經夠了。

謝邀 @math love@adorelemon 。很早就看到這個問題了，一直沒回答主要是因為問題實在是提的不太有誠意。就是一個剛剛學最小二乘的高中生，你們又是正交投影，極大似然，統計檢驗，BLUE，MSE降噪，不怕把人看暈嘛。

知乎小編也是，這麼個問題不停地推薦答案，那我還是來回答一下吧。前面基本都在回答標題，但沒什麼人注意到副標題，所以回答也很少有在點子上的。

題主的這個想法其實很自然，坦白講我初學時也有想過。現在來看，最根本的原因是哲學／邏輯上的。我們做回歸分析，有自變數x，有因變數y，尋找的是y和x之間的聯繫，更確切的說是知道x怎麼求y。所以x和y是兩個本質不一樣的量，一個是因，一個是果。現在再來看看題目里說的「應該用這樣的直線，它使得每個點到直線的距離之和最小」，這種方法其實是將因果混為一談了，試圖在(x,y)這個向量空間里找一個最好的超平面。不說錯誤吧，這至少是一個不自然的邏輯。

最小二乘的邏輯就自然多了。比如說我有一個因變數y和兩個自變數x1,x2，它們在我觀測到的樣本里都表現為一個個的向量。最小二乘是在做什麼呢？它是在觀測到的x1和x2的向量所生成的線性空間中，找一個離觀測到的y向量最近的點。從幾何上看，這就是正交投影。

很多回答提到最小二乘不一定最好，我們也可以用別的距離。這固然不錯，但最小二乘的優越性恰恰體現在它最「自然」這一點上。我們最習慣的空間是有內積的歐式空間，如果用其它任何一種距離，這種「自然」的內積就沒有了， @SlowMover的答案里提到的不變性就沒有了。不用這個距離，最小方差(BLUE)的性質就沒有了。不用這個距離，相當於是假設雜訊服從另外一種分布，我在這個回答（為什麼許多變數可以用正態分布很好地描述？）里已經解釋過人們為什麼喜歡用正態分布假設。

說的高一點，整個現代科學的方法就是」歸納「和」演繹「兩條。從歸納的角度出發，實際問題中碰到什麼分布的雜訊就應該用那種分布；從演繹的角度出發，什麼方法最」自然「，最」漂亮「，最「易於理解」就盡量去用這種方法。歐式距離是最自然最直觀的距離，正態分布是最常見最容易處理的雜訊分布，自然最小二乘就是最優的方法咯。

你說的應該只是一部分。
高斯馬爾科夫定理中，ols是blue，也就是最佳、線性、無偏，估計。
所謂的最佳，就是方差最小。ols是所有線性無偏估計中方差最小的。但是高斯馬爾科夫定理不成立的情況下，例如異方差，ols即使無偏估計，也不能保證方差最小。
從你的問題補充上看，這條直線保證與每個點的距離之和最小，其實是假設這些點平均來說本來就該落在這條直線上，只是因為一些隨機因素從這條直線上蹦出來了，因為這些隨機因素是同分布的，所以蹦出來的距離和波動都應該差不多。
但是如果這些點的波動越來越大呢？隨著x的提高，這些點蹦出直線的波動越來越大，可以想像這些點近似一個45度的從原點出發的圓錐，這時候什麼樣的直線能夠擬合這些點？
這時候就應該對每一個x加一個權重，由於方差越大的波動越大，對這個x加一個較小的權重，這種加權最小二乘法，才能了blue。
所以ols的優良性質是有前提條件的。比異方差更強的假設是服從正態分布。這種情況下，其實ols不但是最佳線性無偏估計，而且在所有非線性和線性估計中，它都是方差最小的。但是不滿足這些假設的情況下，ols的最優就無從談起。

題目應該是想問這樣一個問題：
在做線性回歸的時候，為什麼理想的直線，是離每個點的距離的平方和最小，而不能是這條直線離每個點的距離的絕對值之和最小？
換言之，我是否可以用這樣的直線，它使得每個點到直線的距離之和最小。

我們先看如何評估線性回歸的好壞：
假設現在有這樣的樣本：

現在我們需要擬合一條直線出來，理論上，用不同的方法，我們可以擬合各路的直線，假設像這樣：

假如現在我們可以擬合上面三條不同的直線，應該如何評估哪條直線最為準確？可以這樣想，假如我再加一個點上去，新加的這個點離哪條直線最近的概率最大，哪條直線就是最優的。譬如我現在添上一萬個點，發現有9000個點都離藍色的那條線最近，而只有1000個點不是離它最近，那我們可以就可以說藍色的這條線是最優的。

基於這樣的理解再來看題目的問題，能不能選一條直線，它使得每個點到直線的距離之和最小？
我的理解是，採用何種方法擬合取決於樣本的雜訊（對直線的偏移）符合何種分布。
假設雜訊服從高斯分布，這時最大似然就和最小二乘法等價，原因如下：
高斯分布：
$f(x;mu,sigma)=frac{1}{sigmasqrt{2pi}} , exp left( -frac{(x- mu)^2}{2sigma^2} ight)$

雜訊服從高斯分布的意思就是說，樣本取值的期望 u 落在我們將要擬合的直線上，但是大自然會給它一個偏差，這個偏差的多少，則服從上式分布，譬如偏差在兩個標準差內的概率是95.449974%。
這裡的每一個樣本都獨立同分布，於是他們的聯合概率應該滿足：
$p_{X,Y}(x,y) = p_X(x) cdot p_Y(y)$

累乘的結果就是

$frac{1}{sigmasqrt{2pi}} , exp left( -frac{(x- mu1)^2}{2sigma^2} ight) cdot frac{1}{sigmasqrt{2pi}} , exp left( -frac{(x- mu2)^2}{2sigma^2} ight) ...$

後面的乘項省略。。
然後，這些exp相乘的話就是指數相加，指數部分就變為：

$left( -frac{(x- mu1)^2}{2sigma^2} ight) + left( -frac{(x- mu2)^2}{2sigma^2} ight) + ...$

下面的分母提出來，就成了：

$-[(x- mu1)^2 +(x- mu2)^2 +(x- mu3)^2 ... ]$

這已經就是最小二乘的樣子了，上面的期望 $mu1$ ， $mu2$ 便是直線上的理想預測結果，x便是實際的結果。最小二乘法是要求平方和儘可能小，上式前面加上了負號，也就是上式儘可能大，上式是一個指數，指數越大，便是聯合概率越大，聯合概率越大，便表示，樣本的落點越有可能貼近擬合的直線。這樣便符合我們一開始討論的理解。

若雜訊服從拉普拉斯分布呢？
此時的概率分布就成了這樣：
$f(x|mu,b) = frac{1}{2b} exp left( -frac{|x-mu|}{b} ight) ,!$

可以看到這裡的指數不再是平方，而是絕對值，也就符合了題目說的情況，選一條直線，它使得每個點到直線的距離之和最小。
用同樣的辦法可以得出，若雜訊服從拉普拉斯分布，那擬合出一條直線，它滿足到各點距離之和最小，那對於新樣本的預測就最有可能靠近這樣的一條直線。

所以結論就是，採用何種方法擬合取決於樣本的雜訊被假定為何種分布，而在自然情況下該雜訊服從高斯分布，所以這時做線性回歸應該用最小二乘法。

個人看法而已，若有不對的地方，麻煩指正。

這個問題提得有問題：什麼叫「最優」方法？憑啥說這條直線比另一條更優？要回答這個問題，首先要給出「最優」的定義是什麼：最小化誤差平方和（2範數）可以，最小化你說的誤差距離和（1範數）也可以，還有其他許多最優的準則：例如加入各種regulation項...所以沒有統一的「最優」。這個問題是，你首先得定義一個合理的目標函數（例如提到的2範數，1範數等等），而最小化該目標函數的解就是某個意義下的最優。沒有哪一個目標函數比另外的目標函數更優，每一個合理的目標函數有其適用範圍並且可以在數學上證明其特性，例如 @王芊提到的。一個核心問題是，使用誤差平方和作為目標函數時，200多年前的高斯就發現可以求導得到唯一的顯式解，而這個解法也因此被稱作最小二乘法，人們進一步研究時發現在高斯雜訊等條件下可以得到一些漂亮的結論：如最小二乘解等價於最大似然估計，最佳線性無偏估計等（說得不太嚴格，請參考教材和 @馬拉轟等人的回答）。而是用其他目標函數，很難顯式得到最優解——而近年來凸優化的發展，使用1範數等目標函數也可以有成熟演算法求得其最優解。

總結：(1)首先你得定義什麼叫最優，即定義一個合理（make sense）的誤差目標函數去最小化；（2）然後，你得有演算法求得該目標函數對應的最優解。

看錯了刪

------------------
我能想到的原因有三個：
一，最小二乘問題直接解矩陣就能算，用起來簡便。
二，假設誤差iid正態分布，最小二乘給出的參數是最大似然估計。正態分布最常用，有各種好性質。
三，假設誤差同方差，零均值，不相關，最小二乘給出的參數是最好無偏估計，最好的定義是參數方差最小。(Gauss-Markov Th.)

實際上後兩條的假設一般都是不成立的，常用的真正原因是第一條。

謝邀。
不是很同意 @王芊的說法。
首先跟題主說一下，最小二乘法的「最優」也要看應用情景的。
實際上最小二乘法更準確的說是一個正交投影（orthogonal projection），而這個投影的很多優良性質不需要假設正態分布。
這裡正交投影的意思是，在x所張成的線性空間裡面找一個向量使得其與y的距離最小。
即使沒有正態分布的假設，OLS也是對conditional expectation的最優線性預測。
也有人提到了BLUE，回想一下，證明BLUE的時候我們並沒有用正態分布的假定。
如果從統計推斷角度來說，小樣本情況下的統計推斷還需要正態的假設，大樣本是不需要的。
最小二乘之所以是「最優」，僅僅是因為用這個方法做出來的剛好是正交投影而已。
但是還有很多其他方法，比如中位數回歸：
$min_eta{sum_{i=1}^N{|y_i-x_i$
最小化的就是絕對值。而且中位數回歸在某些方面有比最小二乘更好的性質，比如對異常值穩健等等。當然，如果誤差分布對稱，中位數回歸的 $eta$ 跟最小二乘得到的結果是漸進相等的。
感興趣可以看一下這篇文章：JSTOR: Journal of Economic Literature, Vol. 29, No. 1 (Mar., 1991), pp. 34-50
還是那句話，都在做回歸，但是首先你得明確自己做回歸的目的才能找到那個「最優」的回歸方法。
=====
更新。
關於這個問題跟不同的人包括 @王芊@SlowMover@W Xue@馬拉轟交流了一下，其實不同專業的人都在用OLS，但是不同專業的人對OLS的理解是完全不一樣的。比如在計量經濟學裡面，至少有四五種方法可以得到OLS的結果，包括但不限於MLE、投影、GMM、最小化距離等。看到 @王芊的答案下面還有討論稀疏性的，在計量經濟學裡面是完全不討論的（或者是我不知道）。還有 @W Xue的答案裡面提到的物理意義，我表示也不能理解。
所以呢，這種問題答案很開放的，題主應該首先明確自己使用OLS的目的，是解釋還是預測還是擬合曲線抑或是其他，你要的是係數還是預測值？使用目的的差異會導致同一種方法的理解和使用相去甚遠。
不管怎樣，希望大家看一下其他幾位的答案，收穫會很多。很開心跟大家進行這樣的交流。之前 @馬拉轟又把我之前的一次爭論拿出來說事，你看我們交流的不是很好么？好的態度應該是求同存異，而不是在不了解別人的專業的情況下妄自對別人進行攻擊。看一下那個帖子對我攻擊的人數和對我贊同的人數比較一下，應該知道那個帖子我之所以反應劇烈，是被一小部分自以為是的人逼的。
======
此外回答 @王芊為什麼要用歐氏距離而不是其他距離。有很多人回答了諸如簡單、符合直覺、有顯示解，我想最根本的還是因為「正交投影」四個字。優秀的性質並不是因為最小化了距離，而是正交。這也就是 @SlowMover提到Frisch-Waugh-Lovell定理的原因。如果說正交，必然先定義內積。有了內積，很多事情就變得方便了。其他的距離也可以用，但是不能保證正交，因為可能找不到一個導出這個距離的內積定義。

讀了@慧航的答案，找了本書對照學習了下：

對於 $L^2(Omega, Sigma, P)$ 空間上的因變數 $Y: Omega o mathbb R$ 和自變數 $mathbf{X}: Omega o mathbb{R}^n$ ，我們有：

$mathbb{E}(Y mid sigma(Y) cap sigma(mathbf{X})) := operatorname{proj}_{L^2(Omega, sigma(Y) cap sigma(mathbf{X}))}(Y)= {operatorname{argmin}}_{{f: mathbb{R}^n o mathbb{R} mid f ext{ is Borel measurable}}} | Y - f(mathbf{X}) |_2 circ mathbf{X}$

這裡用到的定理有：

子空間 $L^2( Omega, sigma(Y) cap sigma(mathbf{X}), P)$ 是 $L^2( Omega, Sigma, P)$ 的閉凸集，存在唯一的 $Y$ 在這個子空間上的正交投影。
Doob-Dynkin lemma證明了存在 $f: (mathbb{R}^n, mathcal{B}^n) o (mathbb{R}, mathcal{B})$ ,使得 $mathbb{E}(Y mid sigma(Y) cap sigma(mathbf{X})) = f circ mathbb{E}(mathbf{X} mid sigma(mathbf{X}) cap sigma(Y))$

當我們使用線性回歸模型的時候，我們需要的leap of faith是可測函數 $f$ 是仿射函數，也就是存在一個 $(n+1) imes 1$ 列向量 $eta$ 使得 $f circ mathbb{E}(mathbf{X} mid sigma(mathbf{X}) cap sigma(Y)) = (1, mathbb{E}(mathbf{X} mid sigma(mathbf{X}) cap sigma(Y))) eta$

這樣我們的問題就轉化為了熟悉的形式：
$min_{eta in mathbb{R}^{n+1}}(Y - (1, mathbb{E}(mathbf{X} mid sigma(mathbf{X}) cap sigma(Y))) eta)^T (Y - (1, mathbb{E}(mathbf{X} mid sigma(mathbf{X}) cap sigma(Y))) eta)$

剩下的就是參數估計的問題了。

References:
[1]: 博客 Proofs of Doob-Dynkin Lemma
[2]: Corbae, Dean, Maxwell B. Stinchcombe, and Juraj Zeman. An introduction to mathematical analysis for economic theory and econometrics. Princeton University Press, 2009.

樓主，你那個距離之和最小叫做最小一乘法，這個是線性回歸理解起來最直觀的做法，而且擬合效果也很好，據說有實驗表明，最小一乘法做的線性擬合，和靠人眼估計做的擬合非常接近。
關鍵問題是，最小二乘法是讓誤差的平方和最小，這個可以用偏導數來研究，並且可以給出參數的公式。而最小一乘法是讓誤差的絕對值之和最小，數學上解決這個問題比最小二乘法複雜得多。它只是看起來簡單，可惜這是一種錯覺。
實際上最小一乘法比最小二乘法要先誕生，為何被拋棄，主要還是當時的數學水平解決不了這個問題，後來才發現線性規劃的解決方法，還要藉助計算機才可以搞定。

在假設了雜訊符合高斯分布時，利用最大似然估計（MLE）推導得出就是最小化方差（最小二乘法）,當然此時方差估計是有偏的（bias），容易產生過擬合。

題主提到：

每個點到直線的距離之和最小

這個根據歐式空間下點到直線的距離定義，用數學式子表示出來就是L2-norm的minimization.
所以最小二乘是這個最優化式的解析解。

（我之前也往往會把最小二乘法的目標函數與距離混淆）
1 如果是做線性回歸，那麼是一類統計問題。
在統計學中，高斯-馬爾可夫定理解釋了在統計評價指標中，為什麼最小二乘法是最佳線性無偏估計。
可參見維基百科http://zh.wikipedia.org/wiki/%E9%AB%98%E6%96%AF%EF%BC%8D%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E5%AE%9A%E7%90%86
根據你後面的問題，有可能你對統計方面的一些知識還不太熟悉。
最小二乘法是數學中會經常用到的一種方法，是通過誤差的最小平方和得到擬合函數的參數。
(知乎上的數學公式輸入語句還不全），你可以去維基上搜索關於最小二乘法的定義。

由於是誤差就是預測值與觀測值的差，其平方和與二維空間中的歐式距離是一樣的，所以可以使用歐幾里得度量去表達；

2 所以在最簡單的一元線性函數 $y=kx+b$ 擬合中，最小二乘法的目標函數就簡化成，每個點與直線上的估計值的距離（二維歐式距離）之和最小；
******************************************
3 也不是你說的點到直線的距離之和最小；
我想，做線性回歸分析的這些點是樣本點，所以你應該考慮的是樣本點與它的估計值之間的誤差，而點到直線的距離，往往很多時候點到直線的垂線所交的垂足，並不是樣本點的估計值，所以從統計上來看意義不大；

最小二乘的假設是高斯雜訊，最大似然估計推導出來的，你不妨推一遍，Andrew Ng的視頻里也有講過
你說的距離之和其實是一範數，是拉普拉斯雜訊推導出來的
具體用那種，看雜訊的分布假設是什麼

不知道樓主在哪裡看到或者自己以為的最小二乘是最優的，其實這個要看問題的實際背景，最小二乘只是最簡單的數據擬合方法，如果在個別數據點有較大偏差的情況下，它是不可用的。
可以想想，如果在進行直線的擬合的時候，如果某個點偏離理想的直線很遠，那麼擬合得到的直線也就會偏離理想的直線很遠。
也就是由於這個問題的存在，後面陸續的出現了很多方法解決它，比如最小平方中值法，對於個別數據的較大偏離也能很好地擬合模型，當然還有很多魯棒性的新方法，IKOSE。。。

題主所說的方法也是合理的。比如，在協變數存在觀測誤差時，如果觀測誤差是正態的，則通過極大似然估計可以導出類似題主說的方法。不假設正態分布，也是可以的，參考偏最小二乘法。

另外當誤差的方差與回歸係數有特定關係時(這種關係一般由關於模型的知識得出)，由極大似然也可以推出類似題主所說的方法。

不明白 @王芊引用的極大似然的解釋為什麼這麼多反對和批評。極大似然估計是使對參數的估計的均方誤差漸進最小(樣本量越來越多時)的估計。這個意義下極大似然是最優的，最小二乘在教科書里對最簡單的線性回歸所做的假設下就是極大似然估計。這是高斯最先提出的，也是最小二乘能夠這麼流行的主要原因。

不假設正態分布前面回答里blue也是很好的解釋。

不同意樓上 @王芊的說法，我個人是這麼認為的：

對於線性回歸，無論用LSE(最小二乘估計)還是MLE(極大似然估計)，都是基於不同的假設而已，LSE是直接假設object function，而MLE假設的是distribution，這裡在gauss noise下，他們恰好formula相同而已。anyway，他們都不一定會match ground truth。

至於假設是否靠譜，我們還得通過假設實驗進行驗證。

前面都說的很詳細了，我再加個最小二乘的幾何意義吧。
假如你採集了如下數據(x1, y1), (x2, y2), ..., (xn, yn)。然後你準備發現x和y之間的線性關係，於是應該存在一個k和b使得：
$y_1 = kx_1+b \ y_2 = kx_2+b\ .\ . \ .\ y_n = kx_n+b$
然後你發現可以寫成一個矩陣的形式
$left( egin{array}{ccc} x_1 1\ x_2 1 \ . . \ . . \ . . \ x_n 1 \ end{array} ight)ullet left( egin{array}{ccc} k\ b \ end{array} ight) =left( egin{array}{ccc} y_1 \ y_2 \ . \ .\ .\ y_n\ end{array} ight)$
所以現在你想找的k和b其實是在做這樣一件事情：
把兩個向量（含有x矩陣的第一列和第二列）進行線性組合，最終組合的結果是右邊的y。

通常在工程中，你所採取的樣本是有雜訊的，也就是說y不在由x和1組成的空間里。所以(x1, x2, ..., xn)和（1, 1, ..., 1)組成一個二維的平面，而y在平面外。那麼現在我們要在平面里找到一個向量v，讓該向量和y之間的距離最短，那沒辦法了，只好找y在該平面上的投影了。因為一個點到平面上點的距離中，垂直最短。

最小二乘法在這個定義下是最優的，因為我們採用了「距離」這一度量來看一個解是好還是壞。如果你定義成絕對值，那答案就不一樣了。

那我們為什麼要採用別的「度量」呢，因為以距離作為評判標準使得結果對雜訊非常敏感。

可以看出，只要有四個特別差的點，整條直線已經偏離很多了。

首先，這個問題的不完整，你比如應該先定義「最優」。

事實上，如果是給出一列數據y，然後一堆數據X，不管它們的獨立性、同分布之類的，這時候要做一個擬合，使得均方誤差最小，確實應該用最小二乘。記住，這裡跟正態分布無關，跟同分布無關，跟獨立性無關。

如果我們「最優」的目標不是均方誤差最小，而是誤差的絕對值的和最小，那麼最小二乘未必是最優點。

好了，現在加入一點統計的元素：

首先，現在我們加入了y=Xb+e的形式，e是誤差項，記住，還沒有正態、獨立同分布，我們先假設e是期望為零的誤差項，這時候，經過簡單的代數計算，我們可以證明最小二乘的解是無偏的。

比如b_hat=(X"X)^(-1)(X"y), E[Xb_hat]=Xb+E[X(X"X)^(-1)X『e]=Xb,

請原諒寫的比較丑。。。

當然，還要證明它是無偏裡面方差最小的，這個時候條件不夠，需要慢慢加，比如獨立同分布和正態都要加進來，可以證明這點。

然後大概就能說明最小二乘方法求得的解，在這些條件下，是最優的。

現實中如果做預測的話，會犧牲擬合的程度，比如引入一些誤差，使得係數是有偏估計，但方差小一些，這樣在樣本外預測或許好一點。

看到 @慧航的回答，貌似沒有區分清楚樣本和總體的概念，參數和參數估計值的概念，這裡我也從計量經濟學的角度答一下。

首先概述一下，計量中最核心的工作就是利用樣本數據估計未知參數，OLS是其中的一種估計方法，估計方法所估計出來的估計量在特定條件下有一些性質（無偏、一致等等），這些性質決定了一個估計量的好與壞（在不同情況下），因此我應該這麼回答題主的問題：OLS在哪些情況下有哪些較好的性質，使得在這些情況下OLS是比較適合作為估計方法的？

1、OLS的估計對象

既然OLS是一種估計方法，那麼估計的對象就是參數，這個參數從何而來呢？假設y是因變數，x是自變數（可以為多個，是一個向量），記住，這個時候y和x都是隨機變數（或隨機變數組成的向量），而和數據、樣本沒有任何關係，在這一部分里討論的都是總體的概念。對於計量經濟學，主要關心y和x之間的以下兩種關係：

情況1：y=x"b+e，其中b為參數，是一個向量，e滿足E(e|x)=0（e對x的條件期望為0）

這種情況下x"b被稱為y的條件期望函數（conditional expectation function，即CEF），而且在這種情況下，這個條件期望函數是線性的，所以這種情況又被稱為linear CEF。下面也會說到，OLS估計量的小樣本性質很多依賴於linear CEF的假設。

PS：對於任意的y和x來說，y對x的CEF不一定是線性的關係，因此這種情況的假設更強，較為特殊。

情況2：y=x"b+e，其中b為參數，是一個向量，e滿足E(xe)=0（e與x不相關）

這種情況下可以將b的形式解出來，b=[E(xx")]^(-1)*E(xy)。這種形式的x"b被稱為y的線性最佳預測（best linear predictor，即BLP），也被稱為y對x的CEF的最佳線性近似（best linear approximation，即BLA）。以上這幾個結論都可以被證明，這裡略去不表。

PS：當y對x的CEF是線性關係，即linear CEF時，這時linear CEF剛好是x對y的BLP（BLA），因為E(e|x)=0可以推出E(xe)=0。但反之是不成立的。

因此當linear CEF成立時，b同樣等於b=[E(xx")]^(-1)*E(xy)。

這時候我們OLS的估計對象就出現了，在兩種情況下，感興趣的未知參數都是b=[E(xx")]^(-1)*E(xy)，那麼我們要想辦法利用樣本數據把b估計出來。

2、OLS估計方法

以下進入涉及樣本和數據的估計方法部分。為了與第一部分的總體概念區別開來，我用大寫字母來表示樣本而非總體的概念。為了簡便表述，假設每個觀測（yi，xi）都是獨立同分布。

首先假設X為n*k（即n行k列）的矩陣，其中n行代表n個觀測樣本，k列代表每個樣本有k個變數。Y為n*1（n行1列）的矩陣（向量）。

我們要估計的參數為b=[E(xx")]^(-1)*E(xy)，用B代表對b的OLS估計，那麼B=[X"X]^(-1)*[X"Y]。這就是大家熟悉的OLS估計量。

為什麼要用這個估計量呢，這就涉及到在不同假設條件下，OLS估計量有什麼樣的性質了，如果這些性質是好的，那麼就可以justify我們對OLS估計量的使用是恰當的。

3、OLS估計量的性質

OLS估計量的性質取決於對於總體y與x關係之間的假定，根據在第一部分中的兩種假定情況，有以下的一些性質。分為小樣本性質和大樣本性質，這裡介紹一些比較重要的。

小樣本性質：

（1）無偏性（unbiasedness）
在情況1的假設下，E(B)=b，即OLS估計量是無偏的。形象地理解，對於同一個符合情況1的總體關係，每次產生100個觀測，然後算出B（記為B(1)），然後重複100次這個過程，可以有B(1)到B(100)一共100個b的估計值，那麼這100個的平均值大約就是b的真值。

（2）有效性（efficiency）
在情況1的假定下，加上同方差的假定（即var(e|x)=常數），那麼OLS估計量不僅是無偏的，而且在所有的對b的線性無偏估計中，OLS估計量的條件方差是最小的，因此被稱為「有效」的。也就是說，OLS是BLUE（best linear unbiased estimator）。

需要注意的是OLS是BLUE這一結論，只有在情況1+同方差的假定下，再加上某些規範性條件（如E(xx")是正定矩陣，等等）的假設下才成立，這些假設被綜述為高斯-馬爾科夫條件（Gauss-Markov Theorem），計量教材上都有。

大樣本性質：

（1）一致性（consistency）
在情況2的假定下，B依概率收斂到b，即B是b的一致估計量，意思是隨著樣本量趨近於無窮，B與b之間存在任意小差距的概率為0。一致性是計量經濟學家最為關心的估計量性質，一個估計量可以有偏，但只要它是一致的，那麼一般都是可以接受的。證明基本上時應用了弱大數定理，計量教材中基本上也有。

（2）漸進正態（asymptotic normal）
假設樣本量是n，那麼在情況2的假定下（加上某些規範條件，如四階矩有窮，等等），n^(0.5)*(B-b)隨著n趨於正無窮，會趨於一個正態分布。這對做估計量的假設檢驗等就很方便了，證明基本上用到弱大數定理和中心極限定理。

（3）漸進有效（asymptotic efficiency）
與前面的不同這裡需要其他的假設，引入情況3。

情況3：y=x"b+e，其中b為參數，是一個向量，e為獨立同分布的正態變數。

情況3下，由於已知誤差項具體的分布，可以應用極大似然估計量（maximum likelihood estimator，即MLE），而在誤差為獨立同分布正態的情況下，解出來的MLE估計量B『剛好是[X"X]^(-1)*[X"Y]，即剛好與OLS估計量是相同的。

在分布正確設定的情況下，MLE估計量有一個非常好的性質，即漸進有效性。意思是隨著樣本趨於正無窮時，MLE估計量的漸進方差是所有一致估計量中最小的。

所以在誤差為獨立同分布正態的假設下，OLS估計量剛好是MLE估計量，因此具有漸進有效性。個人認為漸進有效性是一個估計量所能達到的最完美的性質了。

此外OLS估計量在某些假設下還有所謂的半參有效性（semi-parametric efficiency）等等，可能不是太過重要，所以這裡不詳細說了。

4、題主提到的最小距離之和

題主提到的這種方法應該是有的，叫做least absolute deviation estimator（LADE）。LADE估計量的好處相對於OLS來說，是比較穩健，對異常值相對更不敏感，在比較複雜的計量技術裡面也有應用（比如當應用heckman兩步法時如果誤差不符合正態分布，那麼LADE是穩健的估計）。

至於為什麼一開始不用LADE而用OLS，我想應該是在優化目標函數時，平方項可以求導而絕對值無法求導吧。

先寫這麼多，以後想到再補充，歡迎探討！

除了 OLS 是 BLUE 的，好計算，是任何情況的 default 設置之外，再補充兩句話哈。感覺很多回答並沒有解釋答主心中為毛「每個點到直線的距離之和最小」不好的疑惑。
使用 OLS 的時候更多的是關心均值。OLS 出來以後解釋起來就是 x 每變化一個單位（或者一個百分比），y 平均變化多少。如果 OLS 的假設不滿足，我們若干修正方法，包括但不限於 GLS GMM 等，解釋起來也都是 x 每變化一個單位（或者一個百分比），y 平均變化多少。
題主說的「這樣的直線，它使得每個點到直線的距離之和最小」，即所謂的中位數回歸，也即使用1-範數。這種是所謂的 quantile regression 的特殊情況。所謂的 quantile regression，即對某一百分位點（比如中位數，50%分位點）進行建模。quantile regression 算起來要麻煩一些，還需要一個什麼優化演算法，我記得前年的 MATLAB 裡頭自帶的 quantile regression 的代碼還是有問題的，當時要用還得自己寫代碼，我還不會寫還是抄別人的，具體現在已經忘了，也不知道他們更新了沒。這種回歸執行出來解釋係數的意義就變成了 x 每變化一個單位（或者一個百分比），y 的中位數（或者某一百分位點）變化多少。有時候你在關心中位數或者特定的百分位點的時候，或者有理論指導說中位數或某百分位點會怎麼變化的時候，這種 quantile regression 可能會很有用，但是大部分情況不是這樣的，至少對於我們社會科學來說，幾乎沒有有理論告訴你隨著 x 的變化，中位數怎麼變，百分位點怎麼變，因此實際上 quantile regression 對我們來說不是很普遍，只是在很高級的計量理論課上才會介紹，很多情況下都是理論計量學家的玩物，幾乎從來沒在實證的 paper 上看到過（當時學 quantile regression 的時候叫獸發了一篇實證文章讀過，但是後頭其他任何課和自己的研究相關文獻讀的就沒見過 quantile regression 了）。
因此從很多社科問題的實際應用角度，包括中位數回歸這種 quantile regression 不會是很好的選擇，哪怕其實 quantile regression 也有不少很好的性質。
一個社會科學狗的感覺哈，理工科從信號系統的角度怎麼看 OLS 母雞哈。