最大似然估計和最小二乘法怎麼理解?


最大似然估計:現在已經拿到了很多個樣本(你的數據集中所有因變數),這些樣本值已經實現,最大似然估計就是去找到那個(組)參數估計值,使得前面已經實現的樣本值發生概率最大。因為你手頭上的樣本已經實現了,其發生概率最大才符合邏輯。這時是求樣本所有觀測的聯合概率最大化,是個連乘積,只要取對數,就變成了線性加總。此時通過對參數求導數,並令一階導數為零,就可以通過解方程(組),得到最大似然估計值。
最小二乘:找到一個(組)估計值,使得實際值與估計值的距離最小。本來用兩者差的絕對值匯總並使之最小是最理想的,但絕對值在數學上求最小值比較麻煩,因而替代做法是,找一個(組)估計值,使得實際值與估計值之差的平方加總之後的值最小,稱為最小二乘。「二乘」的英文為least square,其實英文的字面意思是「平方最小」。這時,將這個差的平方的和式對參數求導數,並取一階導數為零,就是OLSE。


謝邀,這個問題下的答案很多是直接從機器學習領域過來回答的,很有啟發性,讓我了解了在別的領域是如何理解這兩種方法的。論及本質,其實兩者只是用不同的度量空間來進行的投影,如同 @顥卿 的答案所提到的那樣,OLS的度量是L2 norm distance,而極大似然的度量是Kullback-Leibler divergence.

不過這種高度抽象的統一框架,主要功能就是讓人聽起來很優雅很爽,滿足了人對形式美的追求,缺點也很明顯:

  1. 不在概率論方面下一些功夫不太能真正理解
  2. 無法直接拿過來應用

所以在大多數情況下,我們介紹這兩種方法的時候,可能並不需要講解這麼抽象的東西。好,下面我們開始說人話^_^

設想一個例子,教育程度和工資之間的關係。我們觀察到的數據無非就是一個教育程度,對應著一個工資。我們希望的自然是找到兩者之間的規律:如果把教育程度的初中、高中、大學、研究生及博士定義為1234的話,我們希望找到類似於工資=1000 +2000x教育程度 的這種規律,其中1000和2000是我們需要從數據裡面發現的,前者稱之為底薪,後者稱之為教育增量薪水。

如果我們就觀察到兩個數據,那解起來很簡單,直接把兩個數據帶進去,二元一次方程組,就得到底薪和教育程度增量薪水之間的關係。這個在圖上就體現為兩點決定一條直線:

但是如果現在有三個數據,怎麼辦呢?如果這三個點不在一條線上,我們就需要作出取捨了,如果我們取任意兩個點,那麼就沒有好好的利用第三個點帶來的新信息,並且因為這三個點在數據中的地位相同,我們如何來斷定應該選用哪兩個點來作為我們的基準呢?這就都是問題了。這個時候我們最直觀的想法就是『折衷』一下,在這三個數據,三條線中間取得某種平衡作為我們的最終結果,類似於圖中的紅線這樣:

那怎麼取平衡呢?那我們現在必須引入誤差的存在,也就是我們要承認觀測到的數據中有一些因素是不可知的,不能完全的被學歷所解釋。而這個不能解釋的程度,自然就是每個點到紅線在Y軸的距離。

但是我們儘管痛苦的承認了有不能解釋的因素,但是我們依然想儘可能的讓這種『不被解釋』的程度最小,於是我們就想最小化這種不被解釋的程度。因為點可能在線的上面或者下面,故而距離有正有負,取絕對值又太麻煩,於是我們就直接把每個距離都取一個平方變成正的,然後試圖找出一個距離所有點的距離的平方最小的這條線,這就是最小二乘法了,簡單粗暴而有效。

而極大似然則更加的有哲理一些。還用上面的例子,我們觀察到了三個點,於是我們開始反思,為什麼我們觀察到的是這三個點而不是另外三個?大千世界,芸芸眾生,這麼多人都有不同的工資,不同的學歷,但是偏偏這三個點讓我給觀察到了。這肯定說明了某種世界的真相。

什麼世界的真相呢?因為我們觀察到了這三個點,反過來說,冥冥之中註定了這三個點被我們觀察到的概率可能是最大的。所以我們希望找到一個特定的底薪和教育增量薪水的組合,讓我們觀察到這三個點的概率最大,這個找的過程就是極大似然估計。

具體的做法很簡單,因為底薪和教育增量薪水雖然我們不知道,但是它一定存在,所以是個固定的值,能夠隨機變動的就是我們觀察不到的神秘誤差,那麼給定一組底薪和教育增量薪水,必然存在一個唯一的誤差與之對應,共同組合成了我們看到的數據。比如說,我們觀察到一個人是:

高中畢業(學歷變數=2) 工資 4500,如果我們假定工資=1000 +2000x教育程度的話,那麼理論上工資應該是5000,而我們觀察到了4500,所以這個時候誤差為500。而誤差=500,根據我們假設的誤差的概率函數,總是存在一個概率與之相對應的(這個概率的分布我們可以假設)。而極大似然估計,就是把我們觀察到每個樣本所對應的誤差的概率乘到一起,然後試圖調整參數以最大化這個概率的乘積。

其背後的直覺是:假想有一個神秘的超自然力量,他全知全能,自然也知道真實的數據背後的規律。他在你抽樣之前先做了一次複雜的計算,把無數個可能的抽樣中,最可能出現的那個抽樣展示給你。於是你根據這個抽樣,逆流而上,倒推出來了數據背後的真實規律。

總結一句話,最小二乘法的核心是權衡,因為你要在很多條線中間選擇,選擇出距離所有的點之和最短的;而極大似然的核心是自戀,要相信自己是天選之子,自己看到的,就是冥冥之中最接近真相的。^_^


說的通俗一點啊,最大似然估計,就是利用已知的樣本結果反推最有可能(最大概率)導致這樣結果的參數值。
例如:一個麻袋裡有白球與黑球,但是我不知道它們之間的比例,那我就有放回的抽取10次,結果我發現我抽到了8次黑球2次白球,我要求最有可能的黑白球之間的比例時,就採取最大似然估計法:
我假設我抽到黑球的概率為p,那得出8次黑球2次白球這個結果的概率為:
P(黑=8)=p^8*(1-p)^2,現在我想要得出p是多少啊,很簡單,使得P(黑=8)最大的p就是我要求的結果,接下來求導的的過程就是求極值的過程啦。
可能你會有疑問,為什麼要ln一下呢,這是因為ln把乘法變成加法了,且不會改變極值的位置(單調性保持一致嘛)這樣求導會方便很多~

同樣,這樣一道題:設總體X 的概率密度為
已知 X1,X2..Xn是樣本觀測值,求θ的極大似然估計

這也一樣啊,要得到 X1,X2..Xn這樣一組樣本觀測值的概率是
P{x1=X1,x2=X2,...xn=Xn}=

f(X1,θ)f(X2,θ)…f(Xn,θ)
然後我們就求使得P最大的θ就好啦,一樣是求極值的過程,不再贅述。


最小二乘法可以從Cost/Loss function角度去想,這是統計(機器)學習裡面一個重要概念,一般建立模型就是讓loss function最小,而最小二乘法可以認為是 loss function = (y_hat -y )^2的一個特例,類似的想各位說的還可以用各種距離度量來作為loss function而不僅僅是歐氏距離。所以loss function可以說是一種更一般化的說法。

最大似然估計是從概率角度來想這個問題,直觀理解,似然函數在給定參數的條件下就是觀測到一組數據realization的概率(或者概率密度)。最大似然函數的思想就是什麼樣的參數才能使我們觀測到目前這組數據的概率是最大的。

類似的從概率角度想的估計量還有矩估計(moment estimation)。就是通過一階矩 二階矩等列方程,來反解出參數。

各位有人提到了正態分布。最大似然估計和最小二乘法還有一大區別就是,最大似然估計是需要有分布假設的,屬於參數統計,如果連分布函數都不知道,又怎麼能列出似然函數呢? 而最小二乘法則沒有這個假設。 二者的相同之處是都把估計問題變成了最優化問題。但是最小二乘法是一個凸優化問題,最大似然估計不一定是。


我盡量不寫數學,用通俗語言說一說OLS(最小二乘) 和MLE(最大似然) 的本質。

1. OLS其實就是 linear projection(線性投影), 是Hilbert 空間中的被解釋變數在一組解釋變數上的線性投影。(這句話你可能看不懂,沒事,先看下邊的。)

如上圖,我們有兩個向量,v, u, 那麼p 就是v 在u 上的線性投影,記作: p= L(v|u) = b*u

b 我們稱作「係數」。因為是在u 上投影,所以 p = b* u

當然,為了做出來這個投影,我們必須定義「內積」(點乘,下面用x.y 表示x 和y的內積)的概念。這裡,如果p 是 v 在u 上的投影,那麼必須滿足下面兩個條件:

1) u . (v-p) = 0 (垂直條件,也就是說,u 和 v-p 「垂直」)

2)p = b*u (p必須在u 張成的子空間中)

好了,那麼我們現在到Hilbert 空間,這個Hilbert空間其實就是很多很多隨機變數的集合,並且定義了內積的概念。

怎麼給隨機變數定義內積?如果x, y 是兩個(多維)隨機變數 (列向量),那麼定義x.y = E(xy") (y" 表示y的轉置)。此時,如果有一個多維隨機變數x,和一個隨機變數y,我們把y 投影到 x上,就會有L(y|x) = x b,這個b 就是我們在OLS中想要求得的係數。

怎麼求這個係數?由垂直條件可知: x.(y - L(y|x)) = x.(y - x b) =0 所以:b = (x.x)^-1 x.y = (Exx")^-1 E(xy)。

最後,投影是如何跟「最小二乘」扯上關係?最小二乘,其實就是最小方差。在最上面的圖中,投影變數p (擬合值)是在u (解釋變數)張成的子空間中,距離v(被解釋變數)最「近」的那個向量。這個「近」(距離的概念),是需要用內積來定義。而我說的 x.y = Exy" 這種定義內積的方法,正好能推導出來用「方差」來定義距離的方法。所以投影得到了,最小二乘也實現了。


2. MLE可以看作一種特殊情況下的Bayesian 估計,具體來說,就是在prior 是 diffuse (無知的)情況下,讓posterior 分布取得極大值的係數值。

我們有一些理論模型,記作 "model",這個model 是什麼,在很多實踐中,就是一個模型中關鍵係數的值是什麼這樣的問題(不同的係數的值,我們稱作不同的model) 。我們現在又觀測到一組數據,記作"observation"。那麼問題來了,給定一個model (一組關鍵係數的值),必然會有關於observation 的分布密度函數,所以我們知道P(observation|model) (給定一個model,observation的條件分布)的函數形式。

我們真正關心的,卻是 P(model|observation) 的函數形式,也就是給定了當前的observation (observation是實際觀測到的,是確定下來的),到底不同的model的概率是什麼。當然,一個很貪心的做法,就是找到那個能把P(model|observation) 取到最大值的model (給定某個觀測,最有可能的model)。

現在根據貝耶斯原理,

P(model|observation) = [ P(observation|model) * P(model) ]/ P(observation)

其中P(observation) 不太重要,因為我們想知道不同model 是如何影響 P(model|observation)的,或者是貪心的求P(model|observation)的最大值。而P(observation)已經固定下來了,不隨model改變,所以我們無視他。

我們如果知道 P(model)(所謂的Prior) 的函數形式,那麼就沒有什麼問題了。此時的P(model|observation)是一個關於model 的函數。報告這個P(model|observation)作為model的函數的函數形式,就叫貝耶斯估計。可是,這需要我們知道P(model)。實際中我們不知道這個玩意,所以一般我們猜一個。

我們如果承認不知道P(model),認為我們對他是無知的話,那麼P(model) = 常數 for all model,此時求P(model|observation) 最大值,也就等價於求P(observation|model) 的最大值,這就叫做MLE。


3。二者區別。從上面可見,OLS 是把所有變數扔到線性空間中,求線性投影的係數:它並不需要什麼信息。而MLE 是需要我們知道一個完整的理論模型 (否則P(observation|model) 根本就不知道是什麼)。由於一般大家接觸的都是線性模型,所以二者區別不大。當模型無法變成線性狀態時(比如censored data, logit/probit 之類的),此時OLS此時報告的仍然是線性投影,我們卻沒有用到這些「非線性」的信息,因此MLE的選項就好很多。

不論任何時候,OLS報告的都是線性投影(準確的說,是對線性投影的「估計」值),都是 "best linear predictor"。當你加上了一些假設,(比如 在 y = x b + u 這樣的理論模型中,你假設了 E(xu) = 0 這樣的經典計量經濟學假設),此時OLS報告的還是線性投影,只不過,這個線性投影正好等於模型中的"b"。

如果在模型 y = x b + u 中,E(xu) != 0,不滿足經典計量假設。那麼此時你用上了OLS,得到的是y = x a + e 這樣的模型,你是知道了a,而且很容易知道E(xe) = E(x(y-x a)) = x. (y-x a) = 0 (線性投影的垂直條件)。但是這個a 卻不是你一開始設定模型時想要知道的b。


有些答案純屬盲人摸象,並未觸及本質。

從概率論的角度:

  1. Least Square 的解析解可以用 Gaussian 分布以及最大似然估計求得
  2. Ridge 回歸可以用 Gaussian 分布和最大後驗估計解釋
  3. LASSO 回歸可以用 Laplace 分布和最大後驗估計解釋

-------------------------------------------------------------------

下面貼一下我以前的推導給大家參考,相信會有啟發。如有錯誤還望指正 -_-

注意:

  1. 假設你已經懂得:高斯分布、拉普拉斯分布、最大似然估計,最大後驗估計(MAP)。
  2. 按照李航博士的觀點,機器學習三要素為:模型策略演算法。一種模型可以有多種求解策略,每一種求解策略可能最終又有多種計算方法。以下只講模型策略,不講演算法。(具體怎麼算,convex or non-convex, 程序怎麼寫,那是數值分析問題)

-------------------------------------------------------------------


首先假設線性回歸模型具有如下形式:

f(mathbf x) = sum_{j=1}^{d} x_j w_j + epsilon = mathbf x mathbf w^intercal + epsilon

其中mathbf x in mathbb R^{1 	imes d}mathbf w in mathbb R^{1 	imes d}誤差epsilon in mathbb R

當前已知mathbf X=(mathbf x_1 cdots mathbf x_n)^intercal in mathbb R^{n 	imes d}mathbf y in mathbb R^{n 	imes 1},怎樣求mathbf w呢?


策略1. 假設epsilon_i sim mathcal{N}(0, sigma^2),也就是說mathbf y_i sim mathcal{N}(mathbf x_i mathbf w^intercal, sigma^2),那麼用最大似然估計推導:

 egin{align*} 	ext{arg,max}_{mathbf w} L(mathbf w)  = ln {prod_{i=1}^n frac{1}{sigma sqrt{2pi}} exp(-frac{1}{2}(frac{mathbf y_i - mathbf x_i mathbf w^intercal}{sigma})^2})\  = - frac{1}{2sigma^2} sum_{i=1}^n(mathbf y_i - mathbf x_i mathbf w^intercal)^2 - n ln sigma sqrt{2pi} end{align*} 	ext{arg,min}_{mathbf w} f(mathbf w) = sum_{i=1}^n(mathbf y_i - mathbf x_i mathbf w^intercal)^2= {leftlVert{mathbf y - mathbf X mathbf w^intercal}
ight
Vert}_2^2

這不就是最小二乘么。

策略2. 假設epsilon_i sim mathcal{N}(0, sigma^2)mathbf w_i sim mathcal{N}(0, 	au^2),那麼用最大後驗估計推導:

egin{align*} 	ext{arg,max}_{mathbf w} L(mathbf w)  = ln prod_{i=1}^n frac{1}{sigma sqrt{2pi}} exp(-frac{1}{2}(frac{mathbf y_i - mathbf x_i mathbf w^intercal}{sigma})^2) cdot prod_{j=1}^d frac{1}{	au sqrt{2pi}} exp(-frac{1}{2}(frac{mathbf w_j}{	au})^2)\  = - frac{1}{2sigma^2} sum_{i=1}^n(mathbf y_i - mathbf x_i mathbf w^intercal)^2 - frac{1}{2	au^2} sum_{j=1}^d mathbf w_j^2 - n ln sigma sqrt{2pi} - d ln 	au sqrt{2pi} end{align*}egin{align*} 	ext{arg,min}_{mathbf w} f(mathbf w) = sum_{i=1}^n (mathbf y_i - mathbf x_i mathbf w^intercal)^2 + lambda sum_{j=1}^d mathbf w_j^2 \ = {leftlVertmathbf y - mathbf X mathbf w^intercal
ight
Vert}_2^2 + lambda {leftlVertmathbf w
ight
Vert}_2^2 end{align*}

這不就是 Ridge 回歸么?


策略3. 假設epsilon_i sim mathcal{N}(0, sigma^2)mathbf w_i sim 	ext{Laplace}(0, b),同樣用最大後驗估計推導:

egin{align*} 	ext{arg,max}_{mathbf w} L(mathbf w)  = ln prod_{i=1}^n frac{1}{sigma sqrt{2pi}} exp(-frac{1}{2} (frac{mathbf y_i - mathbf x_i mathbf w^intercal}{sigma})^2) cdot prod_{j=1}^d frac{1}{2b} exp(-frac{|mathbf w_j|}{b}) \  = - frac{1}{2sigma^2} sum_{i=1}^n(mathbf y_i - mathbf x_i mathbf w^intercal)^2 - frac{1}{2	au^2} sum_{j=1}^d |mathbf w_j| - n ln sigma sqrt{2pi} - d ln 	au sqrt{2pi} end{align*}egin{align*} 	ext{arg,min}_{mathbf w} f(mathbf w) = sum_{i=1}^n (mathbf y_i - mathbf x_i mathbf w^intercal)^2 + lambda sum_{j=1}^d |mathbf w_j| \ = {leftlVertmathbf y - mathbf X mathbf w^intercal
ight
Vert}_2^2 + lambda {leftlVertmathbf w
ight
Vert}_1 end{align*}

這不就是 LASSO 么?


不知大家看懂沒,簡直是完美統一啊。


作業:)

  1. 策略1和2最終的目標函數都是常規的極值問題,試求出解析解。
  2. 有一種常見的回歸通篇沒有提到,也可以納入上述體系,試找出策略4並推導之。

參考文獻:

[1] Machine Learning

[2] The Elements of Statistical Learning

-------------------------------------------------------------------

小廣告:求一份初級的機器學習/數據挖掘相關工作職位。


極大似然估計,通俗理解來說,就是利用已知的樣本結果信息,反推最具有可能(最大概率)導致這些樣本結果出現的模型參數值!

換句話說,極大似然估計提供了一種給定觀察數據來評估模型參數的方法,即:「模型已定,參數未知」。

可能有小夥伴就要說了,還是有點抽象呀。我們這樣想,一當模型滿足某個分布,它的參數值我通過極大似然估計法求出來的話。比如正態分布中公式如下:

如果我通過極大似然估計,得到模型中參數 musigma 的值,那麼這個模型的均值和方差以及其它所有的信息我們是不是就知道了呢。確實是這樣的。

極大似然估計中採樣需滿足一個重要的假設,就是所有的採樣都是獨立同分布的。

下面我通過倆個例子來幫助理解一下最大似然估計

例子一

別人博客的一個例子。

假如有一個罐子,裡面有黑白兩種顏色的球,數目多少不知,兩種顏色的比例也不知。我 們想知道罐中白球和黑球的比例,但我們不能把罐中的球全部拿出來數。現在我們可以每次任意從已經搖勻的罐中拿一個球出來,記錄球的顏色,然後把拿出來的球 再放回罐中。這個過程可以重複,我們可以用記錄的球的顏色來估計罐中黑白球的比例。假如在前面的一百次重複記錄中,有七十次是白球,請問罐中白球所佔的比例最有可能是多少?

很多人馬上就有答案了:70%。而其後的理論支撐是什麼呢?

我們假設罐中白球的比例是p,那麼黑球的比例就是1-p。因為每抽一個球出來,在記錄顏色之後,我們把抽出的球放回了罐中並搖勻,所以每次抽出來的球的顏 色服從同一獨立分布。

這裡我們把一次抽出來球的顏色稱為一次抽樣。題目中在一百次抽樣中,七十次是白球的,三十次為黑球事件的概率是P(樣本結果|Model)。

如果第一次抽象的結果記為x1,第二次抽樣的結果記為x2....那麼樣本結果為(x1,x2.....,x100)。這樣,我們可以得到如下表達式:

P(樣本結果|Model)

  = P(x1,x2,…,x100|Model)

  = P(x1|Mel)P(x2|M)…P(x100|M)

  = p^70(1-p)^30.

好的,我們已經有了觀察樣本結果出現的概率表達式了。那麼我們要求的模型的參數,也就是求的式中的p。

不同的p,直接導致P(樣本結果|Model)的不同。那麼既然事情已經發生了,為什麼不讓這個出現的結果的可能性最大呢?這也就是最大似然估計的核心。

我們想辦法讓觀察樣本出現的概率最大,轉換為數學問題就是使得:

p^70(1-p)^30最大,這太簡單了,未知數只有一個p,我們令其導數為0,即可求出p為70%,與我們一開始認為的70%是一致的。其中蘊含著我們的數學思想在裡面。

例子二

假設我們要統計全國人民的年均收入,首先假設這個收入服從服從正態分布,但是該分布的均值與方差未知。我們沒有人力與物力去統計全國每個人的收入。我們國家有10幾億人口呢?那麼豈不是沒有辦法了?

不不不,有了極大似然估計之後,我們可以採用嘛!我們比如選取一個城市,或者一個鄉鎮的人口收入,作為我們的觀察樣本結果。然後通過最大似然估計來獲取上述假設中的正態分布的參數。

有了參數的結果後,我們就可以知道該正態分布的期望和方差了。也就是我們通過了一個小樣本的採樣,反過來知道了全國人民年收入的一系列重要的數學指標量!

那麼我們就知道了極大似然估計的核心關鍵就是對於一些情況,樣本太多,無法得出分布的參數值,可以採樣小樣本後,利用極大似然估計獲取假設中分布的參數值。


希望對您理解有幫助~

文章地址:一文搞懂極大似然估計 - 知乎專欄


先說結論:誤差服從高斯分布的情況下, 最小二乘法等價於極大似然估計。

我們假設,偏離線性關係的誤差,滿足期望為0的高斯分布, 如下所示:
y_i = pmb{w}^{t}pmb{x}_i + epsilon_i 
onumber\
epsilon_i sim N(0,sigma^2)

我們用極大似然方法估計線性模型的參數pmb{w}, 似然值:
L(pmb{w}) = sum_{i=1}^{n} log f(epsilon_i) qquadquad f quad is quad pdf quad of quad N(0,sigma_{epsilon})
onumber \
= sum_{i=1}^{n} log frac{1}{sqrt{2pisigma^2}}exp(-frac{epsilon_i^2}{2sigma^2}) 
onumber \
= sum_{i=1}^{n} -frac{(y_i- pmb{w}^{T}pmb{x}_i)^2}{2sigma^2} - logsqrt{2pisigma^2}
為了最大化似然值L(pmb{w}), 需要最小化sum_{i=1}^{n} (y_i- pmb{w}^{T}pmb{x}_i)^2 。 這就是最小二乘法啊。 因此我們可以說, 誤差服從高斯分布的情況下, 最小二乘法等價於極大似然估計。

來自。從投影和概率的角度看最小二乘法


距離函數的選擇不同而已,一個是L2 norm distance,一個是Kullback distance。


大部分回答都是用線性回歸問題來舉例說明的。

其實,就算不是線性回歸問題,只要我們認為觀察到的數據 Y 是由模型的真實輸出 f_	heta(X) 疊加上高斯雜訊 varepsilon sim N(0, sigma^2) 得到的,即:

Y=f_	heta(X)+varepsilon

那麼對模型參數 	heta 的最大似然估計和最小二乘估計是等價的。

-------------------簡單的推導--------------------

我們知道,模型的似然函數是

L(	heta)=log P(Y|X, 	heta)=sum_{i}log P(y_i|x_i,	heta)

同時,有 y_i sim N(f_	heta(x_i), sigma^2) , 那麼可以得到

L(	heta)= -frac{1}{2sigma^2}sum_{i}(y_i-f_	heta(x_i))^2-Nlogsigma-frac{N}{2}log2pi

因此,去掉後面兩項不包含 	heta 的常數項,模型參數 	heta 的最大似然估計 max_	heta {L(	heta)} ,就等價於最小二乘估計 min_	heta {sum_i(y_i-f_	heta(x_i))^2}

-----------------有關其他答案提到的ridge,lasso正則----------------

用機器學習的語言來統一描述各種不同的正則項,那就是通常在參數估計的時候要防止出現過擬合。

假設你只有1000個數據點,但是有2000個特徵,那直接做線性回歸最小二乘估計,可以得到無窮種回歸係數的組合(線性方程組有2000個未知數,但是只有1000個方程)。根據奧卡姆剃刀原則,我們希望取最簡單的那個模型,也就是回歸係數距離原點最近的那組解。

但是距離的定義不同,最優解就不同。

如果是歐式距離,那麼最優解就是L2正則下的最小二乘估計,或者是ridge回歸:

min_{	heta} {sum_i{(y_i-f_	heta(x_i))^2+lambda	heta^2}}

如果是曼哈頓距離,那麼最優解就是L1正則下的最小二乘估計,或者是lasso回歸:

min_{	heta} {sum_i{(y_i-f_	heta(x_i))^2+lambda|	heta|}}

高票答主解釋過了,ridge是高斯先驗下的最大後驗估計,而lasso是拉普拉斯先驗下的最大後驗估計。我們換一種幾何方法來理解,更加直觀。

對於ridge回歸的目標函數,看起來特別像帶限制條件的凸優化問題進行拉格朗日變換之後的結果。因此我們反向變回去,還原成帶限制條件的凸優化問題,那麼就是

min_{	heta} {sum_i{(y_i-f_	heta(x_i))^2}}	heta^2 le r

同理,lasso回歸可以變化為

min_{	heta} {sum_i{(y_i-f_	heta(x_i))^2}}|	heta|le r

那麼畫成幾何圖形,就是下面的左圖(ridge)和右圖(lasso)。


請比較:斜率最大時的值 與 橫軸距離最短時的斜率。
前者,MLE屬於無受限的Score Test中表示已發生概率最大化;
後者,OLS屬於Wald Test,表示在誤差漸進服從正態之後的最優表現。但槽點是,前者要求對函數形式要完全了解,通常是不可能的,而後者要求漸進服從的實際觀測值通常不足啊,就也無法漸進有效了。


1.極大似然估計:

訓練樣本是在眾多數據中被你首次觀察到的樣本,這樣的樣本發生概率應該儘可能大才能這麼順利一下子就作為訓練樣本被你觀察到。

2.最小二乘法

在古漢語中「平方」稱為「二乘」,「最小」指的是參數的估計值要保證各個觀測點與估計點的距離的平方和達到最小。


1. 最大似然估計

兩個槍手一個是神槍手歷史命中概率0.9,一個是新手歷史命中概率0.1
十槍射擊後發現中了九發,問應該是哪一個人射擊的。

2. 最小二乘法

兩把尺子一個誤差厘米級的,一個誤差毫米級的。量同樣的物體10次,發現平均誤差是一毫米,問應該是哪一把尺子量的。


首先明確,
似然估計的目的:即 通過 樣本 確定某一分布中的參數。


原理: 通過若干次試驗得到 某個參數值 能夠使 樣本出現的概率為最大,則稱為最大似然估計。


最小二乘法的
目的: 通過已有的數據來預測未知的數據。一般做一條 多元一次直線方程。
原理:假設在一個 2維坐標上,有很多個點,我們劃一條 直線,直線滿足:坐標上所有的點到直線上的距離和最小。(注意,這個距離不是 過點在該直線上做垂線,而是 過該點 做一條與Y軸平行的線,形成的距離)


最後補充一點,在很多的數據分析中,人們往往更加願意 用「距離」來描述數與數之間的關係,還有什麼馬氏距離法、廣義平方距離法等等


我覺得這兩個東西並不是處於同一地位的。

應該是最大似然與最小化損失函數才是處於同一地位的。

例如最大似然的正態假設對應最小二乘,最大似然的拉普拉斯假設對應最小一乘等等。

例如最大似然加上先驗分布對應最小化損失函數加上正則項。

例如正則化係數用cv確定,先驗分布的參數用mcmc求。

但有一個一定一定要搞清楚的地方,很多答案都說,最大似然需要假設分布模型,而最小二乘不需要利用分布信息。

這話說得不太好,因為最小二乘看似沒有假設分布,但是你假設了損失的度量啊,所以實際上不也是相當於先給出了高斯假設?

我猜,最大似然的每一種分布的假設,都對應了一種損失函數。對於每一種損失函數,都應該可以構造出對應的分布假設吧。


最大似然估計是一類方法的總稱,包括了最小二乘法。例如:在線性回歸問題中,假設誤差服從高斯分布的前提下,對模型參數的最大似然估計就是最小二乘法。


最小二乘法是基於最大似然估計推導出來的,詳見這篇文章:為什麼最小二乘法對誤差的估計要用平方?


最大似然是用來估計概率模型參數的,而最小二乘法是用來估計函數模型參數的。當函數模型也是概率模型的時候,兩者的作用一樣的,同時當概率模型又是Gaussian分布的時候,兩者結果一致。


①最大似然估計:
先說最大似然原理,舉個栗子:有兩個外形完全相同的箱子,甲箱中也99隻白球,1隻黑球;乙箱中有99隻黑球,1隻白球。一次試驗取出一球,結果取出的是黑球,人們的第一印象就是:「此黑球最像是從乙箱中取出的」,這個推斷符合人們的經驗事實,「最像」就是「最大似然」之意,這種想法常稱為「最大似然原理」。
對於離散總體,設有樣本觀測值x1,x2,…,xn,我們可以寫出該觀測值出現的概率(它一般依賴於某個參數θ),將此概率用L(θ)表示,稱為似然函數,求最大似然估計就是找θ的估計值使得L(θ)最大,這個估計值就是θ的最大似然估計。
對於連續總體,樣本觀測值x1,x2,…,xn出現的概率為0,這時可以用聯合概率密度函數表示隨機變數在觀測值附近的可能性大小,也將此聯合概率密度函數稱為似然函數。
由於lnx是x的單調增函數,對數似然函數lnL(θ)達到最大與使L(θ)達到最大是等價的,當L(θ)可微時,求導是求最大似然估計的常用方法,對對數函數求導更簡單。
②最小二乘估計:
一元線性回歸方程E(y)=β0+β1x,用最小化圖中垂直方向的離差平方和來估計參數β0和β1,這就是最小二乘法,它是通過使因變數的觀測值與估計值之間的離差平方和達到最小來估計β0和β1的方法。
用平方和的原因是因為樣本回歸線上的點與真實觀測點之差可正可負,簡單求和可能把很大的誤差抵消掉,只有平方和能反映二者的接近程度,這就是最小二乘原理。


補充一下最大似然估計,最大似然估計就是在求似然函數的最大值。
似然函數L(α)=∏p(xi | α),右邊的連乘表示各個抽樣都是統計獨立的。這個公式的導出,可以參看維基百科,從貝葉斯公式導出的。
用維基百科的例子,一個硬幣正面朝上的概率是α,如果我們第一次和第二次都是拋出了正面,那α的似然函數L(α)=α*α(兩個抽樣結果,當然就是兩次正面朝上的概率相乘了),單調函數最大值在自變數最大時取得,等於1。如果我們第一次是正面,第二次是反面,L(α)=α(1-α)=1-α^2,最大值0.5。


推薦閱讀:

把一張紙捏成一個球,球的大小和紙的大小有什麼關係?
一條無限長的繩子是否打不成死結?
光是如何知道哪條路線最快的,費馬原理是不是違背常理呢?
拉普拉斯變換的物理意義是什麼?
比較高深的數學在經濟學有哪些運用相當漂亮?

TAG:數學 | 計算機 | 統計學 | 回歸分析 | 計量經濟學 |