EdX-Columbia機器學習課第1講筆記:概論與最大似然
04-22
概率模型是概率分布的集合。我們並不知道具體參數是什麼,需要進行推測。例如對於給定的數據,我們想建立一個高斯分布模型。注意這裡隱含著一個重要的假設,即所有數據都是獨立同分布的(iid),即
所有這些數據的聯合概率分布可以寫為
求解的過程是要設計一個目標函數。這個函數含有已知的數據和未知的變數,它會隱含地告訴我們什麼樣的參數是好的參數。常見的求解概率模型的方法就是最大似然(即尋找可以將似然函數最大化的未知數),即對找出能使最大的。形式化地,最優解為
這個是下式的解析解
即該使得聯合概率分布的梯度為0
由於多項式乘法求導起來比較麻煩,可以使用「log trick」做一個轉化。其原理在於,使得取得最大值的也能使取得最大值。因此
即要求解下面的方程:
求解方式有兩種
- 解析形式:通過一系列等式推導
- 數值形式:迭代求解,等待收斂。如果收斂到了一個局部最優解,則只能看作是真正解的近似值
將最大似然用在求解多變數高斯分布上,有
1. 求解
第一項不帶,對求導為0,所以只需要考慮第二項,即
根據以下兩條列向量求導法則
上式可化簡為
由於是正定矩陣,因此
2. 求解
代入,可得
推薦閱讀:
※機器學習數學:最小二乘法
※CS231N 課程筆記合集
※logistic regression 邏輯回歸
※機器學習中的Optimal Transport及相關問題:(二)計算方法
※使用 Fisher Vector 得到文本向量
TAG:機器學習 |