機器學習入門筆記4
Part 4. 生成學習演算法(Generative Learning algorithms)
1.GDA(Gaussian discriminant analysis)
1.1先了解一下高斯分布:
前面已經了解到一維高斯分布:
現在了解一下多維高斯分布:
由以上圖示可知,μ 決定圖像的位置,σ 和 Σ 決定圖像的形狀。
1.2 GDA model
log-likelihood:
參數為: φ, Σ, μ0 and μ1
由極大似然估計,得:
模型如圖:
直線表示等概率分界,直線兩邊的等高線圖形相同,因為Σ相同。
1.3 GDA和logistic regression
GDA模型可以寫成對數幾率回歸模型:
GDA VS. logistic regression:
GDA的條件更強,因此當訓練集數據滿足高斯分布時,GDA模型更好。但是當訓練集數據不滿足高斯分布,則對數幾率回歸比較好(泛化)。一般情況下,用對數幾率回歸。此處回答了part 2的問題:為什麼選logistic function?
2.Naive Bayes
GDA的特徵向量x是連續的,在NB中向量x是離散化的(每個元素用0,1表示)
以郵件過濾器為例,假設垃圾郵件有關鍵字:buy,price… 用一個特徵向量表示(0,0,…,1,0,…)。向量維度為辭彙表大小,0表示非關鍵字,1表示關鍵字。假設辭彙表有5000個單詞,那共有2^5000(指數級)個特徵向量,同樣,需要這麼多的參數來擬合。
為此,我們假設在y條件下,x特徵向量相互獨立(這是一個強條件)即
第一個等號是根據條件概率公式,第二個等號是根據我們做出的條件獨立性假設。
因此,我們的參數數量就減少到O(n)級,有: φi|y=1 = p(xi = 1|y = 1), φi|y=0 = p(xi = 1|y = 0), and φy = p(y = 1).
極大似然估計,得:
其實很好理解,如,φj|y=1 表示的就是出現單詞 j 時垃圾文件佔得比例。
當GDA模型不適用時,將特徵向量離散化,用樸素貝葉斯法。
2.1Laplace smoothing
仍以郵件過濾器為例,當出現一個之前從未出現的單詞,如nip,排在第3500個,就會出現 φ3500無論如何都等於0的情況。因為
所以,
為此,我們引入laplace smoothing,將 φ定義為
這樣永遠不會等於0.
其中,k為y的可能取值數量,即分類數目,
這樣,原來郵件過濾器的參數改為:
推薦閱讀:
TAG:機器學習 | 吳恩達AndrewNg |