[PRML學習筆記] CHA 4 Linear Models for Classification
Least Square容易受到outliers的影響。
文中介紹了一個叫Fishers Linear discriminant的模型,其實是將data project在其他平面上使得histograms的overlapping減少,獲得更好的classify效果
引入了一個概念:Fisher criterion,組間方差和組內方差的比值,m1和m2使兩個class里的data的均值。目標是最大化,最終得到的結果是即為Fishers linear discriminant。strictly it is not a discriminant but rather a specific choice of direction for projection of the data down to one dimension.
如果對target value的形式作一點調整,那麼可以得出least square 和 fisher solution 是等價的。
Fisher』s discriminant for multiple classes
假設是:input space的維數D大於類數K。
引入個新的feature。用這個features計算組間和組內方差,同時我們的目標函數應該具備的條件是,組間方差越大,組內方差越小,函數值越大。這樣的函數有很多,比如
two classes的時候組間方差是,multi-class時組間方差是,不過用K=2代入,兩者差距為,不受w影響。
另外,組間方差的計算要注意,兩個相乘向量的維度是和,所以得出的結果維度是,但rank是1。
Perceptron Algorithm
在模式識別歷史上非常重要。用於two-class模型。先把input vector x進行非線性變換,成為特徵向量,然後用於構建線性模型,其中。target 表示所屬類別,用1和-1表示。Perceptron Algo有自己適用的error function叫perceptron criterion:,這般設置就可以使錯誤歸類的Ep值為正數,選取w最小化Ep,其中是所有錯誤歸類的集合。然後使用SGD尋找w。有一個Perceptron convergence theorem,如果training data是線性可分的,那麼這個演算法一定會找到solution,但如果不是線性可分的話,演算法不會收斂。
缺點:
- 訓練演算法複雜
- 不輸出概率計算結果,(只有分類結果)
- 對支持不佳
- 最大的限制在於:其是linear combination of fixed basis function
Probabilistic Generative Models(可以計算出概率的)
基本方法就是用貝葉斯法則,即根據和prior得出。
---------------------------------------------------------------------------------------------------------------------------
Activation Function:
- logistic sigmoid function(for two class)
(1)
- softmax function(for multiclass)
當對時,,,就是softmax function。
---------------------------------------------------------------------------------------------------------------------------
Continuous inputs
- K = 2
假設:class-conditional densities are Gaussian,all classes share same cov
即 (2)
可以化簡(1)為,其中
證明:(2)代入得
拆開後
若將前述假設改為,classes have different cov那麼,就得到quadratic discriminant model
用極大似然法求參數以及prior
計算結果:
- =class 1s fraction of total sample
- = mean of x that belongs to class 1
- = weighted average of the covariance matrices associated with each of the two classes separately. 即
Discrete inputs
class-conditional distribution:
Exponential Family
不管continuous還是dicrete,其實都是更general的exponential family的class-conditional density
---------------------------------------------------------------------------------------------------------------------------
Probabilistic Discriminative Models
Two class
先用非線性方程作為新特徵向量,如此之後,是linearly separable,但x不是。
用cross entropy error function即logarithm of the likelihood:
順便求一個gradient:
介紹了一個新演算法叫Newton-Raphson,就是用Hessian matrix(second order gradient)。
(3)
- 用NR演算法求linear regression的least square error function只需要一步,因為該方程是quadratic。
- 求Logistic regression model的cross entropy error function的話,沒有closed form solution,所以需要iterative的方法:Iterative reweighted least squares
- 已經算了gradient,再算,其中R是一個diagonal matrix with elements,就是方差矩陣吧。是特徵向量合起來的矩陣,的行是
- 代入(3),其中
- 的每一個元素可以看作是在當前weighting處作線性approximation得到的target value。
- 因為,R是要用w計算的,所以需要循環
Multi Class
還是用cross entropy error function,
Probit regression
用累積密度函數上的某個level作為分類boundary.
Canonical link functions
- link function就是activation function的反函數
- 若target variable的conditional distribution(Gaussian)是exponential family,且選取的activation function屬於canonical link function(例如sigmoid,softmax),那麼該模型的error function相對於w的gradient的形式都是『error』和features向量的乘積這樣的簡單形式。
---------------------------------------------------------------------------------------------------------------------------
Laplace Approximation(很像Copula)
原變數的分布,不是正態分布,取原變數分布的眾數為中心,近似建立一個正態分布。用眾數大概是因為,眾數是概率密度函數的最大值,一階導為0。令A表示眾數所在點的二階導(負的),那麼近似的分布就是
- Model Comparison: penalize model complexity using BIC(Bayesian Information Criterion)
- 用近似分布計算Z的近似值。
- 這篇文章講的比較易懂:frequentist希望找到parameter 使得達到最大值,但這樣往往造成overfit。bayesian方法是用model class(a set of distribution of )
In Bayesian evidence, if a model m1 is very complex, then m1 can generate many possible data sets. As a result, it is unlikely to generate the particular data set D at random. If the model m2 is too simple, the likelihood will be small, suggesting that it is unlikely to be a good fit. So, roughly speaking, Bayesian evidence has a regularization in itself allowing us to choose the model which is just right.
3. 但是,很難算,用Laplace approximation可以協助,BIC更加簡化了Laplace approximation的結果。
---------------------------------------------------------------------------------------------------------------------------
維數問題
看到後面突然發現維數一定要搞清楚,文中的黑體小寫字母表示列向量,大寫字母表示矩陣,所以input data matrix 的nth 行是。
對於input space dimension為D的模型,x的維度是,所以平均值的維度也是。Fishers Linear Discriminant
Class conditional density and Activation Function
這倆是本章比較多篇幅的概念,順序都是從具體(gaussian或binomial,sigmoid或softmax)到一般(exponential family, canonical link function)。
推薦閱讀:
※一起來學西瓜書! 第二章 模型評估與選擇
※關於不平衡數據集以及代價敏感學習的探討
※值得收藏的45個Python優質資源(附鏈接)
※反向傳播演算法和梯度下降理解
※9幅圖快速理解支持向量機(SVM)的工作原理
TAG:機器學習 |