[PRML學習筆記] CHA 4 Linear Models for Classification
Least Square容易受到outliers的影響。
文中介紹了一個叫Fishers Linear discriminant的模型,其實是將data project在其他平面上使得histograms的overlapping減少,獲得更好的classify效果
引入了一個概念:Fisher criterion,組間方差和組內方差的比值,m1和m2使兩個class里的data的均值。目標是最大化,最終得到的結果是即為Fishers linear discriminant。strictly it is not a discriminant but rather a specific choice of direction for projection of the data down to one dimension.
如果對target value的形式作一點調整,那麼可以得出least square 和 fisher solution 是等價的。
Fisher』s discriminant for multiple classes
假設是:input space的維數D大於類數K。
two classes的時候組間方差是,multi-class時組間方差是,不過用K=2代入,兩者差距為,不受w影響。
Perceptron Algorithm
在模式識別歷史上非常重要。用於two-class模型。先把input vector x進行非線性變換,成為特徵向量,然後用於構建線性模型,其中。target 表示所屬類別,用1和-1表示。Perceptron Algo有自己適用的error function叫perceptron criterion:,這般設置就可以使錯誤歸類的Ep值為正數,選取w最小化Ep,其中是所有錯誤歸類的集合。然後使用SGD尋找w。有一個Perceptron convergence theorem,如果training data是線性可分的,那麼這個演算法一定會找到solution,但如果不是線性可分的話,演算法不會收斂。
- 訓練演算法複雜
- 不輸出概率計算結果,(只有分類結果)
- 對支持不佳
- 最大的限制在於:其是linear combination of fixed basis function
Probabilistic Generative Models(可以計算出概率的)
Activation Function:
- logistic sigmoid function(for two class)
- softmax function(for multiclass)
當對時,,,就是softmax function。
Continuous inputs
- K = 2
假設:class-conditional densities are Gaussian,all classes share same cov
即 (2)
若將前述假設改為,classes have different cov那麼,就得到quadratic discriminant model
- =class 1s fraction of total sample
- = mean of x that belongs to class 1
- = weighted average of the covariance matrices associated with each of the two classes separately. 即
Discrete inputs
class-conditional distribution:
Exponential Family
不管continuous還是dicrete,其實都是更general的exponential family的class-conditional density
Probabilistic Discriminative Models
Two class
先用非線性方程作為新特徵向量,如此之後,是linearly separable,但x不是。
用cross entropy error function即logarithm of the likelihood:
介紹了一個新演算法叫Newton-Raphson,就是用Hessian matrix(second order gradient)。
- 用NR演算法求linear regression的least square error function只需要一步,因為該方程是quadratic。
- 求Logistic regression model的cross entropy error function的話,沒有closed form solution,所以需要iterative的方法:Iterative reweighted least squares
- 已經算了gradient,再算,其中R是一個diagonal matrix with elements,就是方差矩陣吧。是特徵向量合起來的矩陣,的行是
- 代入(3),其中
- 的每一個元素可以看作是在當前weighting處作線性approximation得到的target value。
- 因為,R是要用w計算的,所以需要循環
Multi Class
還是用cross entropy error function,
Probit regression
Canonical link functions
- link function就是activation function的反函數
- 若target variable的conditional distribution(Gaussian)是exponential family,且選取的activation function屬於canonical link function(例如sigmoid,softmax),那麼該模型的error function相對於w的gradient的形式都是『error』和features向量的乘積這樣的簡單形式。
Laplace Approximation(很像Copula)
- Model Comparison: penalize model complexity using BIC(Bayesian Information Criterion)
- 用近似分布計算Z的近似值。
- 這篇文章講的比較易懂:frequentist希望找到parameter 使得達到最大值,但這樣往往造成overfit。bayesian方法是用model class(a set of distribution of )
In Bayesian evidence, if a model m1 is very complex, then m1 can generate many possible data sets. As a result, it is unlikely to generate the particular data set D at random. If the model m2 is too simple, the likelihood will be small, suggesting that it is unlikely to be a good fit. So, roughly speaking, Bayesian evidence has a regularization in itself allowing us to choose the model which is just right.
3. 但是,很難算,用Laplace approximation可以協助,BIC更加簡化了Laplace approximation的結果。
看到後面突然發現維數一定要搞清楚,文中的黑體小寫字母表示列向量,大寫字母表示矩陣,所以input data matrix 的nth 行是。
對於input space dimension為D的模型,x的維度是,所以平均值的維度也是。Fishers Linear Discriminant
Class conditional density and Activation Function
這倆是本章比較多篇幅的概念,順序都是從具體(gaussian或binomial,sigmoid或softmax)到一般(exponential family, canonical link function)。
