第九周筆記:密度估計

考慮一個產品,每個工廠生產線都有一定的概率產生次品。假設在用戶退貨之前,我們沒法知道一樣東西是否是次品。那麼我們只能通過產品的各項指標估計(重量,硬度,曲率,發熱量等,不同產品指標不一樣)將合格的某項指標畫在圖上,也許會得到這樣一個圖(左):

把圖按照濃度梯度描紅,得到右邊的這個區域。按照聚類的思考方式,大概就可以理解為,越接近高濃度區域,其正品概率越高。而越不太可能產生落點的區域,其次品的概率越高。

用數學語言描述就是:

p(x)<xi 時,產品判斷為次品。xi 為異常判斷參數,p(x)為當前特徵的產品產生概率。

p(x)=prod_{j=1}^{n} p(x_j,mu _j,sigma _j),其中mu _i = frac{1}{m} sum_{i=1}^{m}{x_j^{(i)}} sigma _j^2=frac{1}{m} sum_{1}^{m}{(x_j^{(i)}-mu _j)^2}

當然,你可以簡單地把正常和異常記作y=1和y=0.

xi 的方法,就是之前(第六周筆記)里計算F值,取F值最大時的xi

那麼問題來了,既然可以用y=1和y=0來標記出正常和異常,為什麼不用監督學習,而要用密度估計呢?

因為大多數情況下,生產線上的異常值相對正常值來說,是極其少量的。在這種情況下,如果用監督學習,那麼就沒有足夠的負樣本用於訓練集。此時,為了準確,我們就可以只把負樣本用於交叉驗證集與測驗集,而訓練集不用負樣本。既然不用負樣本,那麼訓練的時候也只要用非監督學習了……

還有一種可能,負樣本相對與數據來說,非常奇怪,每一個負樣本都不一樣,或者未來可能產生的負樣本具有不確定性,那麼這種情況下,負樣本無法建模,沒法判斷,只能通過和正樣本的差異來判斷是否為負樣本。這種情況下,顯然訓練時,只用正樣本的非監督學習是優於監督學習的……

反之,如果樣本特徵明顯,可預測,未來樣本可確定,且正負樣本均足夠多的情況下,用監督學習更優。

推薦閱讀:

TAG:密度 | 概率 | 机器学习 |