第九周筆記:密度估計
01-31
考慮一個產品,每個工廠生產線都有一定的概率產生次品。假設在用戶退貨之前,我們沒法知道一樣東西是否是次品。那麼我們只能通過產品的各項指標估計(重量,硬度,曲率,發熱量等,不同產品指標不一樣)將合格的某項指標畫在圖上,也許會得到這樣一個圖(左):把圖按照濃度梯度描紅,得到右邊的這個區域。按照聚類的思考方式,大概就可以理解為,越接近高濃度區域,其正品概率越高。而越不太可能產生落點的區域,其次品的概率越高。
用數學語言描述就是:
時,產品判斷為次品。為異常判斷參數,為當前特徵的產品產生概率。
,其中,
當然,你可以簡單地把正常和異常記作y=1和y=0.
選的方法,就是之前(第六周筆記)里計算F值,取F值最大時的。
那麼問題來了,既然可以用y=1和y=0來標記出正常和異常,為什麼不用監督學習,而要用密度估計呢?
因為大多數情況下,生產線上的異常值相對正常值來說,是極其少量的。在這種情況下,如果用監督學習,那麼就沒有足夠的負樣本用於訓練集。此時,為了準確,我們就可以只把負樣本用於交叉驗證集與測驗集,而訓練集不用負樣本。既然不用負樣本,那麼訓練的時候也只要用非監督學習了……
還有一種可能,負樣本相對與數據來說,非常奇怪,每一個負樣本都不一樣,或者未來可能產生的負樣本具有不確定性,那麼這種情況下,負樣本無法建模,沒法判斷,只能通過和正樣本的差異來判斷是否為負樣本。這種情況下,顯然訓練時,只用正樣本的非監督學習是優於監督學習的……
反之,如果樣本特徵明顯,可預測,未來樣本可確定,且正負樣本均足夠多的情況下,用監督學習更優。
推薦閱讀: