第九周筆記：密度估計

01-31

考慮一個產品，每個工廠生產線都有一定的概率產生次品。假設在用戶退貨之前，我們沒法知道一樣東西是否是次品。那麼我們只能通過產品的各項指標估計（重量，硬度，曲率，發熱量等，不同產品指標不一樣）將合格的某項指標畫在圖上，也許會得到這樣一個圖（左）：

把圖按照濃度梯度描紅，得到右邊的這個區域。按照聚類的思考方式，大概就可以理解為，越接近高濃度區域，其正品概率越高。而越不太可能產生落點的區域，其次品的概率越高。

用數學語言描述就是：

$p(x)<xi$ 時，產品判斷為次品。 $xi$ 為異常判斷參數， $p(x)$ 為當前特徵的產品產生概率。

$p(x)=prod_{j=1}^{n} p(x_j,mu _j,sigma _j)$ ，其中 $mu _i = frac{1}{m} sum_{i=1}^{m}{x_j^{(i)}}$ ， $sigma _j^2=frac{1}{m} sum_{1}^{m}{(x_j^{(i)}-mu _j)^2}$

當然，你可以簡單地把正常和異常記作y=1和y=0.

選 $xi$ 的方法，就是之前（第六周筆記）里計算F值，取F值最大時的 $xi$ 。

那麼問題來了，既然可以用y=1和y=0來標記出正常和異常，為什麼不用監督學習，而要用密度估計呢？

因為大多數情況下，生產線上的異常值相對正常值來說，是極其少量的。在這種情況下，如果用監督學習，那麼就沒有足夠的負樣本用於訓練集。此時，為了準確，我們就可以只把負樣本用於交叉驗證集與測驗集，而訓練集不用負樣本。既然不用負樣本，那麼訓練的時候也只要用非監督學習了……

還有一種可能，負樣本相對與數據來說，非常奇怪，每一個負樣本都不一樣，或者未來可能產生的負樣本具有不確定性，那麼這種情況下，負樣本無法建模，沒法判斷，只能通過和正樣本的差異來判斷是否為負樣本。這種情況下，顯然訓練時，只用正樣本的非監督學習是優於監督學習的……

反之，如果樣本特徵明顯，可預測，未來樣本可確定，且正負樣本均足夠多的情況下，用監督學習更優。