模型監控構建方案
模型監控是模型上線之後的最後一個環節,決定該項目是否圓滿成功。對於一個實際項目的模型監控來說,從以下兩個維度展開:
一、模型本身的指標
模型在線上持續運行,需要每隔一周、半月、一個月對模型本身的性能進行監控。模型性能本身的指標包括不限於以下:
1、AUC(binary)
2、KS(binary)
3、PSI
4、Optimal Cutoff
5、Precision
6、Recall
7、MSE(Regression)
8、Top-N Accuracy
有兩種方式進行持續化監控:
1、每個監控的時間間隔,取出最新的可以打標籤的預測結果,如果數據量太大可以進行抽樣(分層隨機抽樣還是全局隨機抽樣,取決於訓練時的方式),進行上述指標統計,將數據保存下來,作為本次例行的快照,並且和之前保存的指標進行對比;
2、每個監控的時間間隔,取出最新的、次新的、次次新的...可以打標籤的預測結果(一定要注意,打標籤一定要回到歷史,避免穿越情形!),如果數據量太大可以進行抽樣(分層隨機抽樣還是全局隨機抽樣,取決於訓練時的方式),進行上述指標統計,直接比較最新的、次新的、次次新的對比。
二、業務信息的監控
模型產出需要交付給業務同學實地使用,所以需要了解業務同學使用模型的方式,這個比較定製化,以在金融科技風控場景下使用模型的方式舉例如下。
風控同學關注每天訂單的攔截率、召回率以及引入的M1/M3率,所以為了綜合這些信息,需要進行天級跟蹤,這一天為最新的可以打標籤的一天,取出這天的訂單,關聯出模型具體分數段信息。
比如今天是2017-08-21,那麼選取出2017-05-21的訂單評分數據,進行如下展示:
推薦閱讀:
※word embedding之GLOVE代碼
※技術宅如何進化為女裝大佬
※機器學習-變數離散之MDLP-20180217
※機器學習篇-名詞:候選集,覆蓋率
※【頂級資源】掌握線性代數為機器學習打下堅實基礎!
TAG:機器學習 |