反欺詐模型因變數怎樣定義?
最近剛接觸一點反欺詐模型,有個問題不是很清楚,求專家指導,反欺詐模型的因變數就是欺詐/非欺詐,那欺詐是怎麼定義的?那些命中外部數據源黑名單的算是欺詐嗎?還是首逾30天以上算為欺詐更合理一些? 業內一般是怎樣定義的呢?謝謝!
反欺詐模型的因變數就是欺詐/非欺詐,這說話不完全正確。
反欺詐不是非黑即白,與各公司自己的風控策略相關。即便是同一個公司,在不同發展階段,由於戰略目標的不同,對同一用戶反欺詐策略都不同。可以說:反欺詐也是一門藝術,需要平衡風險與收益。
反欺詐模型涉及黑名單/白名單/灰名單概念。
對明確屬於黑名單的用戶,意味著用戶有較大的欺詐風險,一般策略是直接拒絕掉。需要強調一下:對黑名單用戶的處理策略依賴於各公司的規則。例如現金貸中的多頭借貸用戶。
對白名單用戶,屬於優質可信用戶,一般策略是直接過。
對灰名單用戶,是反欺詐最大挑戰,怎麼依據有限的用戶數據,準確勾畫出用戶畫像?
對用戶畫像,一般會採用信用評分模型(score card評分卡)。依據內部數據源、外部數據源數據,運營信用評分卡模型,對用戶進行信用評分,看用戶評分屬於哪個區間及對應風控策略。例如信用評分小於600分,直接拒絕,600-700分,借款額度3000 。700分以上,額度5000 。
信用評分模型有所謂的ABC卡,A卡(Application Card,申請評分卡)、B卡(Behavior Card,行為評分卡)、C卡(Collection Card,催收評分卡)。
對題主提到的首逾30天的用戶,不是直接歸為黑名單,而是根據用戶的行為、催收情況,採用B卡、C卡,對用戶重新評分並打標籤。
信用評分模型在信貸領域用得較多,原因在於能夠要求用戶提供較多資料數據,例如電商、社保公積金、運營商、社交、芝麻分等,通過上百乃至上千個特徵去建立對應的評分模型。
但在其他反欺詐領域,例如第三方支付的在線支付/POS收單、在線廣告、互聯網金融薅羊毛等領域的反欺詐,很難獲取完整用戶數據,從而無法建立用戶完整畫像的評分模型,此時候會採用規則引擎方式,對用戶各種數據的採用聚類分析、交叉驗證、勾稽關係比對、強特徵篩選等手段,通過風險決策引擎進行決策判斷。
手機隨手一答,忽略排版。關注這個問題比較久了,其實是想看看有沒有好的答案,結果等了這麼久只有這麼幾個答案,排第一的還有點答非所問。其實題主想知道的是如何定義欺詐的y,如果我猜的不錯的話題主應該是搞數據的吧,業務經驗不太豐富,不過這不是太大缺點。所有的數據模型都是為業務提供支持的,所以這裡也不例外,欺詐模型是為公司風控提供反欺詐支持的。所以首先你要確認你們公司接觸到的欺詐類型主要是哪些,如果是多頭借貸欺詐的,那一般的外部黑名單是可以考慮作為y的,如果是防惡意欺詐的,就是完全沒有還款意願的人,騙一筆就走,那麼那種從一開始就逾期的人就可以考慮作為y,還有團伙偽冒等欺詐的y,可以找風控的反欺詐團隊了解,催收的反饋也是一個不錯的信息渠道,但比較難規範註記。
我的建議是從業務入手,同時不同的反欺詐類型不要放一起建模模型,因為表現完全會不一樣。
題目確實沒有說明應用的場景,不過看題目的標籤,「互聯網金融」,「消費金融」,「個人貸款」等,我們假設題主問的是純線上小額消費/現金貸款的場景。
在這裡,我們一般認為欺詐有三種類型:
- 第一方欺詐,主要指的是客戶本人惡意騙貸,無還款意願等;
- 第二方欺詐,主要指平台方的工作人員,風控人員自己,直接進行騙貸;
- 第三方欺詐,主要指非客戶和平台的第三方人員,一般是黑客、黑產等人員,利用各類手段進行的騙貸行為;
我們一般在進行反欺詐的時候,重點的講的都是對「第三方欺詐」的防控。第三方欺詐,防控手段主要就是鉤稽和交叉驗證等等。在線下場景如此,在純線上場景也是如此。無非增加一些高技術手段進行欺詐的防控。比如,活體識別,公安照片自動比對。然後,對於用戶申請貸款時候的網路環境監測(是否有入侵跡象,是否有隱藏形跡的傾向等),設備環境監測(是否木馬,是否模擬器)等。
第二方欺詐(我不確定我的定義是不是正確,自行判斷),我認為從系統層面比較難以輕易解決。可能涉及到內控管理等方面的知識。不是單純的技術問題,是人的問題。
最麻煩的就是第一方欺詐。核心難點,就在於題主的問題,界定非常困難。因為,第一方欺詐我們一般只能看到結果,就是客戶沒有還錢。但是成因構成是比較多樣的。客戶無還款能力;失聯,又分為故意和非故意;未失聯,有還款能力,故意拖欠;等等。故意失聯和故意拖欠,都可以被確認定欺詐。可是包含了主觀故意,就判定困難了。
題目內容包含了「因變數」字眼,感覺題主就是在嘗試做建模工作。目前金融領域建模,比較成熟的就是監督學習的方法,評分卡算是其中一種。對於監督學習來說,可能需要大量的標籤樣本。這就提出了兩個難題,第一是認定標準,剛才說了很難;第二是一定數量的樣本,一般採用人工標註,這又是一重困難,意思就是,就算你有認定標準,如果由很多人去執行這個標準的話,你得到的樣本質量也是堪憂的。
所以,一般會有一個近似的做法,就是把30天逾期(DPD30),或者說1個月賬齡(MOB1),作為因變數使用。做出來的東西,一般就是評分卡。常用的就是A/B/C卡。其他答案里有介紹。
對於外部黑名單的使用,主要還是看對方的數據來源,更新頻次,內部原理等等。一般來說,還是要結合業務表現來評估。如果對方數據主要原理也是概率判定,那很可能也是某種評分卡的輸出結果,可以考慮當成自變數來用。
反欺詐和逾期是兩個概念。有很多金融公司為了報表好看,把逾期都歸於反欺詐。
反欺詐一般指的是:團伙惡意使用別人身份信息(偽詐或者黑市買的身份)來欺詐貸款。
這是反欺詐比較明顯特徵。
搜集數據比較多:
設備指紋,IP,地理坐標,電話號碼,等等
一般都是用規則+閾值方式來使用實現
業務背景是啥。。。。
如果是不超過12期的分期小額信用貸款的話,用前三期零還款(第三期賬單日前,一分錢不還)比較合適,目測一般的業務,這個指標違約率在 0.5% - 3%
推薦閱讀: