反欺詐模型因變數怎樣定義？

01-11

最近剛接觸一點反欺詐模型，有個問題不是很清楚，求專家指導，反欺詐模型的因變數就是欺詐/非欺詐，那欺詐是怎麼定義的？那些命中外部數據源黑名單的算是欺詐嗎？還是首逾30天以上算為欺詐更合理一些? 業內一般是怎樣定義的呢？謝謝！

反欺詐模型的因變數就是欺詐/非欺詐，這說話不完全正確。

反欺詐不是非黑即白，與各公司自己的風控策略相關。即便是同一個公司，在不同發展階段，由於戰略目標的不同，對同一用戶反欺詐策略都不同。可以說：反欺詐也是一門藝術，需要平衡風險與收益。

反欺詐模型涉及黑名單/白名單/灰名單概念。

對明確屬於黑名單的用戶，意味著用戶有較大的欺詐風險，一般策略是直接拒絕掉。需要強調一下：對黑名單用戶的處理策略依賴於各公司的規則。例如現金貸中的多頭借貸用戶。

對白名單用戶，屬於優質可信用戶，一般策略是直接過。

對灰名單用戶，是反欺詐最大挑戰，怎麼依據有限的用戶數據，準確勾畫出用戶畫像？

對用戶畫像，一般會採用信用評分模型（score card評分卡）。依據內部數據源、外部數據源數據，運營信用評分卡模型，對用戶進行信用評分，看用戶評分屬於哪個區間及對應風控策略。例如信用評分小於600分，直接拒絕，600-700分，借款額度3000 。700分以上，額度5000 。

信用評分模型有所謂的ABC卡，A卡（Application Card，申請評分卡）、B卡（Behavior Card，行為評分卡）、C卡（Collection Card，催收評分卡）。

對題主提到的首逾30天的用戶，不是直接歸為黑名單，而是根據用戶的行為、催收情況，採用B卡、C卡，對用戶重新評分並打標籤。

信用評分模型在信貸領域用得較多，原因在於能夠要求用戶提供較多資料數據，例如電商、社保公積金、運營商、社交、芝麻分等，通過上百乃至上千個特徵去建立對應的評分模型。

但在其他反欺詐領域，例如第三方支付的在線支付/POS收單、在線廣告、互聯網金融薅羊毛等領域的反欺詐，很難獲取完整用戶數據，從而無法建立用戶完整畫像的評分模型，此時候會採用規則引擎方式，對用戶各種數據的採用聚類分析、交叉驗證、勾稽關係比對、強特徵篩選等手段，通過風險決策引擎進行決策判斷。

手機隨手一答，忽略排版。

關注這個問題比較久了，其實是想看看有沒有好的答案，結果等了這麼久只有這麼幾個答案，排第一的還有點答非所問。

其實題主想知道的是如何定義欺詐的y，如果我猜的不錯的話題主應該是搞數據的吧，業務經驗不太豐富，不過這不是太大缺點。

所有的數據模型都是為業務提供支持的，所以這裡也不例外，欺詐模型是為公司風控提供反欺詐支持的。所以首先你要確認你們公司接觸到的欺詐類型主要是哪些，如果是多頭借貸欺詐的，那一般的外部黑名單是可以考慮作為y的，如果是防惡意欺詐的，就是完全沒有還款意願的人，騙一筆就走，那麼那種從一開始就逾期的人就可以考慮作為y，還有團伙偽冒等欺詐的y，可以找風控的反欺詐團隊了解，催收的反饋也是一個不錯的信息渠道，但比較難規範註記。

我的建議是從業務入手，同時不同的反欺詐類型不要放一起建模模型，因為表現完全會不一樣。

題目確實沒有說明應用的場景，不過看題目的標籤，「互聯網金融」，「消費金融」，「個人貸款」等，我們假設題主問的是純線上小額消費/現金貸款的場景。

在這裡，我們一般認為欺詐有三種類型：

第一方欺詐，主要指的是客戶本人惡意騙貸，無還款意願等；
第二方欺詐，主要指平台方的工作人員，風控人員自己，直接進行騙貸；
第三方欺詐，主要指非客戶和平台的第三方人員，一般是黑客、黑產等人員，利用各類手段進行的騙貸行為；

我們一般在進行反欺詐的時候，重點的講的都是對「第三方欺詐」的防控。第三方欺詐，防控手段主要就是鉤稽和交叉驗證等等。在線下場景如此，在純線上場景也是如此。無非增加一些高技術手段進行欺詐的防控。比如，活體識別，公安照片自動比對。然後，對於用戶申請貸款時候的網路環境監測（是否有入侵跡象，是否有隱藏形跡的傾向等），設備環境監測（是否木馬，是否模擬器）等。

第二方欺詐（我不確定我的定義是不是正確，自行判斷），我認為從系統層面比較難以輕易解決。可能涉及到內控管理等方面的知識。不是單純的技術問題，是人的問題。

最麻煩的就是第一方欺詐。核心難點，就在於題主的問題，界定非常困難。因為，第一方欺詐我們一般只能看到結果，就是客戶沒有還錢。但是成因構成是比較多樣的。客戶無還款能力；失聯，又分為故意和非故意；未失聯，有還款能力，故意拖欠；等等。故意失聯和故意拖欠，都可以被確認定欺詐。可是包含了主觀故意，就判定困難了。

題目內容包含了「因變數」字眼，感覺題主就是在嘗試做建模工作。目前金融領域建模，比較成熟的就是監督學習的方法，評分卡算是其中一種。對於監督學習來說，可能需要大量的標籤樣本。這就提出了兩個難題，第一是認定標準，剛才說了很難；第二是一定數量的樣本，一般採用人工標註，這又是一重困難，意思就是，就算你有認定標準，如果由很多人去執行這個標準的話，你得到的樣本質量也是堪憂的。

所以，一般會有一個近似的做法，就是把30天逾期（DPD30），或者說1個月賬齡（MOB1），作為因變數使用。做出來的東西，一般就是評分卡。常用的就是A/B/C卡。其他答案里有介紹。

對於外部黑名單的使用，主要還是看對方的數據來源，更新頻次，內部原理等等。一般來說，還是要結合業務表現來評估。如果對方數據主要原理也是概率判定，那很可能也是某種評分卡的輸出結果，可以考慮當成自變數來用。

反欺詐和逾期是兩個概念。有很多金融公司為了報表好看，把逾期都歸於反欺詐。

反欺詐一般指的是：團伙惡意使用別人身份信息（偽詐或者黑市買的身份）來欺詐貸款。

這是反欺詐比較明顯特徵。

搜集數據比較多：

設備指紋，IP,地理坐標，電話號碼，等等

一般都是用規則+閾值方式來使用實現

業務背景是啥。。。。

如果是不超過12期的分期小額信用貸款的話，用前三期零還款（第三期賬單日前，一分錢不還）比較合適，目測一般的業務，這個指標違約率在 0.5% - 3%