開發申請評分卡第一步幹什麼?
作為「大講堂」金融評分卡系列課程的開篇,我們今天先來聊聊數據導入這個環節前大家需要準備的事情。
在開發信用申請評分卡之前,最基本面的工作就是梳理理解數據。不要自認為知道這些欄位的中文意思、來自哪張數據表就可以了,還要儘可能的去了解這些數據是從生產庫怎麼生成的,也就是說這些可能用到的變數數據還原到業務中是怎樣的衍生過程,當然如果你們是直接從生產庫里挑選數據提煉到建模表上,那麼恭喜你,可以花更多的時間去梳理整理數據了,建好的模型也會更穩定準確。
現在很多科技數據公司一味的去強調演算法、大維度變數,但卻忽略了業務數據的理解,做出來的模型自然也就與實際業務偏差很大,就算是ks為0.5以上也是很難實際落地。
變數業務理解梳理,儘管很繁瑣,卻尤為重要。
對於現在很流行的cash loan業務,客戶申請的三基本要素:姓名,身份證、手機號(不要傻傻認為申請時只要你三要素,這是個幌子,通過用戶授信、SDK抓取,everything,yes,everything都可以拿到,畢竟隱私這種事說說就算了)。
對於一個客戶填寫了這三要素之後,業務生產庫里就會存在name、idcard、phonenumber三個欄位去存儲每一個申請客戶的數據。如果對於建模的你來說,沒有許可權看到生產庫的數據,只有數據倉庫給你使用,你從數倉里看到了sex、province、city、sex、Valid_period_of_ID_card等等。這些欄位都是從生產庫里衍生出來的,有些是業務邏輯需要,有些是報表需求。
更多關於評分卡文章和視頻可以關注「你我金融圈」,最新一期風控訓練營也在招生中
就以身份證idcard為例,一個申請客戶提供了idcard:440306199005113437,申請時點為2017.10.28,
18位身份證號碼各位的含義:
1-2位省、自治區、直轄市代碼;3-4位地級市、盟、自治州代碼;
5-6位縣、縣級市、區代碼; 7-14位出生年月日,比如19670401代表1967年4月1日; 15-17位為順序號,其中17位(倒數第二位)男為單數,女為雙數;根據身份證編碼含義,我們就可以在在數倉里衍生出如下欄位
小科普板塊
對於Valid_period_of_ID_card這個變數的衍生,大家首先要知道身份證號的含義,還要去測算申請客戶目前是第幾代身份證,然後去了解關於身份證法對於身份證有效期的劃分標準,最後根據客戶申請時點去測算他目前的身份證還有多長的有效期。
Valid_period_of_ID_card這個衍生變數可以在策略規則和建模中使用,比如身份證有效期較短的客群通過歷史數據分析發現在公司cash loan中大佔比為騙貸客戶,策略引擎里已經設置了強拒絕規則,那麼我們在建模的時候,就要把身份證有效期超出相應規則界限的客群剔除掉,直接排除這部分數據進入評分卡模型的訓練樣本,可以很好的排除這部分客群對模型的干擾,提升模型的區分好壞能力。
回歸正題
假如現階段公司cash loan業務限定只給予年齡在20-35歲,非廣東區域的客戶進行放款,產品業務已經明確了各個維度的限制,那麼我們在數據導入前,在了解了衍生變數的業務邏輯之後,很明確的知道這個申請客戶是不可能進行貸款的,不滿足業務要求的客群也是應該通過相關變數進行排除的,這就是我想跟大家聊的梳理理解數據的重要性。
理清數據的來源,也才能更方便的讓我們腦洞大開地去創造變數!
一句話概要:數據建模評分卡,業務理解是第一
推薦閱讀:
※Workbench 框架建模中如何實現梁和板的截面偏置
※在使用3dmax進行模型製作中,怎樣的uv算是好uv,或者說,展uv有什麼硬性的評判標準?
※管理諮詢公司項目中的建模究竟指的是什麼?
※UG編程-葉片多軸編程
※建築能耗分析軟體簡介系列2---Equest簡介