大數據:特徵工程預測用戶行為

2017年1月13日,「飛蟬智投高校聯盟」第一期活動正式開展,中山大學統計學碩士朱進受邀來到飛蟬智投,結合在參與「融360天機金融風控大數據競賽」中預測用戶二次貸款的經驗,詳細闡述了如何利用特徵工程分析用戶金融數據,預測用戶行為。

「高校聯盟」是由飛蟬智投發起的,與中山大學等高等本科院校共同開展的深度合作,其填補了高校與企業的斷層,讓高校的學生能了解到企業具體的業務需求和困境,將研究理論落地,解決實際問題;同時,也能讓企業接觸到最新的前沿技術和理論,享受到高校的人才和科研優勢。

此次的分享嘉賓朱進是華南統計科學研究中心成員,同時也是中山大學數學學院統計學專業的碩士生,在數據分析、R語言、編程方面有著豐富的研究經驗。在中心的學習工作過程中,朱進負責過基因數據、金融數據、醫療疾病數據、社會人口學數據、用戶行為數據等項目研究,對數據分析與數據挖掘形成了獨特的見解。

一、數據挖掘提高二次貸款準確度判斷

在此次競賽中,朱進團隊利用AUC對真實的借貸用戶數據進行分析,包括用戶修改記錄數據、消費數據、行為標籤數據以及社交數據等,預測用戶是否進行二次貸款。

這一過程所需的樣本數量非常大,維度高。以用戶修改數據為例,每個用戶可能會有很多次修改記錄,如果用全部數據去處理,維度可能會特別高。因此,朱進同學採用特徵工程的方法,對數據進行整合降維,並根據特徵對用戶行為進行預測。

比如將一個人所填的所有年齡取平均數,平均年齡就是這個用戶的特徵,即將一個用戶多條數據整合成一個用戶一條數據,變成用機器學習的方法去做。

朱進同學還指出,在對數據進行預處理的過程中,發現有些數據非常異常,而數據異常可能是有信息的異常,這時候就要深入數據,挖掘異常數據背後的信息。

而在此次利用特徵工程進行時間變數處理的過程中,朱進同學發現,在某一用戶進行修改的相鄰時間段中有一批用戶也有相同的行為,這批用戶之間可能沒有空間上的聯繫,但是表現出從眾現象,得出了從眾性評估網路的結論,並將用戶修改時間套入結論模型中,對其行為進行預測。

二、大規模技術和演算法改進更新建模

在利用特徵工程進行用戶行為預測過程中,朱進同學圍繞用戶開展多維度的考察,準確性高,主觀影響較小。但這還不是一個完美的方案。主要存在兩個方面的問題:

1.模型處於靜態層面,而數據還在不斷更新,模型更新有困難。因此,在處理過程中還需要考慮長期因素和短期因素,將長短期因素結合起來分析,優化建模過程,通過大規模計算和演算法改進,實現建模更新。

2.樣本數據多,計算機靈活性和維護比較差,需要通過改進演算法解決。

在改進演算法過程中,朱進主要提出了三個方向:

1.利用Data Combined ,將變數交叉,一個變數做不好,變數交叉可能就做好了。

2.Lasso是一個比較前沿的模型,可以當成提取工具,進行降維,將各個特徵糅合成一個特徵,利用公式算出用戶是否二次貸款的概率。

3.利用CART把不必要的東西去掉,進行降維處理,簡化過程。

分享結束後,朱進同學和飛蟬智投CTO「Jack船長」以及其他數據挖掘的同事進行了交流和經驗分享。

未來,飛蟬智投將與各大高等院校展開合作,汲取最新研究理論精華,提升技術水平,通過大數據、機器學習等Fintech技術,對用戶金融數據進行挖掘分析,構建用戶畫像,幫助券商進行精準營銷,提升轉化效果。

想了解更多關於智能投顧以及機器學習的技巧,可關注知乎專欄【飛蟬智投】,勾搭小編哦!


推薦閱讀:

scikit-learn實戰
嘗試克服一下小夥伴對神經網路的恐懼No.26
2 最簡單的驗證碼生成
基於不平衡樣本的推薦演算法研究
基於NLP的股價預測

TAG:大數據 | 機器學習 | 特徵工程 |