標籤:

銀行數據挖掘研究與實踐

數據已經成為銀行的戰略性資產,數據的價值也隨著數據生命周期的不斷延伸而大幅提升。為實現數據價值的最大化,銀行需要對所積累的各類數據展開全面分析,深入挖掘和鑽取數據,從中提煉出埋藏於數據深處的規律和趨勢,全面運用於銀行戰略決策與業務發展。

在上述過程中,數據挖掘是大數據和數據驅動的核心,從頭至尾我們都脫離不了數據挖掘。為此,歸納本人在數據挖掘領域的研究與應用實踐,論文主要包括三部分內容,首先是若干相關概念的澄清與認知,其次是列舉幾條實踐經驗,最後給出一個信用卡建模實例。

一、 若干概念的理解

數據挖掘伴隨很多的名詞,其中有熟知的資料庫、統計學,也有近期很熱門的機器學習、人工智慧,還有不那麼熟悉的模式識別、神經計算、自然語言處理等等。如果用架構師的嚴謹態度去思考這些概念的邊界,會糾結的發現真的很困難,其實必要性也不強,重點還是在於想做什麼。

回顧一下定義,數據挖掘是從存放在數據集中的大量數據挖掘出有趣知識的過程。數據挖掘又稱為資料庫中知識發現(KDD),它是一個從大量數據中抽取挖掘出未知的、有價值的模式或規律等知識的非平凡過程。廣義的數據挖掘是指知識發現的全過程,狹義的數據挖掘是指統計分析、機器學習等發現數據模式的智能方法,即偏重於模型和演算法。

嚴格的說,我的實際工作屬於廣義的數據挖掘,模型和演算法是核心,同時涵蓋可視化方案的數據產品也是工作重點。把範圍縮小到模型和演算法,那麼與數據挖掘最為密切的是機器學習:機器學習更側重於技術方面和各種演算法,無論模式識別、人工智慧相關案例的共同點就是有極其複雜的演算法;數據挖掘則更偏向於「數據」而非演算法,而且包括了很多數據的前期處理,然後做數據的清洗、整合、有效性檢測等等,最後才是用演算法來抽取某些有用的「知識」。

二、 數據挖掘實戰經驗

經驗有很多,但學術和實踐特點各有不同,這裡簡要列舉幾條在銀行建模實踐中的經驗,這些都可以體現在最後一章的例子中。

1. 業務人員最擔心過擬合

業務人員未必排斥新技術,但一定擔心過擬合。業務人員在建模中通常基於統計方法使用邏輯回歸等演算法,其測試集和驗證集上的結果大體一致;利用複雜機器學習演算法,在測試集和驗證集上的結果可以相差很多,測試集上的性能指標往往能逼近完美,而這是邏輯回歸演算法看不到的場景。為此,業務的擔心是難免的,但解決的思路也比較傳統。

要弄清楚你的模型是不是好用,至少得用訓練數據以外的數據做一次測試。即使這次測試通過了,最好還要多做幾次,每次都以不同的方式拆分數據。如果數據是按照時間分布的,那可以用一周以外的數據做訓練,然後用那一周的數據做測試,最好每一周都這樣來一遍。再怎麼拆分數據做訓練和做測試也不為過,以便檢驗模型在特定情形下是否可靠。

2. 特徵工程最費精力

一項數據挖掘建模的工作大部分時間都花在特徵工程上面,根據我的經驗,70%的時間做特徵工程,20% 用於想出如何評估演算法,只有 10% 花在選擇演算法和微調上面。所以如果你聽到有人說一周出一個演算法,那其實就是上面提到的10%那一步,甚至更少,僅此而已。

特徵工程依賴於對業務的理解,這裡往往對應著數據分析工作,比如從海量交易數據中提取有意義的統計指標,而這些指標要和預測目標呈潛在的強關聯關係。補充一點深度學習的內容,深度學習的強項是從弱關聯特徵中發現價值,更多用於處理圖像、語音等特徵冗餘度大的信號,通過自學習方式得到層級組合特徵最終用於分類或識別任務。 這部分內容也在做,在嚴格專業的視角下開展研究和實踐。

3. 數據是燃料,演算法是引擎

演算法和數據都很重要,數據挖掘的研究與實踐其實就是在這兩個領域發揮能力。數據要足夠大,當樣本量不夠的情況下,再強的演算法也發揮不了意義;數據量大的情況下,還可以通過複雜網路等技術發現潛在的關聯關係。引入數據的過程中,數據可鏈接性是需要關注的重點問題。

針對演算法,要掌握多種不同的學習演算法,同時還有善用集成學習技術。一般來說,在不同的隨機數據集上學習多個分類器能夠建立更強大的模型。在演算法的選擇上,推薦按照奧卡姆剃刀原則解決這個問題:用能夠滿足需求的最簡單的演算法,如果絕對的必要,不要增加複雜性。按照從簡單到複雜排序,可以選擇的演算法包括邏輯回歸、決策樹、支持向量機、深度神經網路等。

三、 數據挖掘建模實踐案例

某信用卡項目開展近兩年來,通過營銷白名單引入的方式積累了一定量的客戶,完成了一定的數據積累,客戶引入政策需要進行優化。在一定數據積累的條件下,本次建模嘗試使用機器學習相關演算法對客戶未來風險表現進行評估。

建模過程主要包括下面四個階段,明細結果就不放了,如果有需要再做交流吧。

1. 數據理解及變數衍生

2. 目標變數定義及拒絕推斷

3. 模型訓練

4. 補充測試

四、 總結展望

數據挖掘在學術領域重在創新,在工程領域重在利用先進技術發揮實際價值,能夠為業務人員提供切實的演算法支持尤為重要。大數據領域的分析挖掘是當前的工作重點,在這個領域中每當取得一點進步的時候,就會發現不懂的東西其實更多。大數據挖掘之路慢慢,要保持足夠的謙虛,且行且思考。

更多文章和討論見本人的公眾號:


推薦閱讀:

最惹銷售反感的十種數據分析師,進來看看有沒有你
Spark生態圈
一塊石頭存在的意義是什麼?

TAG:数据挖掘 |