現在的大數據風控還只是個寶寶

01-30

現在搞金融行業，開口閉口不談大數據，簡直就像是出門沒穿衣服一樣丟人。老貓雖然礙於情面，有時也不免對大數據高談闊論，不過靜下心來，卻還是覺得現在的大數據風控有諸多不足之處，套用網路俗語來看，還只是個寶寶。

1、 n我們沒有經歷過一個完整的信貸周期

美國的徵信行業從創始至今已經走過了超過100年的時間，涉及到資本市場信用機構有Standard and Poor』s（標準普爾）、Moody』s（穆迪）、Fitch（惠譽），普通企業信用機構有Dun&Bradstreet（鄧白氏），個人徵信方面則有Experian（益博睿）、Equifax（艾可菲）、Trans Union（全聯）。可以看出美國的徵信機構業務集中且覆蓋市場的方方面面，其中的數據更是長達了幾代人的時間，經歷過數次遍及全球的金融危機，這樣的數據是經得起市場和時間的檢驗的，個人信用記錄涉及到的每個美國人生活的方方面面。

而中國人民銀行的個人信用信息基礎資料庫建設最早始於1999年，2005年8月底才完成與聯網運行，算到2017年，可能其中大部分人連商品房的房貸都沒有還完，更不必說小額消費貸款這樣最近幾年伴隨著網購才在中國發展起來的新生事物，不少新近成立的消費金融公司的種子客戶都還在第一輪的還款當中。而且個人徵信還遠未到影響到我們生活的地步，很多人對此不重視也造成了信用記錄的缺失。在數據本身都存疑的情況下，與之相匹配的評分標準、貸款額度、逾期率等都沒有經過檢驗，這是目前大數據風控所被人詬病的最主要的方面。

不要忘了中國到目前為止始終處於一個上升的經濟周期內，倘若未來處於經濟下行階段，目前積累的數據和模型還是否有效，是一個很大的未知數。

2、 n積累的樣本離「大」數據還差的很遠

我們老說大數據大數據，但對於什麼樣的數據可以稱之為「大」，恐怕很少有人能得出概念。一個經營的很好的P2P平台有著幾萬到幾十萬用戶的投資數據，而一些搞徵信企業擁有百萬級的用戶數據就可以稱自己是「大數據」了，即使是央行，也僅僅擁有3.8億人的信貸記錄。

這樣的數據規模，應用到擁有十三億人國家的市場中，可以說遠遠的不夠。中國的貧富差距之大，地區和地區間發展的極不均衡，讓單一的數據模型很難適用於每個消費群體。而且不少企業都把自己積累的消費數據作為企業的「秘密」，生怕競爭對手獲取到這些信息，這更加劇了信息之間的不流通，使得數據樣本與實際產生偏差，惡意套現的組織也利用這一漏洞，用同樣的資料在不同平台之間進行套現。現在許多消費金融公司組建起了生態聯盟，在聯盟內共享黑名單，就是希望依靠聯盟來擴充數據容量以增強數據的準確性。

老貓甚至有一個「狹隘」的觀點，我認為只有基本覆蓋到每個公民的數據才稱得上是「大數據」。在存在一定邊界條件控制的情況下，比如春運、集會這樣的指向性很強的活動中，有著一定量的數據就可以得出可信的趨勢。而在信用貸款中，每個個體都存在著不可控的因素，這些因素的來源是方方面面的，是否僅僅依靠大數據就可以推算出來，我個人是表示存疑的。

3、 n人為操作可以讓大數據形同虛設

我們看到了美國徵信行業的生機勃勃，但經常被我們忽視的是，美國同時擁有著一整套與之匹配的法律體系和監管機制，包括《公平信用報告法》在內共有17部法律，在信息的收集、使用、發布、準確性上有著詳盡的規定，支撐著美國整個徵信行業的規範性發展。

這些法律，讓美國的徵信數據是公開公平，真實可信的。而我國關於徵信方面主要的法規是2013年1月國務院頒布的《徵信管理條例》，單從「條例」一詞就可以看出，我國在徵信方面還未上升到國家法律的層面。並且我國採用的是政府徵信與企業徵信的雙軌制結構，雙方在數據類型、資料庫上並不完全互通，這就導致了數據的不一致，存在人為進行篡改的可能性。還有關於個人隱私方面的問題，《徵信管理條例》也有許多語焉不詳之處，在實踐過程中有可能出現個人隱私暴露的問題。

從前段時間電影票房的虛假繁榮，到電商平台上可以說是習以為常的刷單現象。連吃瓜群眾都可以看到大數據經常反映不了真實的情況，有問題的數據應用到風控中，還會造成更多的隱患。限於金融自身的周期規律，這些隱患造成的後果不會像電影票房那樣立刻顯現，但很有可能在將來集中爆發。

不僅是數據本身，如何運用數據也是左右風控的關鍵因素。在缺乏法律監管的情況下，許多平台人為的降低風控要求，從而增大了風險敞口，造成了有「大數據」而無「風控」的情況，從近段時間大批平台因經營不善紛紛「暴雷」來看，大數據風控的核心還是在於人，只有監管者從嚴監管，從業者合規經營，大數據風控才能真正「長大成人」。