大數據在金融風控領域的應用
以下是「聚信立創始人兼CEO羅皓」發言實錄:
非常高興有機會參與上海大數據聯盟舉辦的這樣一個論壇。我們做大數據已經做了三年多了,在上海這種同行的交流本身比較少,所以我個人也希望未來有越來越多的同行業的交流來探討數據的合作和分析方面的事情。
我們是一家金融大數據公司,主要服務信貸行業,幫助客戶去獲取、整合、清洗、分析數據,為客戶提供風險控制方面的服務。
我是1999年念的大學,本科念精算,然後在國外讀了統計學。我是在國內前十位考過SAS認證統計師,這個認證也是在國內主要的銀行、信用卡公司廣泛被運用的一個分析建模的工具。2005年開始在通用電氣公司、渣打銀行、Discover公司,特別註解一下Discover是以前摩根史丹利下面的信用卡公司,摩根史丹利跟Discover在2008年的時候,金融危機之前分家了,我也是在它分家之後加入了這家公司。我在通用電氣、渣打銀行、Discover一共工作了七年半,主要在日本、新加坡和美國做信用卡和個人貸款的模型、建模、分析、大數據,包括決策引擎這方面的工作。
我從2011年開始創業,2011年底到2013年5月份做了一年半的網路輿情監控,當時我們看到了微博很火、社交網路很火,很多的粉絲、網友在網上留下很多信息,這些信息可能以帖子的形式存在的,有很多關於品牌的,是以非結構化的形式存在的。當時做了一年半的網路輿情監控,幫助很多品牌,比如肯德基、麥當勞、路虎汽車等等幫他們去分析粉絲在網路上面討論他們的什麼東西,都在聊什麼,好的地方是什麼、壞的地方是什麼,相當於做了很多的社交網路的輿情分析。
第二我們做了社交網路的廣告監控,在2011年、2012年時候有一種廣告的形式是非常火的,利用在社交網路上面有影響力的大號,比如說微博上面有很多有影響力的大號,很多品牌會找他們合作,轉發或者評論一些這樣的廣告,我們也做很多這方面的廣告監控。我們2013年開始轉型,做我們現在做的這個事。我們現在做的本質上就是用互聯網和大數據去幫助放貸機構或者資產端的客戶判斷借款人的風險。
先講一下這個事的背景,為什麼大數據在近三年,2013年、2014年、2015年,包括2016年,對行業有這麼大的衝擊?這裡首先有一個大的背景,國內的個人消費信貸,以前的信貸主要由銀行所統治或者壟斷的,但是近幾年大家可以從這個表當中看到,2014年到2015年年底的時候,實際上國內個人消費信貸已經到19萬億,預計到2019年的時候這個數字會劇增到接近41萬億,42萬億左右。
這中間發生了幾件事情:
第一是政策的開放。國務院也開始放開消費金融市場的准入,看到去年非常多的消費金融公司,持牌的也好,非持牌的也好,還有很多P2P公司都在做這一塊市場。
第二是整個消費習慣在改變。我們看到新一代的消費者,包括很多年輕人,白領、藍領,還有很多學生,用新型的移動互聯網設備、工具,通過這種工具連接到場景,線上、線下,比如說京東白條、螞蟻花唄,這是線上的消費金融。線下也有非常多的消費金融公司在跟場景合作,可以看到非常多的非標的消費場景,比如教育、旅遊、醫美,比如說還看到非常多的娛樂、體育等等。消費者通過不同的場景,線上也好、線下也好,通過移動互聯網獲取各種各樣的分期跟信貸的服務。
第三個越來越多的金融機構出現。以前大家用老的數據、傳統數據,現在更多的消費者在線上、在線下借非常小的貸款分期產品,對於風控來說越來越多的機構需要去滿足實時審批、實時風控的需求。
這個大的背景下面帶來幾個比較大的挑戰,這幾個挑戰也是大數據在風控上面運用的一個契機。
第一個挑戰,我們可以看到在中國有超過4億人是缺乏銀行徵信信息的,這些人也是互聯網或者說消費金融的浪潮下最需要被授信的一群消費者。據我們的統計,人行的信息大概覆蓋六億人,但是這中間的六億人裡面差不多有詳實信息的只有將近兩億人,還有很多人其實叫白戶,這些人沒有太多的信息,所以沒有辦法從人行的徵信信息判斷這個人的信用狀態。這是第一個挑戰。
第二個挑戰, 我們看到很多的信貸申請行為從線下往線上轉移。2013年的時候我就跟很多的信用卡公司打交道,比如建行信用卡中心。我們了解到,整個2013年線上申請的量比2012年翻了差不多四倍,這是非常大的改變。我們看到這些年出現了很多的信貸機構把網上申請通道擺為第一個重視的通道,這是第一。第二看到有很多渠道專門整合這種信貸的申請入口放到網上,越來越多的消費者不局限於自己生活或者自己工作周邊的一些銀行或金融機構去借貸,而是可以通過互聯網找更適合自己的借貸入口。
在這兩個大的背景下,如何去滿足這些新型的消費者?包括我們自己也有很多的客戶是小白領,剛畢業的,22歲到24歲、25歲這種。還有大學生,18歲到22歲,其實是沒有工作的,或者說沒有那種穩定的通過勞動獲得收入來源。還有很多的藍領,包括我們也做了很多的客戶,像富士康工廠這樣的工廠人群。對於這些人,很多人都在線上申請貸款。
傳統來說,線下這一塊至少可以看到這個人,從欺詐的角度來看,這個人是騙子的可能性比較少,至少可以看到他的臉,還有他的身份證,兩者可以做非常多的比較。那麼線上,包括這麼多人沒有信用記錄,在幾個風險點上面提出了條件:
1.欺詐風險。這個借款人是不是騙子?以前線下借款還好,線上開一個玩笑你甚至不知道電腦後面坐的是人還是狗。第一個判斷欺詐,看身份,看圖片,比如說臉是不是對應的是他本人。
如果這個人不是一個騙子,有沒有能力還錢?有沒有能力去還錢又可以分成兩個層面:第一是可能的收入、可能的資產,比如說他的工資、獎金、股票、房產、汽車,包括收入、不動產等等;還有一種是他的負債情況,或者換句話說是多頭借債的情況,收入是一方面,在外面的負債是第二個方面,兩者相減才能得到還款能力。
2.信用風險。第三個如果萬一借款人既不是騙子,也有能力還錢,但是如果哪一天不還錢了,怎麼辦呢?如何找到這個人?因為我們知道在中國違約的借款人最重要、最顯著的特徵,比如說只要欠款90天以上的,最顯著的是電話失聯,找不到這個人。我們看到一個巨大的契機,互聯網的數據歸根到底解決幾個大的問題,判斷欺詐風險、信用風險,以及人一旦嚴重違約以後如何找到這個人,這是互聯網數據運用的幾個重點的領域。
我剛剛講到了,第一個是信用風險,包括這個人有沒有借款的信息。第二個是欺詐風險。
欺詐風險我想重點提一下,這是互聯網數據可以幫到非常大的領域,據我們的統計,我們看到在中國的新金融領域,銀行或者信用卡行業覆蓋不到的,包括有非常多的消費金融公司、小貸公司、無抵押信用貸款提供商、P2P公司,超過60%的損失是欺詐產生的,接近60%。也就說明了什麼問題呢?這些人根本不是來借錢的,是來騙錢的。換句話說,這個人的信用風險已經不重要了,這個人有沒有還款能力、收入並不重要,因為很多貸款量是非常少的,比如說一萬、兩萬元,因為本身借款金額並不大。
所以我們看到互聯網數據,包括市場上面非常多的,比如基於設備指紋的大數據公司,包括基於手機號為ID的數據公司,再往上還會看到人臉識別公司,甚至還會看到聲紋識別公司,本質上面60%大家都在處理這個問題,就是欺詐風險。在這60%裡面我們看到的最嚴重的兩種情況,第一個是黑中介的平台套現,單個欺詐的成分是非常高的,一個人要偽造那麼多的信息去借款,本身經濟上面來看不是一個合算的事情。所以我們看到在國內有大量的中介存在在各種的,像QQ群、百度貼吧等,各種社交網站上面,以這種形式存在,周圍集結了一大幫騙子,黑中介幫他們申請這樣的貸款。第二是看到信息造假的情況。最後一個是多頭借貸,說是互聯網數據,不如說通過一種商業模式或者通過一種技術。商業模式就是大家共享數據的一種模式,或者通過一種技術,比如說通過設備指紋、通過SDK嵌入到客戶的APP或者客戶端裡面收集數據,解決多頭借貸,本質上面也屬於互聯網數據當中的一種。所以這三個是我們現在做數據的,主要解決的三個問題,以及在收集什麼樣的數據,信用風險、欺詐風險、多頭借貸。
我們來系統的比較一下,傳統數據(比如央行徵信報告)和互聯網數據之間的區別,兩者有什麼優點和缺點?
對於央行徵信報告,第一是裡面有非常多的個人基本信息、信用卡的信息,基本信息包括身份信息、配偶信息、居住信息、職業信息。第二個有非常多的個人借貸的歷史信息,這是央行徵信最大的優點,但這個僅限於銀行體系內,也是央行徵信最大的缺點。
優點是說覆蓋的是一大批的正規金融機構,消費者只要在這些正規金融機構裡面有借貸行為,這個記錄非常詳實,但是對於新金融領域,對於一些非銀行的領域,存在信用交換的交易場所,比如說交易的行為,比如說保險、租車,這其實都是跟信用相關的,但這沒有納入到人行徵信裡面的。包括信貸交易信息明細、貸款信息查詢。總的來說央行的徵信報告沿襲了國外的,在美國的三大徵信機構,央行的徵信記錄,不管從內容、結構、功能上面,都跟國外主流的徵信機構提供的數據是類似的。
我們看看互聯網下的大數據,比如說我個人把互聯網的數據定義成兩種:賬戶內信息、賬戶外信息,我們這邊特指的可能更偏賬戶內的信息。
賬戶內信息。要自己授權別人才能看到的一些信息。通俗的講,自己通過登陸行為才能看到信息,比如說你的電商購物記錄,信用卡的帳單,這不是什麼機構通過任何開放的搜索就能搜出來的,像谷歌、百度這樣搜是搜不出來的。電商數據,購物信息,運營商的通話、簡訊,包括手機的使用行為信息,公積金社保數據、學信數據、社交數據,通過登錄的行為已經提供了一種授權的方式。所以我們看到市場上面有非常多的數據公司,包括我們也提供一種數據抓取的平台工具。
賬戶外信息。一般比如說社交網站是一種開放式的,像新浪微博是不需要登錄的,只要把賬號給你就可以看到。另外還有一種存在的形式,像各大論壇、各種BBS,這是賬戶外的信息。
我們看到從這兩種數據的對比來看,人行的徵信報告,毫無疑問跟金融更相關,直接可以看到借貸人的歷史。當然如果銀行的徵信報告可以覆蓋全國的範圍內當然是非常好的事情,可能互聯網數據的用武之地不是那麼的大,但是很可惜它的覆蓋面不是很廣,在中國覆蓋四億人,四億人裡面只有兩億人的信息是詳實的,另外兩億人的信息並不是那麼詳實的。而在中國的信貸人群和人行徵信覆蓋的人群缺口,現在差不多是四億到六億左右。現在這麼火熱的新金融也好、互聯網金融也好,實際上主要在搶這一塊市場。
第二個是獲取困難。如果到銀行借錢或者到傳統的金融機構獲取信貸的服務,銀行是可以獲取人行的徵信報告,但對於新金融、消費金融、P2P,其實拿不到的,所以需要本人到人民銀行列印。
對比而言,互聯網大數據有很明顯的優勢:
第一獲取非常迅速。如果有API介面,或者網頁抓取的技術,一般兩到五分鐘可以在借款人授權的情況下面獲得數據。
第二個覆蓋面非常廣。現在全國通過介面的方式可以提供數據的公司也好、網站也好,非常多,我們上次看到有1.5萬家左右。
第三個是信息真實全面。沒有辦法做假的,這個信息來源不是這個借款人,而是從第三方網站過來的。獲取迅速,覆蓋面廣,信息真實、全面。缺點是什麼?不包含央行徵信報告中的借貸信息,這個對於年輕的群體相對沒有那麼重要,因為這些人本來就沒有什麼借款信息,比如說學生,剛畢業的白領、藍領。
總的來說,我們對於互聯網大數據的理解是,如果從借貸這個市場來看,我覺得在18歲到30歲之間的年輕群體,幫他們提供小額、微額的貸款,這個領域提供數據是非常有效的,速度、覆蓋面、信息的全面性,還有數據的價格,為什麼?人行的徵信報告一般是8元到15元,我們算一個賬,新金融的小微借貸,小一點的一兩千或者五六千,通過率是非常低的,很多公司通過率不到5%,我們算CPS,人行徵信這種10元出去的話,如果通過率不到5%,相當於CPS要乘20倍,也就是說每個人花200元買一份,實際上很多的新金融公司是負擔不起這個價格的,很可能貸款才貸兩千,利息可能才賺四百,加上資金成本、運營成本,是不可能能夠正常運轉的。所以我覺得這就是互聯網數據的機會,這些數據從獲取的角度,從價格,看到很多的,像設備反欺詐、賬戶內信息、網頁抓取的信息也好,相對資質比較差的借款人、小額貸款,價格上面可以維持讓這些公司在風險控制上面能夠正常運轉
舉幾個例子,關於互聯網的數據怎樣獲取?有三種方式:
第一種通過授權的方式。這邊有一個借款人,藍領,沒有信用卡,需要在某P2P平台貸款5萬元。來到這個平台,這個平台會要求這個用戶授權,這個平台會把用戶通過網頁的形式推到第三方數據公司,這個第三方的數據公司在獲得這個人的授權以後會啟動數據抓取的工具,可以是API的形式,也可以是網頁抓取的模式,再到第三方或者第四方網站抓,比如說某一個信用卡公司、比如說某一個電商,我們看到國內很多類似的公司,不管是記帳類的還是網頁爬蟲的公司都在做這個事情。
這些公司收到這個數據,會對數據進行幾個步驟的工作,第一進行清洗,然後進行整合,然後加工,加工是非常重要的工作。為什麼?這些數據不是傳統的信貸數據,所以存在認知的問題。很多的金融機構沒有用過這種,比如說電商,以前大家都沒有用過,但直覺上面大家知道這個數據一定有用,你必須把這個數據翻譯成金融機構可以理解的形式,它才可以對這些數據進行正確的使用。信息反回來給到借款平台,借款平台對這個人的資質進行判斷,所以這是一種非常經典的模式。在國內有大多數,第一個做網頁抓取,第二個叫做數據批發的公司,其實本質上面也是做這麼一件事情,就是說我拿一些數的資源,放貸方如果對我提出查詢的需求,我會對這些數據公司調它的API,拿數據。這是第一種。
第二種,網路監控。其實我們公司也做了非常多的類似產品,我相信也有一些類似的數據公司也做這樣的產品。就是說從開放的網站我們會抓取非常多的,像百度貼吧、趕集,網站上面有非常多的分類信息網站,包括很多的社交網站,各種群,裡面存在大量的黑中介、套現的人,他們會有一個他們自己的社區,甚至可以說他們有他們自己的世界,裡面有非常多的集團欺詐的頭目,下面會有非常多的粉絲,他們會在這個裡面天天在討論一些套現啊,怎麼樣通過做假資料貸款啊,裡面會有非常多的帖子,而且裡面留有非常多的相關人的聯絡方式,手機號、QQ號等等。
我們也在做這種工作,現在實時監控超過八百多個網站,包括社交網站、BBS、論壇、各種群,我們會每天通過一系列的關健詞去搜索,看看出現了什麼樣的帖子。比如說這邊有一個新的「口子」大家要不要攻略。「口子」現在是一個行話,出了一個新的貸款網站,一般大家都叫「口子」,經常看到出了一個新的「口子」,誰要借錢,這邊有攻略。發過來以後,他們要賣錢的。
所以我們看到非常多的地下套現、詐騙團伙,包括集團。我們會對這些網站進行監控,也可以做成一份報告,比如說提供一個手機號或者一個身份證、QQ號,可以看到這個QQ號在哪些論壇、群裡面出現過,這個其實是非常有效的防欺詐的利器。這個模式從公開網站上面獲取資料,然後對借款人去做排查和篩選的模式。剛才講的是通過借款人授權的。這個模式不需要授權,這是公開信息,可以在公開信息上面做篩選和排查。
第三種模式是網路的模式。其實本質上面跟徵信的模式是一樣的。比如說看到市面上有很多基於設備的指紋和SDK公司,嵌入代碼以後,周期性或者實時從APP裡面收集一些數據,比如說設備的硬體、設備的Email號,設備安過什麼APP,甚至設備出現過在哪,這個模式通過網路的方式收集數據的,聯防聯控的方式。
我們看到的,在市場上面三種通過互聯網的數據來做風控的三種經典的模式。我今天在這不具體探討用什麼技術了。我的體會,把數據產業鏈分成三步的話:第一步,數據採集。第二步,數據加工。第三步,分析和建模。
第一,數據採集。我們現在深刻感覺到,在新金融沒興起之前,其實數據的採集和加工並不存在太大的問題,如果大家只是針對銀行那部分客戶,更多的競爭可能在分析和建模, 20年前的互聯網也沒有那麼發達,搜索引擎也沒有那麼發達,共享經濟也沒有出來,所以大家會花很多時間、精力在已有的數據上面建模和分析。但是近兩三年我們看到一個不一樣的趨勢,新金融出來以後,大量的借款人,年輕的借款人,在中國差不多有四億多的群體,得不到信貸這方面的幫助。所以對於這些人的信用判斷就顯得特別的迫切,這樣的情況下面,數據的採集是第一位的。因為這些人以前沒有什麼信用記錄的,如何判斷他的信用狀況,就變得異常的重要。
第二,數據加工業。這個很重要,因為數據這個跟其他的商品、產品不太一樣。比如說數據跟貨幣就有非常大的區別,貨幣是一種標準化的東西,北京一元跟上海的一元是一樣的,價值一樣。但數據是非常主觀的東西,每一筆貸款、每一個借款人或者說每一個行業或者每一個場景,同樣的數據,它的價值是不一樣的。這是第一個問題,就是如何定價的問題。第二個問題是這個數據如何把它進行翻譯的問題,因為數據是一個非標準化的東西,各行各業,同一個數據,比如說電商的購物記錄,對於保險公司和對信貸機構,使用的方式、方法,包括看的欄位是完全不一樣的,這個中間需要非常多的行業經驗,你要把這個數據轉化成那個行業的專業人士懂的形式,這是我們的經驗。
我對中國數據行業未來的判斷,整體地競爭會慢慢的從數據的採集變成數據的加工,因為中國的數據市場未來一定會變得更開放,會有兩個大的趨勢:第一個是數據越來越開放;第二個是數據的來源會越來越趨向於集中式的這種存儲,而不會這麼分散。舉一個例子,我們也在採集公積金社保,中國公積金社保的網站有六百多個,所以信息是非常分散的,我們覺得在未來五年內,一是數據越來越開放,二是不那麼分散,越來越集中。這兩個背景下,數據的加工變得更重要。
第三個,數據建模。我個人的判斷,數據建模的重要性在略微下降。我們看二十年前做模型,一般我們看到的有各種各樣的博士,博士後都有,但是比如說我近幾年看到的很多建模人員,但凡有三年到五年的開發經驗,工程師也可以做,現在互聯網大大改變了這個行業。可以看到現在很多谷歌的網站上面有開源包。三年前談機器學習很神秘,談深度學習也覺得很神秘,現在在谷歌上面搜有各種各樣的開源包。舉一個不恰當的例子,這跟做飯一樣,你不會做這個菜,我會做,你找我做。但現在隨著搜索引擎、分享經濟,各種各樣的菜譜你可以搜到。所以你有基礎的炒、蒸、煮的技術加上一個菜譜也可以是八九不離十。未來建模的技術會越來越標準化,而且可以開源化,你只要具備基礎的這種,或者不需要那麼高深的技術,用開源包得到的效果和專業人士做出來的東西差不多,這一點,包括我以前七年半的工作經歷包括現在自己創業得到的反饋都是一致的。
最後講一下我們公司的情況,從2013年5月份開始做,聚信立這樣的公司依靠大數據互聯網的賬戶內信息去分析這個借款人的資信狀況,幫助客戶去為他提供貸款。到目前為止,我們總共接近服務國內500家主流的消費金融公司、P2P公司以及銀行系的客戶,包括國內的像宜信、人人貸、趣分期、京東、百度這些都是我們的客戶。我們總共處理借款人超過1200萬人,在今年年底總共處理的獨立借款人應該會超過2000萬,占整個新金融領域的借款人差不多佔到一半的數目。
我們公司也是2011年年底成立的,2014年完成京東A輪融資,2015年我們被評為國內的創新公司100強,現在也在做B輪融資。這是我今天演講的主要內容和主題。非常感謝大家!
推薦閱讀: