冰鑒科技顧凌云:餐廳換了老闆娘,徵信大數據都知道
DT君說
因為被京東和百度輪番投資,美國FinTech公司ZestFinance這兩年在中國有點火。ZestFinance做的事兒,是用機器學習和大數據為沒有信貸歷史的貸款人作信用評估。
近日,DT君採訪了ZestFinance模型組創始人顧凌雲。當年,顧凌雲作為創始成員加入ZestFinance,三年內為ZestFinance開發了六代模型後離開,後又加入主營小微企業徵信和借貸的Kabbage公司擔任首席數據科學家。2015年,顧凌雲回到國內創立了冰鑒科技,主攻小微企業徵信。
目前,國內個人徵信機構不少,但做獨立第三方小微企業徵信的並不多見。顧凌雲的選擇多少令DT君有點好奇。不過,在他看來,做小微企業徵信難度雖大,但同時也意味著前景廣闊。
而這個看似枯燥的領域,其實也不乏樂趣。比如在很多具體的案例中,常常會有令人震驚的發現。比如,一家老牌餐廳剛換了老闆娘,在冰鑒科技監測的指標和演算法中,相應的數據居然就出現了很大的變化;而使用蘋果最新iOS系統的人,在非上班時段申請貸款,欺詐概率也會小很多等。
在採訪中,顧凌雲還揭露了徵信業內一些公司的「黑」歷史。他認為,中國的徵信行業,未來終究會走向一條規範化之路。
選擇做企業徵信,因為難做意味著容易領先
(註:以下內容根據對顧凌雲的採訪整理而成,文中小標題為DT君所加。)
2015年創立冰鑒科技的時候,我直接選擇企業徵信,而不是個人徵信,是因為企業徵信給我們留下的時間窗更長,這讓競爭對手即使知道你在做什麼,但是恐怕也不容易追趕。
小微企業徵信和個人徵信最大的不同處在於,小微企業的所有變數都是快變數,而個人徵信用的是緩變數。
一個人一生的成長,他的變數不會有太大的改變,比如學歷學籍,性別等,而且這些變數是不可逆的。但企業的情況就不一樣了。
拿IBM公司舉例來說:1972年以前的IBM是以賣機器硬體為主的;1972-1992年,IBM基本是賣機器加綜合解決方案混在一起的;直到1992年,微軟的出世徹底打碎IBM的硬體夢以後,IBM完全變成基於諮詢的一家公司了。
(圖片說明:IBM公司的變遷史 來源:網路)
從個人徵信的角度來看,歷史數據多是好事情。因為在進行建模的過程中,歷史數據越多,表現出來的指向性和穩定性就越強。
但這個情況在企業徵信中就不一樣了。所以如果我們拿IBM的歷史數據來建模,數據的歷史越長,傷害越大,因為這些歷史數據對應的不指向同一個經濟指標。
此外,個人徵信中不同的快變數還是高度相關的。比如一個40歲左右的用戶在上海靜安區有一套房子,是自己買的。我幾乎就能大概知道他的職業會是什麼,也許是金融,也許是IT;他的年收入大概會在60-80萬,否則他連首付都付不起。
所以,在做個人徵信時,當有公司號稱有2000個維度來做反欺詐,模型里最終有500個變數作為模型的輸入時,這幾乎是沒有意義的。因為這些信息看上去相互獨立,但實際上高度相關,它們最終指向了相同的信息:或指向個人收入,或指向社會階級,或指向性別,幾乎就這麼多了。
在中國做企業徵信,離不開對企業主的個人徵信
小微企業徵信用到的快變數中,有很多維度是個人徵信中涉及不到的。
第一,社會輿情。比如,上海靜安區有一家人流量很大的餐館。我們發現,這家企業的經營狀況非常不錯。而餐館對應的社會輿情是什麼樣呢?比如說,我們爬取大眾點評上的評論就能體現出來了。
第二,企業本身的經營狀況。經營狀況的離散程度非常大,因為企業可以輕鬆作假。所以這個時候會用交叉驗證或者其他大數據的方式來解決。
比如上述的餐館,我們發現,在全國範圍內類似情況的地區——比如說南京鼓樓區,西安鐘樓區,或者北京西城區——在同樣的人流量、相同的經濟結構、居民/上班族的比例類似的情況下,其他的餐館對應的菜品的流量,以及餐廳的價格和收入,和這家餐廳有不少出入。
為什麼有很大的差別呢?這個時候,我就知道上海靜安的這家餐廳一定作假了。但大數據不是萬能的,這時候你讓我復原它的報表,我做不到。但是我知道,它作假一定是不對的,所以我們在模型之中就會有相應的「懲罰」(penalty)。
第三,行業信息也很重要。比如,冰鑒在服務很多金融機構的時候,有些機構會明確要求:不要鋼貿。因為鋼貿行業的欺詐比例非常高。
這裡不是說每一家鋼貿企業都欺詐,只是從整體上來看,它的違約率高。所以在行業上面來說就是有風險的。也就是說,你對企業所在的行業要有判斷。
最後一個重要的信息是企業主信息。現在很多小微企業活不下去了,真正企業運營出問題的,只有大概30%。更常見的情況是企業主出了問題——要不因為涉黑,在東北被追殺所以不能開店了;要不就是他把錢交給黑幫了,沒法還錢了;或者因為他離婚了,要賠一筆錢凈身出戶了;或者因為涉黃涉毒,把錢弄出去了等等。
所以在中國小微企業徵信,如果不做企業主或實際企業控制人的徵信的話,其實是沒有意義的。
所有這幾個維度放在一起可以說明兩件事情:首先,企業徵信比個人徵信難做得多;第二,因為做企業徵信必須要包括做小微企業主的個人徵信,所以從邏輯上來說,小微企業徵信自然向下兼容對個人的徵信。
餐廳換了老闆娘,它的數據就變了
企業的變數方方面面都會改變它的建模過程。
還是拿餐廳舉例子。比如說,有一個餐館存續了很長時間。但是我們的演算法和指標突然發現,在某一個時間點以前或之後,它得到的結果完全不同。
這裡有一個概念,叫OOT,out of time(指需要考慮到不同時期的因素)。冰鑒科技認為,社會的宏觀經濟環境是會改變微觀企業的。所以2009年的時候企業的表現特徵和2015年是完全不一樣的。(DT君:比如,這兩個時期的貨幣供應量增速就大相徑庭。見下圖)
OOT是很多做模型的人不做的,但這是真正該做的事情,尤其是小微企業徵信。
所以具體要怎麼做OOT,要保證用2008年到2013年訓練的數據能夠比較準確地預測2013年以後的事情,這個叫out of time。(DT君註:在機器學習中,訓練集一般用來估計模型,測試集用來檢驗最優的模型的性能如何。)
與OOT相關的另一個概念叫OOS,out of sample(樣本外測試),這說的是測試集的數據不能在原來的訓練集里出現過——否則就沒意義了。
我們處理數據時,會做random shuffling(直譯:隨機洗牌),這就像「洗牌」一樣。但有些是不能洗的,比如說時間,因為這是有先後順序的。這時,要切出某個時間點之後的——就是既是OOT,又是OOS的——來做測試,這件事情才能做完。
具體到剛才講的例子,比如這家餐廳延續時間很長且一直經營得不錯,那我們要怎麼發現這個OOT之中的時間節點呢?其實原因很簡單,就是店主離婚了,原來的四川老婆被湖南小三給踢掉了,然後餐廳的經營就從四川菜改成湖南菜了,整個經營就改變了。
關於這點我們也很震驚。雖然四川和湖南都是吃辣的,但吃辣的人群變了,它的價格,翻桌率等等都變了。
大數據分析能得到結論,但原因常常不能被驗證
至於這背後的原因,說實話我也不知道是什麼。這就是大數據和統計不一樣的地方:有時候我們通過大數據能得到一個結論,但並不知道它背後的原因是什麼。
比如說,我們在做反欺詐的時候,你非常清楚地看到,用蘋果iOS操作系統10.3版本以上的人,在正常時間段以外(非上班時段)申請貸款的話,他的欺詐概率很小。
對於這個結果我可以給出理由:比如我認為這些人是努力工作的,所以他們上班時不幹私事。他缺錢,但又不是專門搞現金貸或者高利貸的那種人。他可能會看資金的利息在10%左右,就去借來用一下。但是他用蘋果設備,那他收入應該不錯等等。
我可以找出這樣的理由,不過這些理由永遠不能被驗證。
未來中國徵信業:數據的採集、使用會日漸規範
其實冰鑒科技最早的時候選擇從小微企業徵信切入,和我的個人背景有關係。我當時在美國ZestFinance創建模型組的時候,做的是個人貸;後來我在Kabbage擔任首席數據科學家的時候,做的是企業貸。
這兩家公司是美國目前在使用大數據上比較成熟、而且商業模式一定程度上被認可的公司。所以,在美國有完整數據源的時候,怎麼做小微企業貸和個人貸我是比較清楚的。
我個人認為,美國金融的昨天,就是中國金融的今天;美國金融的今天,就是中國金融的明天。並不是所有行業「美國的昨天就是中國的今天」,體育,文化,政治,方方面面都不是,只有金融它一定是。因為金融存取匯兌付的本質是不會改變的。
我認為徵信的紅線會越來越清楚。什麼數據可以用,什麼數據不能用,會變得非常清晰。
現在有一些公司採集數據是非常「黑」的。一些公司號稱在用戶不使用APP就不收集用戶信息的情況下,依然以每6秒鐘、每30分鐘、每2個小時的速度在回傳用戶的信息。而且同時它會以一個APP向其他安裝的APP發請求信息的方式,來判斷用戶的應用列表。
中國未來像今天這樣的採集數據的亂局會越來越少,轉而強調對個人隱私的保護,我認為,這會是對高科技技術類公司的福音。
因為當什麼數據都能用的時候,其實有無技術是無所謂的。但是一旦這些隱私數據不能隨便被獲取時,對於數據的提煉加工,模型的建立和後期的分析,就會變得非常重要。
單純賣數據的公司,不是說就沒有明天
我在很多場合都抨擊掛羊頭賣狗肉、完全靠賣數據生存的徵信公司。但是這並不意味著賣數據的公司就沒有明天。
在美國就有非常明確的案例。美國基本上所有的細分的數據行業都會有一家公司,它不大不小,雖說上市無望,但也一樣活得挺滋潤。
為什麼呢,因為它所有專業都做好了。做水電煤(數據)的就做水電煤,做大學生付房租的就做付房租,它的數據採集已經細分到很小的領域,不太可能跳出原來的領域成為巨無霸,但是各家徵信公司都會用它的數據。
為什麼它能做到小而美呢?因為美國對數據的合規性要求太重了。所以數據公司的首席合規官(CCO)就變得很重要。CCO的工資不低,他每天工作幾乎就在干一件事情,就是保證公司目前的數據採集、數據存儲和數據更新活動合法合規。不合規的話,可能公司就沒了。中國以後一定也會成為這個樣子。
所以這些數據公司不是說不會有明天,只是不會有一個很亮麗的明天而已。
(聯繫本文編輯張弦:zhangxian@dtcj.com 個人微信:zhangxian494011)
推薦閱讀:
※大數據風控「污名化」溯源
※乾貨 | 構建風控系統之排坑掃雷(二)
※銀監會首次點名要求清理現金貸,在這個現金貸的高速發展期,是先觀望還是強勢出擊?
※互聯網金融產品如何利用大數據做風控?