冰鑒科技顧凌云：餐廳換了老闆娘，徵信大數據都知道

01-29

DT君說

因為被京東和百度輪番投資，美國FinTech公司ZestFinance這兩年在中國有點火。ZestFinance做的事兒，是用機器學習和大數據為沒有信貸歷史的貸款人作信用評估。

近日，DT君採訪了ZestFinance模型組創始人顧凌雲。當年，顧凌雲作為創始成員加入ZestFinance，三年內為ZestFinance開發了六代模型後離開，後又加入主營小微企業徵信和借貸的Kabbage公司擔任首席數據科學家。2015年，顧凌雲回到國內創立了冰鑒科技，主攻小微企業徵信。

目前，國內個人徵信機構不少，但做獨立第三方小微企業徵信的並不多見。顧凌雲的選擇多少令DT君有點好奇。不過，在他看來，做小微企業徵信難度雖大，但同時也意味著前景廣闊。

而這個看似枯燥的領域，其實也不乏樂趣。比如在很多具體的案例中，常常會有令人震驚的發現。比如，一家老牌餐廳剛換了老闆娘，在冰鑒科技監測的指標和演算法中，相應的數據居然就出現了很大的變化；而使用蘋果最新iOS系統的人，在非上班時段申請貸款，欺詐概率也會小很多等。

在採訪中，顧凌雲還揭露了徵信業內一些公司的「黑」歷史。他認為，中國的徵信行業，未來終究會走向一條規範化之路。

選擇做企業徵信，因為難做意味著容易領先

（註：以下內容根據對顧凌雲的採訪整理而成，文中小標題為DT君所加。）

2015年創立冰鑒科技的時候，我直接選擇企業徵信，而不是個人徵信，是因為企業徵信給我們留下的時間窗更長，這讓競爭對手即使知道你在做什麼，但是恐怕也不容易追趕。

小微企業徵信和個人徵信最大的不同處在於，小微企業的所有變數都是快變數，而個人徵信用的是緩變數。

一個人一生的成長，他的變數不會有太大的改變，比如學歷學籍，性別等，而且這些變數是不可逆的。但企業的情況就不一樣了。

拿IBM公司舉例來說：1972年以前的IBM是以賣機器硬體為主的；1972-1992年，IBM基本是賣機器加綜合解決方案混在一起的；直到1992年，微軟的出世徹底打碎IBM的硬體夢以後，IBM完全變成基於諮詢的一家公司了。

（圖片說明：IBM公司的變遷史來源：網路）

從個人徵信的角度來看，歷史數據多是好事情。因為在進行建模的過程中，歷史數據越多，表現出來的指向性和穩定性就越強。

但這個情況在企業徵信中就不一樣了。所以如果我們拿IBM的歷史數據來建模，數據的歷史越長，傷害越大，因為這些歷史數據對應的不指向同一個經濟指標。

此外，個人徵信中不同的快變數還是高度相關的。比如一個40歲左右的用戶在上海靜安區有一套房子，是自己買的。我幾乎就能大概知道他的職業會是什麼，也許是金融，也許是IT；他的年收入大概會在60-80萬，否則他連首付都付不起。

所以，在做個人徵信時，當有公司號稱有2000個維度來做反欺詐，模型里最終有500個變數作為模型的輸入時，這幾乎是沒有意義的。因為這些信息看上去相互獨立，但實際上高度相關，它們最終指向了相同的信息：或指向個人收入，或指向社會階級，或指向性別，幾乎就這麼多了。

在中國做企業徵信，離不開對企業主的個人徵信

小微企業徵信用到的快變數中，有很多維度是個人徵信中涉及不到的。

第一，社會輿情。比如，上海靜安區有一家人流量很大的餐館。我們發現，這家企業的經營狀況非常不錯。而餐館對應的社會輿情是什麼樣呢？比如說，我們爬取大眾點評上的評論就能體現出來了。

第二，企業本身的經營狀況。經營狀況的離散程度非常大，因為企業可以輕鬆作假。所以這個時候會用交叉驗證或者其他大數據的方式來解決。

比如上述的餐館，我們發現，在全國範圍內類似情況的地區——比如說南京鼓樓區，西安鐘樓區，或者北京西城區——在同樣的人流量、相同的經濟結構、居民/上班族的比例類似的情況下，其他的餐館對應的菜品的流量，以及餐廳的價格和收入，和這家餐廳有不少出入。

為什麼有很大的差別呢？這個時候，我就知道上海靜安的這家餐廳一定作假了。但大數據不是萬能的，這時候你讓我復原它的報表，我做不到。但是我知道，它作假一定是不對的，所以我們在模型之中就會有相應的「懲罰」（penalty）。

第三，行業信息也很重要。比如，冰鑒在服務很多金融機構的時候，有些機構會明確要求：不要鋼貿。因為鋼貿行業的欺詐比例非常高。

這裡不是說每一家鋼貿企業都欺詐，只是從整體上來看，它的違約率高。所以在行業上面來說就是有風險的。也就是說，你對企業所在的行業要有判斷。

最後一個重要的信息是企業主信息。現在很多小微企業活不下去了，真正企業運營出問題的，只有大概30%。更常見的情況是企業主出了問題——要不因為涉黑，在東北被追殺所以不能開店了；要不就是他把錢交給黑幫了，沒法還錢了；或者因為他離婚了，要賠一筆錢凈身出戶了；或者因為涉黃涉毒，把錢弄出去了等等。

所以在中國小微企業徵信，如果不做企業主或實際企業控制人的徵信的話，其實是沒有意義的。

所有這幾個維度放在一起可以說明兩件事情：首先，企業徵信比個人徵信難做得多；第二，因為做企業徵信必須要包括做小微企業主的個人徵信，所以從邏輯上來說，小微企業徵信自然向下兼容對個人的徵信。

餐廳換了老闆娘，它的數據就變了

企業的變數方方面面都會改變它的建模過程。

還是拿餐廳舉例子。比如說，有一個餐館存續了很長時間。但是我們的演算法和指標突然發現，在某一個時間點以前或之後，它得到的結果完全不同。

這裡有一個概念，叫OOT，out of time（指需要考慮到不同時期的因素）。冰鑒科技認為，社會的宏觀經濟環境是會改變微觀企業的。所以2009年的時候企業的表現特徵和2015年是完全不一樣的。（DT君：比如，這兩個時期的貨幣供應量增速就大相徑庭。見下圖）

OOT是很多做模型的人不做的，但這是真正該做的事情，尤其是小微企業徵信。

所以具體要怎麼做OOT，要保證用2008年到2013年訓練的數據能夠比較準確地預測2013年以後的事情，這個叫out of time。（DT君註：在機器學習中，訓練集一般用來估計模型，測試集用來檢驗最優的模型的性能如何。）

與OOT相關的另一個概念叫OOS，out of sample（樣本外測試），這說的是測試集的數據不能在原來的訓練集里出現過——否則就沒意義了。

我們處理數據時，會做random shuffling（直譯：隨機洗牌），這就像「洗牌」一樣。但有些是不能洗的，比如說時間，因為這是有先後順序的。這時，要切出某個時間點之後的——就是既是OOT，又是OOS的——來做測試，這件事情才能做完。

具體到剛才講的例子，比如這家餐廳延續時間很長且一直經營得不錯，那我們要怎麼發現這個OOT之中的時間節點呢？其實原因很簡單，就是店主離婚了，原來的四川老婆被湖南小三給踢掉了，然後餐廳的經營就從四川菜改成湖南菜了，整個經營就改變了。

關於這點我們也很震驚。雖然四川和湖南都是吃辣的，但吃辣的人群變了，它的價格，翻桌率等等都變了。

大數據分析能得到結論，但原因常常不能被驗證

至於這背後的原因，說實話我也不知道是什麼。這就是大數據和統計不一樣的地方：有時候我們通過大數據能得到一個結論，但並不知道它背後的原因是什麼。

比如說，我們在做反欺詐的時候，你非常清楚地看到，用蘋果iOS操作系統10.3版本以上的人，在正常時間段以外（非上班時段）申請貸款的話，他的欺詐概率很小。

對於這個結果我可以給出理由：比如我認為這些人是努力工作的，所以他們上班時不幹私事。他缺錢，但又不是專門搞現金貸或者高利貸的那種人。他可能會看資金的利息在10%左右，就去借來用一下。但是他用蘋果設備，那他收入應該不錯等等。

我可以找出這樣的理由，不過這些理由永遠不能被驗證。

未來中國徵信業：數據的採集、使用會日漸規範

其實冰鑒科技最早的時候選擇從小微企業徵信切入，和我的個人背景有關係。我當時在美國ZestFinance創建模型組的時候，做的是個人貸；後來我在Kabbage擔任首席數據科學家的時候，做的是企業貸。

這兩家公司是美國目前在使用大數據上比較成熟、而且商業模式一定程度上被認可的公司。所以，在美國有完整數據源的時候，怎麼做小微企業貸和個人貸我是比較清楚的。

我個人認為，美國金融的昨天，就是中國金融的今天；美國金融的今天，就是中國金融的明天。並不是所有行業「美國的昨天就是中國的今天」，體育，文化，政治，方方面面都不是，只有金融它一定是。因為金融存取匯兌付的本質是不會改變的。

我認為徵信的紅線會越來越清楚。什麼數據可以用，什麼數據不能用，會變得非常清晰。

現在有一些公司採集數據是非常「黑」的。一些公司號稱在用戶不使用APP就不收集用戶信息的情況下，依然以每6秒鐘、每30分鐘、每2個小時的速度在回傳用戶的信息。而且同時它會以一個APP向其他安裝的APP發請求信息的方式，來判斷用戶的應用列表。

中國未來像今天這樣的採集數據的亂局會越來越少，轉而強調對個人隱私的保護，我認為，這會是對高科技技術類公司的福音。

因為當什麼數據都能用的時候，其實有無技術是無所謂的。但是一旦這些隱私數據不能隨便被獲取時，對於數據的提煉加工，模型的建立和後期的分析，就會變得非常重要。

單純賣數據的公司，不是說就沒有明天

我在很多場合都抨擊掛羊頭賣狗肉、完全靠賣數據生存的徵信公司。但是這並不意味著賣數據的公司就沒有明天。

在美國就有非常明確的案例。美國基本上所有的細分的數據行業都會有一家公司，它不大不小，雖說上市無望，但也一樣活得挺滋潤。

為什麼呢，因為它所有專業都做好了。做水電煤（數據）的就做水電煤，做大學生付房租的就做付房租，它的數據採集已經細分到很小的領域，不太可能跳出原來的領域成為巨無霸，但是各家徵信公司都會用它的數據。

為什麼它能做到小而美呢？因為美國對數據的合規性要求太重了。所以數據公司的首席合規官（CCO）就變得很重要。CCO的工資不低，他每天工作幾乎就在干一件事情，就是保證公司目前的數據採集、數據存儲和數據更新活動合法合規。不合規的話，可能公司就沒了。中國以後一定也會成為這個樣子。

所以這些數據公司不是說不會有明天，只是不會有一個很亮麗的明天而已。

（聯繫本文編輯張弦：zhangxian@dtcj.com 個人微信：zhangxian494011）