P2P深度透視 OMNIRank 平颱風險量化

問題背景

互聯網金融2007年進入國內,2013年得到了蓬勃的發展。與此同時,也出現了很多問題平台諸如提現困難、老闆跑路、停業等。截止2016年3月,在國內近4000家P2P平台中,問題平台比例已接近40%,投資者的資金難以得到保障。投資者希望知道自己的資金放在哪裡最安全?投到哪個平台最有安全保障?這正是我們產品要解決的核心問題—客觀精確地對P2P平台進行風險量化

我們對出現問題的P2P平台做了分析,可能的原因歸結為兩條:

  1. 先天基因能力不足:如創始團隊缺乏過硬技術與運營經驗、註冊資金過少難以承受突發危機等;

  2. 後天發展存在問題:如過分抬高利率導致難以向投資者兌現、過度追求利潤而忽視了風險控制等。

根據以上的分析,我們選取以下四大類的特徵作為平颱風險的量化依據,包括:靜態特徵與動態特徵兩部分。其中靜態特徵對應於平台先天基因,包括平台的基本屬性,例如註冊資金、所在城市、擔保機構等;動態特徵對應於平台的後天發展,包括平台的各項指數、新聞輿情、用戶評論等信息。

系統架構

下面是我們的系統架構,首先使用網路爬蟲獲取多源異構數據,解析得到結構化數據。通過數據清洗將結構化數據整理成我們的數據資產。在此基礎上我們使用文本處理、主題模型、知識圖譜、情感分析等技術分析數據資產,挖掘其中的內在規律。之後我們提出核心模型—OMNIRank,對各個P2P平台進行風險量化,形成知識供投資者決策。最後,我們將數據分析、模型量化的結果進行可視化,為投資者提供友好的交互界面。

數據源選擇

為了全面獲取各個P2P平台的信息,我們選擇了客觀的新聞門戶、主觀的民意評論、權威的網貸社區和平台官方平台網站作為數據源,從各個維度了解平台,為後續分析打下基礎。

數據獲取

我們基於Scrapy開發了爬蟲框架OMNISpider,它可以:

  1. 分散式可擴展:集成Redis、Hadoop,部署於上海交通大學網路信息中心,支持更多數據源的並發爬取;

  2. 靈活配置:通過修改配置文件即可添加新的任務或更新已有任務,無需重構代碼。

只需簡單的配置,既可以通過調度、爬取、解析、存儲模塊在短時間內爬取海量的多源異構數據。

數據清洗

下圖是我們的數據清洗過程。我們對爬取的結構化數據進行了數據去重、空值處理、數據去噪、格式統一、對齊融合。

數據資產

經過數據的清洗與融合,我們得到了數據資產。據不完全統計,我們的數據資產包括27萬餘條新聞8萬多條P2P相關的微博和評論3050家P2P平台的基本信息3年來各平台指數月評級數據。為了持續地擴充數據資產,我們把數據存放在Hadoop分散式文件系統(HDFS)中。

數據分析

在此基礎上,我們希望進一步得到與平颱風險有關的信息。首先是文本處理,使用分詞技術對新聞文本、用戶評論文本等進行分詞與詞性標註,用Word2Vec技術將詞語訓練為高維向量,從而更好地表示地詞語間的相互關係以及其中蘊含的語義。

在理解文本的基礎上,我們使用LDA模型對新聞進行處理,生成5個主題,每個主題取權重前7的詞語作為關鍵詞。通過各個平台在不同主題上的新聞分布規律和變化趨勢,我們可以對平台進一步地理解,並了解整個行業的最新熱點。

我們對語義信息、主題信息進行整理,經過命名實體識別、關係抽取、開放域知識提取技術,形成了一個包含1萬多個結點的知識圖譜。為了提供更快的查詢服務,我們將它存在圖資料庫中。投資者可以進行知識探索,更加全面的了解各平台、人員、職位、地理分布之間的聯繫。

為了更進一步理解平台口碑,我們對新聞以及用戶評論數據做情感分析,判斷出整個行業,以及各個平台的輿論傾向,並以天為粒度進行統計,便於投資者全面了解行業,進行投資決策。

OMNIRank模型

經過以上數據資產的準備及探索分析,我們提出我們的核心模型OMNIRank,一個對P2P平台進行風險量化,為投資者提供投資決策的模型。Google開發了人工智慧AlphaGo。它是一個會下圍棋的人工智慧。它採用全局特徵和局部特徵結合的思想,主要方法是深度神經網路。

OMNIRank是一個對P2P平颱風險量化的人工智慧,它的本質是一個深度神經網路。模型輸入5大類共118個特徵,包含全局的靜態特徵、局部的動態特徵。結合各個特徵特點及神經網路模型的優勢,我們設計了OMNIRank深度神經網路:

  1. 使用多層神經網路(MLP)處理靜態平台屬性特徵;

  2. 使用長短時記憶元(LSTM)處理動態平台指標時間序列;

  3. 使用卷積神經網路(CNN)處理新聞、評論文本數據。

就像AlphaGo可以進行自我對弈一樣,OMNIRank可以通過反饋迴路自我學習,不斷提升模型的能力。

下圖展示了OMNIRank模型對平颱風險量化的效果。我們在近半年的數據集上進行了驗證,使用兩個指標對模型性能評估:準確率和AUC值。其中準確率表示模型把平台分類正確的比例;AUC是模型對正負樣本區分程度的量化評估。準確率與AUC值越高,表示模型效果越好。可以看到,半年來,模型對平台判斷的準確率與AUC值呈上升趨勢,並且在最近的一個月(2016年4月)的評估中,準確率達0.85AUC值達0.9以上

為了更直觀地呈現模型效果,我們展示了OMNIRank模型對正常平台和問題平台的風險辨識。OMNIRank對一個平台評分越高,表示這個平台越可靠,風險越低。下圖是2016年4月對各個平台的評分分布,正常平台集中在1附近,問題平台集中在0附近,可見OMNIRank成功地將問題平台與正常平台區分開。

我們將OMNIRank與其他機器學習演算法,包括邏輯回歸(Logistic Regression)、隨機森林(Random Forest)、支持向量機(SVM)進行了對比,對比結果如下圖所示。我們發現,比起其他模型,OMNIRank可以更加顯著地區分正常平台和問題平台,它具有更強的能力識別出問題平台。因此OMNIRank對平颱風險的量化比傳統模型更加可靠。

OMNIRank是如何幫助投資者選擇投資平台的呢?我們每個月使用OMNIRank對平颱風險進行量化預測,並根據量化結果對平台排名,排名越靠前表示該平台下個月出現問題的概率越低。之後計算在不同排名區間的平台,在下個月實際出問題的比率。我們發現,半年來排名前100的平台沒有出現問題,這給投資者提供了一個安全的投資區域。另外,區間越大,平台的平均利率越高,但同時也伴隨著更高的風險。投資者可以根據自己的自身情況,平衡風險與收益,選擇最適合自己的平台。

數據可視化與交互

我們設計了數據可視化與交互展示產品。通過這一產品,投資者既可以對整個行業的有所了解,又可以對每個平台詳細研究,還可以進行不同平台之間多個維度的對比。此外,我們還專門為投資者設計了懶人選投功能,告訴我們您的需求,我們就會給您推薦合適的平台。更豐富的產品信息,請訪問我們的產品設計網站。

產品展示 :魔鏡杯 | 數據產品分析可視化平台

開源數據與代碼

我們會開放全部的工作,包括可視化代碼、OMNIRank模型代碼,清洗後的數據,供大家參考、驗證、改進,歡迎交流切磋。

關於我們

我們上海交通大學OMNILab的博士研究生,指導教師是金耀輝教授。

玩數據,我們是認真的~


推薦閱讀:

有禮有面有據 - 當紀錄片遇到數據可視化
Python語言基礎
R語言學習筆記之——數據處理神器data.table
剪刀石頭布的數據分析闖關之路——起跑線上的暢談
用Python進行基礎的數據分析

TAG:數據分析 | 數據可視化 | 互聯網金融 |