拍拍貸魔鏡杯數據產品大賽金獎

1 項目背景

拍拍貸是我國知名的P2P平台,以極其前瞻的視角舉辦了魔鏡杯金融數據應用大賽,共設風控演算法大賽、數據產品開發大賽、金融產品創新大賽三個子賽題。我參加的是數據產品開發大賽,在經過了將近兩個月的奮鬥之後,拿到了數據產品開發大賽的金獎,以及三個賽題各自的金獎中再次篩選出的風雲大獎。數據產品開發大賽的比賽背景如下:

P2P網貸平台在2007年乘著互聯網浪潮引入國內,2013年開始蓬勃發展,平台數量和交易金額紛紛大幅增長,與此同時出現了越來越多的問題平台、跑路平台。面對變幻莫測、層出不窮的P2P平台和產品,用戶們都在困惑:到底哪些P2P平台比較靠譜?各個平台差別在哪裡?哪個平台的資金安全最有保障?如何快速選擇適合自己的P2P產品?

設計一款數據輿情產品,對P2P相關主題的媒體新聞、用戶評論、國家政策等文本數據進行抓取、清洗、整理、分析和展示,反映出P2P產業的整體熱度、行業事件,以及各家P2P企業的相關報道、重點事件、用戶口碑,並對數據輿情產品提供在線訪問服務,幫助千萬互聯網P2P用戶做出明智的投融資決策。

比賽的評分維度包括以下七點:

  1. 數據源的選擇

  2. 爬蟲方法與工具應用

  3. 數據清洗方法

  4. 文本分析與數據分析

  5. 可視化展現

  6. 數據產品交互

  7. 產品使用價值

2 項目實施

根據以上背景和需求,考慮到現有P2P平台中問題平台佔了將近四成,我將比賽工作聚焦在如何進行客觀精確的平颱風險量化這一核心問題上。主要的工作包括以下六部分:

  1. 選取了客觀的新聞報道、主觀的民意評論、專業的網貸社區和各大平台的官方網站作為數據源;

  2. 開發和部署了一套爬蟲框架,集成Redis和Hadoop,具有大規模分散式計算和靈活可擴展的特點;

  3. 對獲取的數據進行了數據去重、空值處理、數據去噪、格式統一、對齊融合等清洗;

  4. 進行了文本理解、主題模型、知識圖譜、情感分析等一系列分析;

  5. 提出了基於多維特徵和深度學習的平颱風險量化模型OMNIRank;

  6. 根據OMNIRank排名結果,對優秀的P2P平台進行了極其豐富的可視化和交互探索。

3 成果展示

最終路演是在5月15號,拍拍貸租了個挺大的場子,這也是我人生中第一次在那麼大的場合進行公開演講,心裡的緊張自然不用多說。

講了大概十分鐘,賽前已經練習過無數次,所以也算正常發揮,講出了預期的水平。最後也迎來了圓滿的結局,數據產品開發大賽的金獎+魔鏡杯的風雲大獎,曬兩張照片(正中間那個就是我啦)。

決賽路演的ppt請參考我的另一篇文章:P2P深度透視 OMNIRank 平颱風險量化。裡面對我的工作有十分詳細的闡述,因此在這就不重複敘述了。最後的結論是,半年以來根據OMNIRank評分所得的排名結果,前100名中沒有出現任何問題平台,說明OMNIRank確實篩選出了一個高度安全的投資區間。

在線產品的鏈接在這裡,內容極其豐富,不妨一試,來個首頁截圖。

本著開源的初心,我把可視化代碼開源在這裡,把大部分所使用的原始數據放在這裡。

4 後記

經過了EMC智慧校園、SODA、拍拍貸魔鏡杯三個比賽,感覺個人各方面能力都得到了極大的提升。中國P2P行業的發展仍面臨著諸多問題和挑戰,任重而道遠,開源的初衷是希望和大家一起進步,和大家一起構建一個和諧、安全、透明的P2P投資環境。


推薦閱讀:

Kaggle數據分析:什麼專業最有錢景?
銷售運營管理業務應用案例--如何應用Excel創建會講故事的銷售漏斗分析儀
當excel不夠用時,如何利用Access進行數據分析?
一張象棋圖看懂鹿豹座平台的業務內容
職位速遞:知名互聯網金融公司高級數據分析工程師(年薪30~50W)

TAG:數據分析 | 數據可視化 | 互聯網金融 |