拍知心 最懂你的智能投資顧問

拍知心 最懂你的智能投資顧問

來自專欄 數據比賽那些事

第二屆拍拍貸魔鏡杯數據應用大賽於2017年4月10日啟動,決賽路演於9月2日在上海舉行。相較於去年,今年的題目更專註於實用性,對開發能力提出了更多更高的要求。比賽可以從以下三個參考方向來展開角逐,和去年的三個子賽題基本對應:

  • 投標類:開發一款投標工具,幫助投資人實現投資收益的優化,並自動高效地完成從選標到投標的全過程。可能包括部分策略開發等分析相關工作,更重要的是能夠調用投標介面完成投標功能;
  • 分析類: 基於拍拍貸平台的整體數據(類比上交所大盤)或投資者個人的投資歷史數據(經授權),運用數據科學技術進行分析或挖掘,為投資人提供有價值的信息、建議等個性化服務;
  • 創意類:不包含在前兩類內容中的有價值的產品或服務。創意類方向不設任何限制,基於現有的數據與資源,發揮創造力,做出一個讓自己滿意、也被市場認可的有價值的作品。

作品思路

既然要搞,就搞個大的。與其單獨做投標類、分析類或創意類中的一種,不如三者兼顧,做一個功能完善的系統出來。

作品的思路在初賽階段便已想好:通過知情知己兩個模塊,分別對平台數據和個人記錄進行分析和展示(分析類);通過知心模塊,使用多種方法和模型實現投標功能(投標類);最後再擴充下數據、開發個社區,做個功能性聊天機器人(創意類)。這樣一來,五臟俱全、要啥有啥、一套帶走,可以說做了整個生態。

但是後來才慢慢發現,這個思路,從一開始就是錯誤的

先介紹下比賽的評審機制,大賽分為初賽、複賽、決賽三輪,進入決賽的10支隊伍需要參加決賽路演答辯。比賽獎金共計10W美金,30%由大眾投資人投票決定,70%由決賽現場的專家評委決定。其實對投資人和評委而言,真正關心的,只是簡單好用的投標工具,其它可有可無的也許根本不在意。

而我在很多內容上消耗了時間和精力,其結果便是投標功能做得不夠完善、不夠全面,所以30%即3W美金的大眾投資人投票中,我只拿到了1000多一點,在決賽10支隊伍中排第八。而投標做得比較好的三支隊伍,分別拿到了1W3、4k、3k,因此在決賽開始前便取得了一個很高的起點,對於決賽專家評委的評審也會起到一定的引導作用。

畢竟這不是一個演算法比賽,工作量多、模型性能都不重要,投資人要看到的是選標策略對應的出標量、預期收益、逾期率等回溯指標,所以關鍵得做好投標功能、穩定運營、積累群眾基礎,才能在大眾評審部分拿到一個好的成績,在決賽答辯中獲取一個更高的起點。如果我能一開始便認清這一點,集中精力去做好投標功能,也許就可以取得更好的結果了。

諷刺的是,拿到1W3大眾評審票、一直讓人充滿期待的隊伍,在決賽現場的答辯內容卻十分單薄,他們用的方法,竟然只是人工構建了一棵決策樹,然後將每個葉節點的篩選條件作為一種選標策略。主講人的演講毫無波瀾,評委問起問題來也支支吾吾。儘管如此,他們最後還是拿了2W獎金、獲得了第一名,前期的群眾基礎起了很大的作用。

決賽答辯

決賽答辯設在上海的喜馬拉雅藝術中心大觀舞台,現場還是很高大上的。看到舞台兩邊的10個位子了嗎?對,就是給10個隊伍的隊長坐的……

這個隊長位子長這樣,讓人亞歷山大。

我在第四個答辯,還算順利,稿子背得很熟。

最後一共拿了10693刀,排第四,在決賽答辯中漲了9000多刀,算是10支隊伍中漲得比較多的了。

第一名是之前提到的那個隊伍,從1W3漲到2W,漲得還沒我多,主要是前期群眾基礎好;第二名是拍拍標師,他們隊伍有五個人,而且確實在這個比賽上花了大量時間和精力,他們的作品做得也十分優秀和完善,因此最終拿了一個額外的名譽大獎,雖然沒有獎金,但確實是對他們實力的認可。而我主要靠自己一個人,花的時間也不算多,拿到這樣的結果也算滿意了。

當然,還是有些遺憾,如果一開始專註做投標,說不定能取得更好的結果。

作品詳情

以下是答辯的PPT和演講內容。

大家好,我是DI團隊的張宏倫,作品名稱是,拍知心

拍拍貸的出現帶來了一系列變革,例如降低了借款人的借款門檻,提高了投資人的投資利潤

對投資人而言,最為重要的問題,便是如何進行選標。一般而言,選標的依據主要取決於標的特徵、借款人特徵、投資人特徵三大類因素

因此,我們工作的研究核心,便是如何在收益最大化、風險最小化的前提下,為投資人選擇最適合的標的

我們的系統架構如下:通過知情、知己兩個模塊,對平台標的數據和個人投資記錄進行全面的分析和展示;使用基於策略、基於學習、基於推薦三種方法,實現知心這一智能投資顧問模塊;在此基礎上,我們進行了多源異構數據擴充、開發了拍粉社區互動平台,並使用積累的數據和語料,搭建了拍知心這一垂直領域的智能聊天機器人,為投資人提供各方面的決策建議和輔助功能

首先讓我們概覽一下數據,比賽官方提供了LC、LP、LCIS三類數據,它們之間可以通過ListingId這一欄位進行對齊

我們通過知情實現平台概覽,從基本統計、分類統計、密度分布、認證分析、還款分析、指標對比六個角度對拍拍貸整體投資數據進行分析,輔助投資人全面綜合地了解平台概況

這是作品實現中的平台概覽頁面

我們通過知己實現個人中心,從資產概況、投資偏好、歷史統計、分類統計、期限分析、逾期分析六個角度對投資人歷史投資記錄進行分析,輔助投資人更好地了解個人投資行為

這是作品實現中的個人中心頁面

我們使用以下三種方法,實現知心這一智能投資顧問模塊。基於策略對應專家系統,主要使用人工經驗;基於學習對應機器學習,主要使用模型和演算法;基於推薦對應推薦系統,主要使用數據之間的關聯和相似。我們融合了多種方法,互相取長補短,從而實現更好的效果

基於策略是指使用預先設定好的投資策略對標的進行處理和篩選,對於可投標的,如果滿足啟用中的任意策略,則投資相應的金額。這裡我們設計了四項系統策略

當然,還可以設計更多的賠標策略和信用標策略,但在我們看來,無非都是使用更豐富的條件組合,以及更複雜的篩選規則。我們認為,基於策略的自動投標,拍精靈等現有工具已經做得足夠完善,所以我們希望把更多的精力放在,探索如何將機器學習和人工智慧應用到投資選標中來。除了快,我們還想做到准和個性化

因此,我們使用機器學習和深度學習等方法,在經過數據清洗、數據重塑、特徵工程等步驟處理後,實現了標的量化模型,ListingNet,從安全評分和逾期概率兩個角度來評估標的。這兩項任務的定義如下,都屬於有監督學習中的分類問題

ListingNet的模型結構中主要包含了三塊內容:邏輯回歸、隨機森林等基分類器,多個XGBoost模型集成學習,由全連接層組成的神經網路。同時,基分類器的輸出經過Stacking之後,作為二級特徵進一步輸入到XGBoost和神經網路中

我們對ListingNet的模型性能進行了評測,在安全評分和逾期概率兩項任務上,ListingNet的Accuracy和AUC都取得了最好的結果。我們使用以下公式來實現投資的個性化,其中前兩項分別表示標的安全評分和投資人是否追求逾期收益,後兩項用於表示投資人的利率偏好和期限偏好

除此之外,我們還基於推薦系統,使用基於內容的協同過濾和基於模型的協同過濾,通過計算標的相似度和用戶相似度,為投資人推薦感興趣的標的

完成了知情、知己、知心等工作之後,我們進行了數據擴充,從拍拍貸、網貸之家、今日頭條等網站上,獲取了聊天語料、問答數據、領域本體、知識圖譜等各種類型的數據,經過相關的NLP處理後,轉化成有用的數據資產

我們還開發了拍粉社區互動平台,集資訊、問答、分享等常用社交功能於一體,為投資人提供各方面服務的同時,進一步積累更多的用戶產生內容

在已有數據和語料的基礎上,我們實現了面向拍拍貸用戶的垂直領域聊天機器人,拍知心,為投資人提供直接的對話服務。拍知心主要使用了基於規則、基於檢索、基於學習三種方法來生成對話,這裡我們著重介紹一下基於學習的實現原理

基於學習,是指使用基於深度LSTM網路的自編碼器模型,將用戶輸入轉換成文本詞向量序列,學習到對應的隱層表示後,再轉換成輸出文本詞向量序列,從而可以得到任意輸入內容的對話輸出,即Sequence to Sequence Learning,屬於生成式學習模型,對話生成效果好,但對數據需求量大、訓練成本較高

我們將以上功能全部實現並部署到網站上,包括平台概覽、個人中心、投資顧問、拍粉社區四個頁面,可以通過以下鏈接訪問我們的網站(訪問網站需要拍拍貸授權,所以需要註冊拍拍貸賬號,不過註冊賬號之後,可能會有拍拍貸工作人員電話聯繫,詢問是否有借款或投資意向。所以如果只是想看一下產品展示,那麼看展示視頻即可),讓我們一起來看一段展示視頻

拍知心 最懂你的智能投資顧問_騰訊視頻 https://v.qq.com/x/cover/n0538boxfjx/n0538boxfjx.html

最後,對我們的作品進行一個總結。我們通過知情、知己、知心,分別為投資人提供平台概覽、個人中心、投資顧問三項功能,新的投資數據可用於更新相應的模塊。通過擴充數據和用戶數據實現拍知心聊天機器人,拍粉社區則不斷地積累新的用戶數據,從而形成數據閉環,共同打造一個智能投資數據生態系統

我們的團隊成員有兩位,都是上海交通大學的博士生

以上就是我們的作品內容,拍知心,最懂你的智能投資顧問,謝謝大家!

推薦閱讀:

如何用表單收集高價值數據?
『2016跨境消費趨勢報告(附下載)』今日數據行業日報
安客誠成為阿里數據銀行首批認證服務商 助力數據營銷新生態
今日數據行業日報(2017.6.16)
2019年Q1票房將達到283.1億 未來市場或屬於它們3類

TAG:數據分析 | 數據 | 金融 |