聊一聊機器學習在金融中的應用

金融從業者少不了和數據打交道,因此天生希望能有工具幫助他們自動化數據處理的過程。這篇文章將從工程的角度,全面的梳理機器學習,尤其是深度學習應用在金融領域的機遇和挑戰,通過展示在不同的應用場景下,當前的技術能夠做些什麼,幫助從業者系統化的了解AI+金融這個熱點領域。

如何拆解AI+金融這個話題,從數據來源看,可以分為結構化與非結構化,後者主要指自然語言處理,從應用場景看,可以分為徵信評級和行情預測 ,從模型來看,用的最多的是預測和回歸,而其中最有挑戰的是自動化交易中的強化學習,從數據處理流來看 預處理和模型構建過程中都能用到機器學習的方法。

讓我們一個個來看,首先是自然語言處理和AI會有哪些結合了,這裡又可以分成五類,第一類是用於客戶服務的聊天機器人,當然聊天機器人也可以用來向顧客進行產品推薦;第二類是通過對社交媒體中的內容進行情感分析來預測市場行情的;第三類則是通過生成模型,自動提取例如上市公司的財報等公開數據中的關鍵信息,例如文因互聯這家創業公司開發的產品。第四類則是通過知識圖譜做用戶畫像,給不同的用戶打上對應的標籤,從而優化產品策略和個性化推廣方案的設計;第五個應用場景是在數據的預處理階段,通過深度學習將自然語言轉換成向量,從而消除句子間的歧義,並在指代同一個事物的不同語句見建立聯繫,從而方便多維度數據的組合。

相比於無拘無束的非結構數據,結構化數據就是一張紙的表,而這也是傳統的金融行業最經常處理的數據。每個人在一張表上是一條記錄,而大數據則是讓同一個人出現在不同的表上,再結合多張表上的弱信號,去預測這個人未來的行為。大數據不是指數據量有多大,而是指結合之前無法被有效利用的邊角數據的一整套方法。對於金融行業來說,最經常做的就是借與貸。而為了控制風險,就需要徵信模型了。

徵信模型可以看成是一顆決策樹,要判斷那些人有借有還。而樹模型也是徵信中常用的一種模型。相比與其他領域的應用,金融領域的每一次錯誤預測都需要付出真金白銀的代價,因此需要模型具有絕對的高可用性,這意味著模型不僅不能花費太多的時間,也不能因為用戶人數的增加就使用簡化而效果稍差的模型(模型的運行時間穩定),模型還需要對極端案例的判別也不能有系統性的誤差。另外,由於可以徵信模型可以使用的數據有很多來源,例如信用卡消費數據,社交網路上的連接關係,甚至包括在閱讀類APP留下的閱讀記錄,徵信模型需要能靈活的引入新的特徵,而不必每次都從頭開始。

正是由於如上的幾個原因,深度學習在徵信模型中還沒有得到廣泛的應用。深度學習訓練出的模型相對來說是一個黑箱,人們難以理解模型為何做決策,而且深度學習的模型容易被惡意的攻破,而徵信模型除了要對普通人進行信用打分,還需要應對欺詐風險和模型使用者的誤操作風險。而例如隨機森林 XGBoost這樣的樹模型,以及多重線性回歸這樣的傳統方法,則能相對較好的滿足上述的需求。

徵信模型不止是打一個分這樣的分類問題,還包括授予TA多少信用額度這樣的回歸問題。而在借與貸的另一個鏈條上,則涉及如何向顧客推薦理財產品,以提高轉化率和客戶滿意度,這同樣是一個分類問題,可用類似的方法解決。而在保險,企業貸等領域的應用,也可以算成是徵信問題的變種。

接下來我們看看深度學習在金融市場中的應用,這裡包括毫秒級進行自動化交易的高頻交易演算法和在更大的時間尺度上來預測市場未來的行情,例如neural finance(github.com/Metnew/neura)。這方面學術界有很多探索,用到的既包括常用的處理時間序列的模型,例如RNN(點擊查看介紹文章)LSTM,還包括非監督學習中的自編碼器。

一個常見的工具包是bulbea,這個開源的python包不僅集成了股票市場的預測模型,還包括對模型效果的可視化工具。模型基於各股票的歷史數據,計算股票未來的走勢,模型使用起來很簡單,還可以通過可視化展示模型的效果,下圖展示了模型預測的誤差是很低的。bulbea還集成了相應的API,可以對twiter中的句子進行情感分析,用社交媒體在的信息來指導交易。

接下來介紹liquidity.ai(github.com/BenjiKCF/Neu),一個基於tensorflow的開源的工具,集成了訓練數據,數據預處理及LSTM模型。該模型會根據當前的行情,實時的給出對每個資產,是應該買入賣出還是持有的概率。這類的模型在真實世界中,看重的不是其預測的有多準確,而是交易員該如何綜合的使用該模型給出的概率,以及其他的機器學習模型給出的預測,最終這個結合了諸多機器和人類智能的系統究竟能否賺錢。

總結一下,這篇小文介紹了機器學習在金融中的應用,部分例如反欺詐及數據安全方面的應用,這裡沒有介紹到,但也是一個有潛力的反向,而學界研究最熱的,還是將強化學習的模式用在金融中,只是這方面的成果還無法走入工業界。另外需要提醒的是,深度學習不是萬能葯,在市場預測上,深度學習模型的表現不一定總會好於傳統的方法,而且深度學習所需的時間資源和計算資源都遠超傳統方法,因此是一項高投入但高潛力的嘗試。

推薦閱讀:

政策回暖,市場活躍,提高有效倉位
想從事量化方面的工作還有必要考CPA嗎?
上海租售比達到 900 時,年收益率百分之一點多、75 年才能回本,還要不要買房?
趙豐軒:4.27黃金還會繼續跌嗎?後市行情走勢一覽

TAG:機器學習 | 金融 |