標籤:

淺談機器學習在投資銀行交易業務中的應用 - 異常交易識別

最近金融時報一篇關於人工智慧在銀行業應用現狀的文章中[1],提到了筆者現在工作的銀行:北歐聯合銀行(Nordea)。正如文中提到的那樣,在很多歐美金融界同仁的眼中,北歐聯合銀行是運用IT技術和數據處理能力最先進的銀行之一,但金融時報發現北歐聯合銀行只有二十五名員工全職進行人工智慧方面的工作,與之相對應,很多歐洲銀行報告說有僱傭了五百名以上的員工進行這方面的工作。

其實這裡有個常見的誤區,就是並不是只有職位title上帶有人工智慧名號的員工才從事於人工智慧以及深度學習相關的工作。起碼在筆者我現在工作的北歐銀行,我認識的在研究如何使用深度學習和人工智慧來幫助業務決策,提高流程效率的同事就遠遠超過二十五個人。

我借用此文簡單介紹一個筆者最近在行內主導開發並上線的機器學習項目,整個項目中所有的參與人員皆不是人工智慧領域的專家(包括我在內),之前也很少有人參與過人工智慧相關的項目研究和開發。

業務場景

這個機器學習項目的業務場景是對前台場外衍生品交易的交易價格進行驗證,這在很多銀行里也被稱為Trading Surveillance。具體來說,這個業務場景做的事情是當前台交易員完成一筆交易後,中台的控制人員將這筆交易的交易價格與市場基準價格進行比對,然後來決定這個交易價格是否是異常交易(交易價格顯著偏離市場價格)。如果是異常交易的話,中台控制人員需要將這筆交易提交給交易台主管進行確認並解釋。

自從歐美銀行業所謂流氓交易員事件頻出後,此類流程在各大銀行都得到了實施,並且也是監管機構重點關注的金融業務內控領域。此類控制的複雜性在於,是否一筆交易屬於異常交易是一個很依靠經驗的判斷。實務中,很多因素都會影響一筆交易是否需要被判別為異常交易,比如說:市場的流動性,交易時間,產品結構等等等。

下文我用兩個非常簡單的實務裡面的例子來解釋為什麼這樣的判別很複雜。

上圖是一個實務里的例子(數據經過脫敏處理),紅色是市場上成交每筆交易的實時數據(剔除掉了我行自己的那筆),藍色是交易員成交的價格。這筆交易在實務中被判斷為無異常,原因是在交易成交後,市場價格也跟著我行交易的價格出現了下跌,這說明交易員的交易價格具有前瞻性,是一筆合理交易。

與之相對的,下圖中的交易在實務中被判斷為一筆異常交易,原因是交易價格與市場走勢背離。

需要說明的是,上文的這兩個例子來自於實際業務,但問題進行了大幅簡化。在實際的業務流程中,控制人員不止參考實時價格這一個指標,而同時需要參考上百個指標。

流程痛點

像北歐聯合銀行這樣的在金融市場上極為活躍的全球系統性重要銀行,每日結算的交易成千上萬,靠控制人員手工每筆進行控制在成本上極為不划算的,並且也會帶來很多人工的錯誤(比如不同控制人員對同一筆交易給出不同的判斷)。尤其是這個流程需要控制人員擁有極為豐富的交易和市場經驗,很多控制人員都是銀行的前任交易員,將這些員工安排在這樣一個費時費力重複的工作上,不僅是對人力資源極大的浪費,也不利於銀行留住這些員工。

所以從去年開始,筆者受管理層委託,開始著力研究如果通過新技術,新方法來自動化這一流程。

解決方案

看到這個問題後,我的第一反應就是這是一個完美的監督學習案例。在銀行的資料庫里,有上千萬條異常記錄判斷的數據完整記錄,我們可以使用這些數據來培訓並擬合一個深度神經網路,然後用這樣一個培訓好的深度神經網路來對交易控制進行預測。

我們最終實施的一個深度神經網路,每筆交易和與這筆交易相關的各類實時價格數據被當成一個樣本,而最終這個模型的輸出是一個布爾型的變數,即這筆交易是否為異常交易。

同時,我們把這個模型契合到現有的業務流程當中去,每天當新交易達成時,深度神經網路首先對這筆交易是否異常進行預測,然後預測結果由有經驗的控制人員進行審核,控制人員最終決定是否採納機器的建議。而所有的最終結果都會保存在這個深度神經網路的培訓樣本庫中,在下次模型重新校準時(現有模型每兩小時重新校準一次)納入培訓樣本。

項目經過

該項目從去年十二月份開始立項,項目團隊花了三個月的時間對模型所需要的數據和指標進行梳理。今年二月份開始模型正式開始校準,基於過去五年歷史數據的模型準確率接近95%(培訓樣本和測試樣本皆接近這一準確率,說明無過度擬合問題)。三月份開始模型正式上線,輔助控制人員進行決策。

上線之後,我們也每天記錄控制人員對模型預測結果的否決比例。在模型剛上線的幾天,這一指標超過10%,但是隨著否決的記錄不斷被這一模型納入培訓和重新校準範圍,這一否決比例呈下降趨勢。在本文寫作之日(四月中旬),否決比例已經低於3%。

項目難點

回顧整個項目,項目最大的難點在於如何說服業務接受深度學習網路這一概念。現在回想起來,業務部門主要的顧慮是受到了媒體和電視對人工智慧報道的誤導,認為人工智慧上線後將會取代整個團隊的工作。但這並不是真的,我們只是使用一些深度學習技術來幫助自動化這一業務流程,從而讓這個部門裡面的員工有更多的時間花在更有意義的事情上。

另外項目的一個難點是如何定義合理的問題,使得深度學習模型能夠最大的發揮用處。這一方面我們很大程度上借鑒了業務部門的經驗,經過反覆的業務訪談和業務流程梳理,最終發現這一流程的核心問題可以被簡化成一個布爾型問題,這一簡化大大加速了模型的開發和上線流程。

原來我們預估的難點模型實施反而進行的異常順利,開源的機器學習庫如keras和tensorflow使得我們非常容易的進行核心模型的開發,銀行的技術平台已經提供了Hadoop的集成支持以及GPU運算資源,原本我還預計需要招一個數據科學家,但最終由於模型開發異常順利,我們擱置了這一計劃。

而使得項目進行的非常順利的另外一個原因是整個項目是內部從工作層面推動的。我想這很大程度上需要感謝北歐企業開放寬容平等的企業文化,幾個不同團隊的工程師和技術人員如果能組成一個團隊提出一個可行的想法,非常容易可以獲得高層的支持並且獲得經費預算。在這樣開放的氛圍下,才能將這樣一個項目如此快速順利推動下去。我想如果這個項目一開始不是從內部推動而是一個外部諮詢公司在推動,那進展可能不會如此順利。

這也是筆者第一個真正意義上的深度學習項目,通過這個項目,我認為以深度學習和機器學習為代表的這波新技術在金融行業有非常大的發展潛力。很多關於這些技術在金融行業的應用都集中在了智能客服,生物特徵識別等領域。很少見到討論這些技術如何應用在量化金融已經大行其道幾十年的投資銀行領域的,但我感覺似乎我們正處在一個變革到來的前夜。

如果有朋友感興趣技術細節和項目具體實施過程,歡迎私信騷擾。

[1] Subscribe to read (金融時報關於人工智慧的文章,可能需要付費閱讀)


推薦閱讀:

九卦| 銀行網金2018展望:忘掉銀行身份,猛烈謙卑走出去
風控手札(二):互聯網金融的「場景」到底是什麼?
首邑上城 北京法拍房2.5萬/平米在售 可墊資 可貸款
越南銀行業當中手握大權的石榴裙影
如何評價信用卡手續費分期?

TAG:銀行 |