海量數據與海量金錢：大數據在金融領域的作用

02-10

作者 | Jennifer Q. Trelewicz
譯者 | BrotherZhao
編輯 | Vincent
AI前線出品｜ ID：ai-front

AI 前線導語：

「本文要點：

在考慮大數據的 3V 特性——Volume、Velocity、Variety 時，很難有哪個行業的要求與金融領域指導方針如此完美貼合。

新的規範和彙報標準的持續流動為金融行業提供了新的數據源和更加複雜的維度，比如 XVA。

一些大型金融機構曾在採用大數據方面步履緩慢，但是普華永道的市場研究澄清了這些機構中的組織文化方面的阻礙因素，其中很多方面在其他行業也都存在。

市場交易模式的自適應模型可以為買賣特定類似資產的投資策略提供輸入。

儘管沒人能夠 100% 預測未來市場，歷史數據和當前市場參數的深度分析依舊提供了市場趨勢和市場行為的熟練模型」。

在說起高科技驅動的行業時，人們——至少有不少人——首先想到的肯定不是銀行業。然而，當我們考慮大數據的 3V 特性——Volume、Velocity 和 Variety——時，很難有其他行業能夠比金融行業更加貼近這些特性。例如，僅 2016 年 4 月一個月，外匯（ForEX）市場每天平均交易額為 1.5 萬億美元。外匯市場提供了世界各國貨幣之間的實時匯率，促進了全球貿易和結算。

在本文中，作者會討論大數據方法與金融行業的相關性，描繪出金融行業採用大數據面臨的挑戰和科技發展的未來機會。儘管很多應用領域都與消費金融相關，由於金融行業的交易體量和資金體量的緣故，本文集中在企業銀行方面（金融市場、企業信貸、交易等）。

金融行業大數據

我們先檢驗一下大數據的 3V 特性與金融的關聯：

Volume：TB 甚至 PB 的數據才被認為達到大數據級別。金融行業產生了大量的報價、市場數據和歷史交易數據。單是紐交所一天就會寫入超過 1 TB 的數據。
Velocity：數據存儲或者處理速度達到每秒 100000 次以上才認為符合大數據標準。對於金融市場而言，如此高速的產生數據不算什麼難事。而且，系統處理交易數據的速度越快，他們交易的速度就越快。
Variety：這要求大數據演算法能夠處理不同的數據格式和數據源。在企業銀行中，機構要同時處理參考數據（比如法人實體）、交易和市場數據、客戶要求（通過電子或者聲音的形式提出）以及其他很多數據源。

從大數據的視角來看，金融行業更有意思的地方在於，新的規範和彙報標準形成的持續流動為金融系統提供了新的數據源和更加複雜的維度。

這使得金融行業成為數據科學家施展拳腳的地方。

除去周末的短暫時間窗口，前文提到的外匯市場全天 24 小時交易，從澳大利亞悉尼的早晨到美國紐約的夜晚。另外，演算法交易已經在金融市場以各種形式存在了很長時間。紐交所在 20 世紀 70 年代初期引入了其指定的訂單周轉 (DOT) 系統，用於將訂單周轉到交易操作台，此前這些都是手動執行的。現在，演算法交易系統將很大的訂單拆分為較小的訂單，並基於時間、價格和體量自動執行交易，市場參數得以優化。

在連續的基礎上，大量數據的處理被用於金融機構的報告。

銀行和金融市場規範越來越頻繁地要求計算複雜的度量指標，如 XVA（基於交易對手信用風險、融資成本、保證金等對衍生工具的估值調整）。這些指標被用於設定銀行的最低資金保留額度，而後者直接影響銀行利潤率。
分析時序交易數據，對市場和用戶行為建模。例如，繪製交易量隨時間的變化圖有助於預測信用違約的可能性，為銀行節省貸款資源。

一些大型金融機構在採用大數據方面步履緩慢，但是普華永道的市場研究澄清了這些機構中的組織文化方面的阻礙因素，其中很多方面在其他行業也都是相關的。首先，一些金融行業管理者認為，大數據只能解決技術問題而不能解決業務問題。然而，數據是由業務產生的、數據結果用在業務上，很明顯技術是支持業務的。一些人不理解如何從數據流中獲得價值，而另一些覺得大數據方法可以提升技術效率但是對於盈虧底線用處不大。然而，大數據方法可以提供的深度分析能夠直接支持業務增長並提升效率。金融行業從來不是數據科學家的心之所往，所以一些金融機構在為自身尋找和吸引技能型人才方面困難重重。最終，即使是金融機構具備變革意願，但他們並不清楚要讓企業轉型利用大數據方法應該如何開始、從何處開始。

然而，根據最近 IDC 的研究，銀行業位於行業投資大數據研究排行榜前列，如圖 1 所示。並且，金融科技公司，或者 FinTech 公司，正在為銀行在資產和財富管理方面的大量需求開發解決方案和產品；圖 2 給出了基於普華永道報告 [6] 的各領域 FinTech 公司的比例。追隨這一趨勢，圍繞著金融數據提高業務效率的其他應用，研究和演算法也有很大進展。我們接下來重點介紹其中幾個。

圖 1. 2016 年大數據分析市場（1310 億美元）(Original data from IDC5)

圖 2. 不同領域 FinTech 公司的大致比例 (Original data from PwC6)

市場交易模式

市場交易模式的自適應模型可以為買賣特定類似資產的投資策略提供輸入。本節展示一個例子。

除息日（也稱為 X-Day）是存托憑證（DR）的賣方有權獲得最後一次派息的第一個交易日。在除息日之前，DR 的買方將獲得分紅。美國 DRs（即 ADRs）是由非美國公司在美國市場交易的金融工具。因此，股息存在雙重徵稅負擔：美國的稅收和發行 ADR 的國家的扣繳稅款。其結果是，投資者有動力在除息日之前賣出 ADRs，並在除息日之後買入。當然，稅收政策對 ADR 市場的穩定性有很大的影響。

在最近的研究中，Bi-Huei Tsai 對 ADR 市場進行了測驗以了解市場交易量 [7]。此類演算法對此類市場進行的分析可以基於最近市場交易量提供最優交易時間。作者分析了在派息日期間（派息日前後 10 天）的 ADR 交易量（每日交易量減去每日「正常」交易量）的超額比率，結果與派息稅率正相關，為稅收政策對 ADR 市場的影響提供了模型。交易者和政府稅收當局都可以利用這一模型制定策略。

實時信用評級

這個應用並非金融行業獨有，但與服務消費者和中小企業的銀行有關，那就是實時處理數據以進行信用評級。例如，Klarna、Lenddo 和 Credit Karma 這樣的 FinTech 公司都提供有關在線信用評級和認證的服務。在最近的工作中，王瑩、李思明和林張希（音譯）研究了電商的實時信用評級。

任何申請一大筆錢的人都會很熟悉處理流程。傳統上，銀行從申請表和其他渠道收集申請者的信息。專家分析這些信息並提出此客戶的信用建議，其中包含了利率和償還條款。申請者和銀行可能會有協商，可能為了整體而在不同貸款參數做妥協。簽訂貸款合同之後，客戶可以利用這筆錢並在未來償還貸款。

不僅是數據收集和條款協商浪費時間，而且有兩個因素使得一切更加複雜。首先，很多用於信用評級的數據中心是按月更新的，所以銀行可能無法從這些來源得知客戶最近的財政問題。而且，非金融因素有可能增加違約風險。作者研究了幾個與大型電商平台有關的因素：登錄平台頻率、附加合同信息（包含手機號碼）的提供、上月交易量、整體成功交易數量、成為平台客戶的時長、客戶的業務領域等。基於這些參數，作者對歷史數據進行線性回歸分析，得到了違約概率和不同參數的關係。結果是可以幫助電商平台基於用戶在線行為進行信用評級的模型。傳統的中心化信用評級資料庫中甚至都沒有這些參數。

銀行業更加高科技

前述兩個例子絕沒有對金融領域的大數據演算法應用做出限制。儘管沒人能夠 100% 預測未來市場，歷史數據和當前市場參數的深度分析依舊提供了全面、自適應的市場趨勢和市場行為模型。反過來，這些模型促進了交易人員、金融機構和其他玩家做出全面和快速的決策。

IT 精英的機會在於，為快速增長的行業開發新的技術和解決方案。從 2014 年到 2015 年，FinTech 融資增加了不止一倍，預示著這一行業的機會和行業對於產品及解決方案的需求。圖 2 的大致分類為產品、流程和客戶體驗方面的創新留下了巨大的空間。想到高科技驅動的行業時，首先想起的是金融行業，這樣的日子可能不遠了。

關於作者

Jennifer Q. Trelewicz 是德意志銀行技術中心的技術風險官和負責風險技術的 CTO。她感興趣的研究領域包括大數據、高性能數值演算法和創新管理。Trelewicz 曾在業界領先的科技公司如 IBM、微軟和谷歌工作，在不同國家擁有多項授權專利，在不同的國際雜誌和參考刊物上發表過文章，也在主動志願支持 IEEE。她擁有亞利桑那州立大學的信號處理博士學位，還是國際榮譽協會 Tau Beta Pi 和 Phi Kappa Phi 的終身會員。可以通過郵箱 jentre@ieee.org 聯繫她。

閱讀英文原文

https://www.infoq.com/articles/big-data-in-finance

－全文完－

關注人工智慧的落地實踐，與企業一起探尋 AI 的邊界，AICon 全球人工智慧技術大會火熱售票中，8 折倒計時一周搶票，詳情點擊：

http://t.cn/Rl2MftP

《深入淺出TensorFlow》迷你書現已發布，關注公眾號「AI前線」，ID：ai-front，回復關鍵字：TF，獲取下載鏈接！