關於「人工智慧」在金融領域應用的思考

02-28

作為一個半科技半財務從業者，今天我想談談人工智慧應用在金融領域的一些現象，以及我的一些觀察。此處的人工智慧特指以機器學習和應用統計學為主的模型，只是人工智慧下的一個分支。

首先金融/經濟學本身是就是複雜的理論學科，在計量領域早已大量的使用了統計手段，而且越來越多的機器學習手段也被用於學術研究。但放眼到企業，和在短時間內，暫時很難有人工智慧大規模發揮的空間。在利潤率較高、數據結構化較好、問題定義明確的一些金融模型方面，機器學習會大行其道。人工智慧模型已經較為廣泛的被對沖基金所使用，如Simplex Equity的Self-learning 模型 [2]，在未經人工干預的前提下實現了在英國退歐時就拋售了日本期貨。這並不是孤例，彭博社去年的一篇文章就分析了AI對於Quant的衝擊 [3]。這就屬於我們所定義的利潤率高且有數據積累的領域，因此金融公司願意投入財力和人力進行開發。

同時，在金融領域使用數據挖掘的過程中，有很高的可能性發現系統性的規律或者違反現有規律的地方，從而反哺理論學科。因此金融公司在人工智慧研究中很可能發現/證實/證偽一些經濟學規律。隨著整個人工智慧生態環境的逐步進步，機器學習或是其他人工智慧手段，如自然語言處理，能夠更好的服務於金融/經濟學理論發展。

我認為用機器學習來為金融機構創造利潤，現階段面臨以下問題問題：

1. 機器學習模型的可解釋性低

舉個例子，機器學習在工業界最流行的模型就是邏輯回歸和決策樹，是因為這兩個模型的準確度/表現最好么？不是，因為這兩個模型具有可解釋性和可視化，這對於管理者/監管者來說太重要了。同樣，在經濟學領域模型的可解釋化也很重要，畢竟經驗科學很難被當做理論來證明。現階段的大部分機器學習模型都面臨效果不錯但很難解釋的問題。越來越多的論文在嘗試提高模型的可解釋性，比如 "Why Should I Trust You?": Explaining the Predictions of Any Classifier [1]，就嘗試證明了通過通用手段來證明機器學習模型的正確性。僅當這個領域繼續發展以後，我們才能更好的使其落地，讓使用者不必時時刻刻抱有懷疑。

金融公司往往要求極高的可解釋性，這點比其他行業要求更高。以我最近為某金融公司做的模型為例，客戶要求每一步決策都需要有對應解釋，因此大部分現有模型都不適合，難度很大。

2. 機器學習問題的定義難

現階段比較被業界廣泛應用的機器學習還是監督學習，而監督學習要求有明確的問題定義。而現在看起來很有希望的強化學習，遷移學習等還並不能大規模普及應用。

以簡單的監督學習為例，如果你想建立一個模型來預測企業併購是否會影響公司股價，那麼你需要提供大量併購數據，以及併購後股價是否發生了變動。理想情況下，在收集足夠多的併購消息和股價變動信息後，做自然語言分析後提取特徵放到機器學習模型裡面就大功告成了。

然而在實際情況中：我們無法給出明確的問題定義和邊界。如果想用機器學習來制定一個股票交易策略，那麼需要考慮進去多少因素？只考慮併購消息就夠了么？越多的相關因素越可以提高模型的擬合性和準確性。如宏觀政策和微觀的具體情況都會影響到股價的波動，漏掉其中一個都會造成一定的影響，往往是多多益善。在這種情況下，每個問題都需要大量人和數據來支撐，這也是為什麼大量用人工智慧來預測股票走勢的探索都無疾而終的原因。

現階段或者可預見的未來，在很多具體的問題上不大可能出現這種明確的定義和範圍。

3. 數據的結構化程度差

機器學習模需要結構化的數據，至少是電子數據。金融領域的大數據化，甚至是數據結構化都還有很長的路的要走。以審計為例，很多公司還有大量的票據都不能無紙化，更不要提AI能夠消化的電子數據了。前一陣子我司開發一個面試AI，但是並沒有原始數據可以直接使用。於是我們讓12個剛入職的員工花了一周時間把我們保留的面試視頻逐字逐句的轉譯到文字+特徵，整個過程苦不堪言。

即使相關結構化數據存在，往往也不在同一個地方，而整合數據也是非常昂貴的。很多企業有多個ERP系統，很難將相關數據高效整合，因此往往項目無疾而終或者面臨較長的數據收集周期。

4. 人才斷層與投機

人工智慧的火爆，或者說是近些年深度學習掀起的老樹開花，並沒有來得及為行業儲存大量的專業人才。不難看出，大量一流AI/ML人才還是被互聯網公司一網打盡，(Hinton在谷歌Lecun在FB)，而留給金融服務類公司的人才並不多。

同時，在很長的時間裡面，計算機和金融學之間的聯繫相對比較薄弱。讓一個計算機背景的人開發金融領域的數據模型，難度可想而知。作為一個計算機背景的從業者，我個人對於金融/經濟學的理解還處於比較膚淺的狀態，只理解基本的概念和原理。同樣的，金融服務類從業者又缺乏對於AI模型和統計的了解。因此使用AI來推動金融學發展需要大量跨領域的人才，至少需要兩個方向都懂的項目經理。

而在人才上的投資產出在現階段還不成正比，短時間內難以獲得收益。在這種情況下，每個問題都需要大量人和數據來支撐。因此研究探索型的、不能產生利潤的方向很少有公司來投資AI來進行研究的。換言之，有財力提供AI研究的金融公司不多，小型的金融機構或者學術機構又缺乏資源（資金，技術人才，數據積累）來進行相關係統的研究。

5. 總結

機器學習對於金融行業的改變可能還需要取決於跨領域人才量上升。一方面，計算機科學家從科技公司轉向金融公司，著手解決落地問題。另一方面，金融領域培養出了足夠多的能夠理解機器學習的從業者。在二者的結合下，我們對於更加智能且自動化的金融機器學習模型可以充滿期待。換個角度來看，金融從業者不該盲目轉行到科技領域從事數據工作，而應補足相關知識，讓人工智慧在金融領域更好的落地，從而帶來更大的價值。

[1] Ribeiro, M.T., Singh, S. and Guestrin, C., 2016, August. Why should i trust you?: Explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 1135-1144). ACM.

[2] https://www.bloomberg.com/news/articles/2016-08-21/hedge-fund-robot-outsmarts-human-master-as-ai-passes-brexit-test

[3] 人工智慧基金跑贏大市 - Focus On - 彭博商業周刊