FSB兩萬五千字長報告：監管者眼中的AI+金融全景圖（內附報告）

02-05

這裡有一份深度報告，詳述人工智慧和機器學習在金融業的應用方向、對金融穩定性帶來的潛在益處和監管風險。（關注微信公眾號「機器之能」並回復「FSB」獲取精編版中文報告）

編譯 | 邱陸陸

來源 | FSB

如今，金融服務行業對於人工智慧 (AI) 和機器學習的應用進展迅速。主要原因在於，後者在金融部門數據和基礎設施可得性等方面的技術優勢，很好地滿足了金融服務業在提高利潤、市場競爭及金融監管要求等方面的需求。可以看到，目前，大量應用方向主要集中在：

-金融機構和銷售商正在使用人工智慧和機器學習方法來評估信用質量、為保險合約定價並進行營銷、自動化客戶交流過程。 -機構正在利用人工智慧和機器學習技術優化稀缺資本的分配、調整回溯測試模型，並分析大額交易的市場影響。 -對沖基金、券商和其他公司正在使用人工智慧和機器學習來尋找高收益（且沒有相關性），並優化交易執行。 -公共部門和私營機構都可以使用這些技術進行合規監管、監察、數據質量評估和欺詐檢測。

儘管新技術的使用處於早期階段，對於整個行業的影響還無明確數據可考，但隨著兩者融合的不斷加深，會給金融穩定性帶來的潛在益處和監管風險，仍然值得關注。

我們從 FSB (Financial Stability Board，金融穩定理事會) 一份長達兩萬五千字的報告中，選取了部分內容，詳述人工智慧和機器學習在金融業的應用方向及值得關注的潛在問題。

報告結構如下。第 1 部分中，定義了報告的核心概念，並給出了人工智慧和機器學習在金融應用方面取得發展的一些背景。第 2 部分描述了推動這些技術在金融服務中的應用的供求因素。第 3 部分描述了四類用例：（1）以客戶為中心的應用;（2）以運營為中心的應用;（3）交易和資管;和（4）合規和監督。第 4 部分是這類應用對金融市場、金融機構和消費者產生影響的微觀分析。第 5 部分是這類應用對金融體系產生影響的宏觀分析。最後，第 6 部分評估了應用對金融穩定性的整體影響。

本文為第一部分，主要涉及到核心概念、背景與驅動力：

1. 核心概念與背景

計算機科學和統計學的研究人員已經開發出先進的技術來從大量不同的數據集中獲得見解。數據可能有不同類型、來自不同來源、擁有不同質量（結構化和非結構化數據）。這些技術利用計算機從經驗中學習，並具有執行圖像識別或自然語言處理任務的能力。應用計算工具解決傳統上需要人類智能的任務被廣泛地稱為「人工智慧」（AI）。作為一個領域，人工智慧已經存在了很多年。然而，近年計算能力的提高，加上數據的可用性和數量的上升，讓人們重拾對人工智慧的興趣。已有人工智慧應用被用於診斷疾病、翻譯語言和駕駛汽車;也有越來越多的應用被用於金融領域。

描述這個領域需要很多術語，所以在繼續之前我們需要進行一些定義。「大數據」是一個沒有單一、一致定義的術語，但是被廣泛地用來描述使用各種技術對大型複雜數據集進行存儲和分析的行為。這種對大型複雜數據集的分析通常被稱為「大數據分析」。體現大數據分析複雜性的一個關鍵特徵是，數據集中包含大量非結構化或半結構化數據。

本報告將「人工智慧」定義為能夠執行傳統上需要人類智能的任務的計算機系統理論與發展。人工智慧是一個廣泛的領域，其中「機器學習」是它的一個子類別。機器學習可以被定義為通過設計一系列行動（演算法）來解決問題的方法。演算法根據經驗自動優化，此過程無需人工干預或只需要有限的干預。這些技術可以用來從來源日益多樣化的大規模數據中找出模式。圖 1 給出了一個概述。

許多機器學習工具基於大多數研究人員熟悉的統計方法。這類方法包括通過擴展線性回歸模型來處理數百萬規模的輸入，或使用統計技術來概括大數據集以便於可視化。然而，機器學習框架本質上更加靈活。能夠被機器學習演算法檢測的模式不拘於線性關係（這通常是經濟和財務分析的主旋律）。一般來說，機器學習旨在（自動）優化、預測和分類，而不是進行因果推斷。換言之，預測公司債券到底是投資級還是高收益級，可以用機器學習來完成，而確定哪些因素導致債券收益率水平變化可能就不會使用機器學習來完成了。

機器學習演算法有多個類別，分類標準是數據標註過程中人工干預的程度：

?在「監督學習」中，演算法得到一組「訓練」數據，數據中包含某些標籤。例如，一組交易數據可能包含欺詐性/非欺詐性標籤。該演算法將「學習」一種通用的分類法則，用於將餘下的不在訓練集中的數據分類為欺詐性/非欺詐性。

?「無監督學習」是指提供給演算法的數據不包含標籤的情況。該演算法通過識別簇（clusters）的方式尋找規律。簇指的是將數據按照其內在的特徵進行的分堆。例如，可以建立一個無監督機器學習演算法來尋找某一流動性很差的、難以定價的證券的類似證券，然後簇中其他證券的定價就可以用來幫助對這個流動性很差的證券進行定價。

?「強化學習」處於有監督學習和無監督學習之間。在這種情況下，演算法會得到一組無標記數據，為每個數據點選擇一個動作，並接收到幫助演算法學習的反饋（可能來自人類）。例如，強化學習可以用於機器人控制、博弈論和自動駕駛。

?「深度學習」是機器學習的一種形式，它使用由大腦的結構和功能所啟發的，通過「層」的方式工作演算法進行學習。深度學習演算法，其結構被稱為人工神經網路，可用於有監督、無監督或強化學習。

近年來，深度學習在圖像識別，自然語言處理（NLP）等多個領域取得了顯著成果。深度學習演算法能夠發現可泛化的概念，如，從一系列圖像中編碼出「汽車」的概念。投資者可能會部署一種能夠識別汽車的演算法，從衛星圖像中計算出賣場停車場中的汽車數量，以便推算某個特定時間範疇內大概的銷售數字。自然語言處理允許計算機「閱讀」並生成書面文本，或者，在與語音識別相結合時，能夠閱讀並生成口語。這使得公司能夠自動化以前需要人工干預的金融服務功能。

機器學習可以用於解決不同類型的問題，如分類或回歸分析。分類演算法，即將觀察得到的樣本分為有限個類別的演算法，在實踐中有極為頻繁的應用。分類演算法是基於概率的，意味著演算法會將一個數據點歸類到「數據點屬於此類別的概率」最高的那一類中。舉個例子，演算法可以自動閱讀賣方報告，並標記其態度有多大概率是「看漲」或「看跌」。或者，演算法也可以估計某未獲評級的公司的初始信用評級。相比之下，回歸演算法對一個問題的估計可能有無限種答案（連續的可能解集）。這個答案可能會和置信區間一起出現。（譯者註：比如說，有 95% 的概率，該債券下個月此時的價格在 100 元到 105 元之間。）回歸演算法可用於期權的定價。回歸演算法也可以用作分類演算法的一個中間步驟。

比了解機器學習能做什麼更重要的是要明白機器學習不能做什麼，比如確定因果關係。一般而言，機器學習演算法被用於識別與其他事件或模式相關的模式。機器學習識別的僅僅是相關性，只不過其中相關性一些是人無法捕捉到的而已。然而，經濟學家和其他人正越來越多地使用人工智慧和機器學習應用，結合其他工具與領域專業知識，協助理解複雜的關係。

許多機器學習技術並不新。事實上，神經網路這個深度學習的基本概念最初是在 20 世紀 60 年代發展起來的。然而，在最初的一陣熱潮之後，機器學習和人工智慧沒有實現他們曾經的願景，在十幾年後耗盡了領域內聚集的資金。造成這種結果的部分原因是計算能力以及數據的匱乏。在 20 世紀 80 年代，人們重燃對這個領域的興趣，並提供了大量資金支持，在這個階段，許多對於之後的突破至關重要的概念被開發出來。

到了 2011 年和 2012 年，隨著現代計算機計算能力的巨大增長，機器學習演算法，尤其是深度學習演算法，開始持續在圖像、文本和語音識別競賽中獲勝。注意到這一趨勢後，主流科技公司開始收購深度學習初創企業，並迅速加速深度學習研究。同樣創新高的是對於大規模數據的收集行為，例如，現在你能夠獲得精確到單筆交易的銀行全部信用卡交易數據，或者獲得互聯網上出現的每一個字，乃至用戶訪問網站時滑鼠懸停的軌跡。其他領域的進步也對機器學習有所幫助，例如在雲計算架構下，信息技術資源的互聯性顯著增強，使得大數據可以得到有效組織和分析。而隨著對這種大規模、高複雜度數據集的出現以及計算能力的提升，機器學習演算法的結果也得到了顯著提高，其中一些在演算法在接下來的章節里會被展開介紹。這也進一步刺激了對 AI 初創企業的大量投資。世界經濟論壇報道，全球對於人工智慧創業的投資從 2011 年的 2.82 億美元上升到 2015 年的 24 億美元。在這一時期，人工智慧領域的併購與收購交易（M&A）數量也在顯著上升（圖 2）。

如今的大多數應用更接近於一種「增強智能」，或者旨在增強人的能力，而不是試圖取代人。即使人工智慧和機器學習領域繼續按照今天的發展速度進步下去，大多數行業也不會試圖讓機器完全複製人類的智能。正如一位業內觀察家所指出的那樣：「...... 在整個閉環中引入人是至關重要的：與機器不同的是，我們能夠考慮情境並利用常識將 AI 得出的結論投入實際應用」。

2. 驅動力

促成金融科技（FinTech）日益普及的各種因素也促進了人工智慧和機器學習在金融服務領域的應用。在供給方面，金融市場參與者已經從其他領域開發人工智慧和機器學習工具的過程中獲益良多。更快的處理器速度帶來的計算能力的提升、更低的硬體成本以及更容易地通過雲服務訪問計算力的條件也造福著金融界。同樣，因為針對性資料庫、軟體和演算法的出現，對金融領域的數據進行儲存、拆解和分析變得更便宜。由於數字化程度和雲服務應用程度的提高，可用於學習和預測的數據集數量也出現了快速增長。數據存儲成本的下降和全球數據量的估計如圖 3 所示。

那些推動了搜索引擎和自動駕駛領域的演算法進步的工具也可以在金融領域使用。例如，物體識別工具使搜索引擎能夠了解，用戶搜索「Ford」的時候通常指的是「福特汽車」而不是「河灘」。這種工具現在也被用於快速識別特定上市公司的新聞或社交媒體消息。隨著越來越多的公司使用這些工具，公司獲取新數據或額外數據以開發更快、更準確的人工智慧和機器學習工具的激勵可能會增加。反過來，公司對工具的使用和開發也可能影響到其他公司的激勵水平。

金融部門的各種技術發展促進了基礎設施和相關數據集的創建。電子交易平台的快速發展伴隨著高質量結構化數據可得性的提升。在一些國家（如美國），市場監管機構允許上市公司使用社交媒體發布公告。除了為機器學習提供數字化的財務數據之外，市場的電子化也使人工智慧能夠直接與市場交互，完成由複雜的決策程序給出的讓人眼花繚亂的實時買入和賣出指令，且幾乎不需要人為干預。同時，自 20 世紀 80 年代起，個人信用評分系統變得越來越普遍，自 20 世紀 90 年代起，新聞已經變得機器可讀。隨著金融市場數據和相關數據集的增長——例如在線搜索趨勢、收視模式和包含市場及消費者財務信息的社交媒體數據集的增長——金融部門可以探索和挖掘的數據如今來自極為豐富的數據源。

在需求方面，金融機構有激勵去使用人工智慧和機器學習來滿足業務需求。降低成本、獲得風險管理收益和提高生產力的機會促進了對技術的應用，因為這些機會都可以提高盈利能力。在最近的一項研究中，業內人士稱（在各功能部門中）使用人工智慧和機器學習的優先順序如下：以客戶為中心優化流程；增加系統與員工之間的互動並加強決策能力；開發提供給客戶的新產品與新服務。在許多情況下，這些因素也可能推動公司間的「軍備競賽」，市場參與者會因為急需跟上競爭對手的腳步而應用人工智慧和機器學習，包括因為聲譽（炒作）原因。

新的合規要求也產生了一些需求。新合規要求增加了對效率的要求，這促使銀行推動自動化進程並應用新的分析工具，包括含有人工智慧和機器學習的工具。金融機構正在尋求遵循審慎性監管、數據報告、交易執行優化以及反洗錢和打擊資助恐怖主義（AML/CFT）等監管要求的高效手段。相應地，監管機構也面臨著評估更大、更複雜、增長更迅速的數據集的責任，需要用更強大的分析工具來更好地監控金融部門。圖 4 顯示了這些供給和需求因素如何結合在一起。

一些發展趨勢可能會影響未來人工智慧和機器學習的推廣。這些發展趨勢包括數據來源數量和數據獲取的實時性的不斷提高；數據倉體量、數據粒度、數據類型的增加以及數據質量的提高。硬體的持續改進，以及包括開源庫在內的人工智慧和機器學習軟體即服務（SaaS）也將影響創新的過程。包括處理晶元和量子計算在內的硬體開發旨在實現實現更快、更強大的人工智慧。這些發展可以使愈發強大的人工智慧和機器學習工具適用範圍愈發廣闊、成本也更加低廉。他們可以在更大的數據集上實現更複雜的實時數據分析，如對在線用戶行為或者位於世界各地的物聯網（IoT）感測器數據的實時分析。

與此同時，複雜軟體服務的可得範圍也不斷變大。其中一類軟體服務是在過去幾年中湧現的開源庫，它們為研究人員提供了使用機器學習的現成工具。也有越來越多的供應商為金融市場參與者提供機器學習服務。一些公司抓取新聞和/或元數據，並使用戶能夠根據他們感興趣的特定特徵（例如瀏覽過的網頁等）進行預測。隨著進行數據提供、清理、組織和分析並獲得金融角度洞察的服務越來越多，用戶進行複雜分析的成本會顯著下降。然而與此同時，同信息/同技術的多用戶風險可能也會隨之增加（見第 4 部分）。

相關數據的法律框架也可能會影響人工智慧和機器學習工具的應用。違反協議使用個人數據或使用不符合消費者利益的數據可能會導致數據保護立法的激增。此外，新的數據標準、新的數據報告要求或金融服務領域的其他制度性變化也可能會影響人工智慧和機器學習在特定市場的應用。

關注微信公眾賬號「機器之能：almosthuman2017」並回復「FSB」獲取精編版中文報告。