人工智慧在金融領域的應用
上周六(2016年10月22日)由文因互聯數據科學家丁海星主講智能金融沙龍第14期——「人工智慧在金融領域的應用」。
丁海星,現任文因互聯數據科學家,主要負責人工智慧技術在金融領域落地相關工作。2010年,畢業於北京郵電大學自動化專業;2010年至2012年,在中興通訊任職售前產品經理,主要負責日本、韓國和南亞市場的4G通訊產品;2012年至2015年,在海量信息技術的智能中心任研究員,主要負責人工智慧相關演算法預研和數據挖掘產品原型設計。
以下是根據丁海星的分享整理出的精華內容:
一般人對於人工智慧的認知都是從新聞開始的,我也從新聞說起。
1997 年, IBM 深藍機器人戰勝國際象棋冠軍。從這個事件開始,人工智慧才慢慢進入大眾視野,以前只是科幻小說或科幻電影的事情。1997年的事情基本上是教科書才會提起的,但是在此後長達十幾年的時期內,人工智慧領域並沒有發生其他爆炸式新聞。
然後,就是最近五年的事情了。
2011 年, IBM 深藍機器人在綜藝節目《危險邊緣》中,類似國內《開心辭典》,擊敗兩位人類冠軍。人工智慧的產物在電視廣播中打敗人類,可以說是一起轟動事件。以這次 PR 為基礎,IBM 開始了智慧城市、智慧醫療等等商業宣傳。
之後 到 2012 年,谷歌開始發力了。他們號稱已經建立了 5 億個實體、35 億條關係的知識譜圖,可直接在搜索引擎上提供服務。
2015 年,Google 宣布無人車計劃。
還有一個可能大家都知道的信息: 2016 年,AlphaGo 打敗了李世石。這個事件在中、日、韓等國家影響力更大,因為圍棋在這些國家比較普及。
當然,這些僅僅是新聞。外行看熱鬧,內行看門道。我們來看看在這些新聞背後,人工智慧是怎樣發展的。
金融領域可能應用的人工智慧技術
深度學習剛才講了一下。它的特點是失控,黑盒子思想。僅僅設計機制,不去控制。具體就是可以自動學習特徵,因果關係。只要有足夠的歷史數據,它即可從中學習規律,用來預測。這是一種以結果為導向的方法。深度學習一直很火,一發不可收拾,幾乎統治了學術上的所有領域,到現在深度學習的熱度也沒有過去。然而,以前一個概念或者演算法火三四年就不錯了,很快就會被其他的替代。
還有就是知識圖譜。知識圖譜的信息是人可讀、可控的。它是一種存儲知識的結構,可以認為是傳統資料庫的升級版。升級的點在於傳統資料庫的最終用戶是人,但知識圖譜的最終用戶可以是人,也可以是機器,也就是說是機器可讀的資料庫,它包括「回答是什麼的信息」和「回答為什麼的信息」。比如,機器有了知識圖譜後可以問一家公司的十大股東都有誰?這個地方政府發布的政策會影響哪些房地產公司?等等。
自然語言處理也是比較好理解的。自然語言就是我們平時所說、所寫的語言和文字。為什麼非要加一個「自然」呢?這是相對於產生式、人為定義的語言來說的,比如編程就不是自然語言。簡單地說,自然語言處理做的事情是如何讓機器「淺層次理解一句話是什麼意思」,可以用來處理大量非結構化數據,也可以通過公開的維基百科或研報等建立知識圖譜。
信息不對稱與人工智慧
接下來我們再來看一下信息:
自然界中的信息有許多種,有很多信息是不可被感知的,這一部分我們不去討論。在人可感知的信息中,一部分是語言無法表達的信息,另一部分是語言可以表達的信息。在語言可表達的信息中,一部分是公開信息,這部分信息是可採集的,也正是機器可處理的信息。在這部分信息中,一部分是非結構化信息,另一部分是結構化信息。在結構化信息中,有一部分信息構成了知識圖譜,這個範疇是人工智慧能做的。我們知道了人工智慧可以做什麼,接下來的討論才有意義。
接下來我們看一下金融領域的信息。金融領域中存在三種主要的信息不對稱,分別是知識不對稱、情報不對稱和數據不對稱。所謂知識的來源,主要是研報、訪談、諮詢、探索、積累等;情報的來源,主要是人脈、訪談、新聞等等;數據,則主要來自於政府或專業網站,以及一些數據終端。這三者對市場會產生不同程度的關聯,其中弱關聯關係才是比較有價值的信息。這裡的「信息體力勞動」其實是自己創造的詞,主要是指一些不需要人的洞察即可完成的工作,比如複製黏貼。其實複製黏貼佔據了金融從業者很大一部分的時間,這部分工作是機器能夠幫上忙的。
機器學習技術在金融領域被應用在量化投資上。
全球最大的對沖基金橋水(Bridgewater Associates)早在 2013 年就開啟一個新的人工智慧團隊。該團隊約有六名員工,由曾經供職 IBM 並開發了認知計算系統 Watson 的 David Ferrucci 領導。通過歷史數據和統計概率預測未來。該程序將隨著市場變化而變化,不斷適應新的信息,而不是遵循靜態指令。Rebellion Research 是一家運用機器學習進行全球權益投資的量化資產管理公司。Rebellion Research 在 2007 年推出了第一個純人工智慧(AI)投資基金。該公司的交易系統是基於貝葉斯機器學習,結合預測演算法,響應新的信息和歷史經驗從而不斷演化,利用人工智慧預測股票的波動及其相互關係,創建一個平衡的投資組合風險和預期回報,利用機器的嚴謹超越人類情感的陷阱,有效地通過自學習完成全球 44 個國家在股票、債券、大宗商品和外匯上的交易。
倫敦的對沖基金機構 Castilium 由金融領域大佬與計算機科學家一同創建,包括前德意志銀行衍生品專家、花旗集團前董事長兼首席執行官和麻省理工的教授。他們採訪了大量交易員和基金經理,複製分析師、交易員和風險經理們的推理和決策過程,並將它們納入演算法中。
量化交易方面的人工智慧初創公司有日本的 Alpaca。它旗下的交易平台 Capitalico 利用基於圖像識別的深度學習技術,允許用戶很容易地從存檔里找到外匯交易圖表並幫忙做好分析,這樣一來,普通人就能知道明星交易員是如何進行交易的,從他們的經驗中學習並作出更準確的交易。
坐落在香港的 Aidyia 致力於用人工智慧分析美股市場,依賴於多種 AI 的混合,包括遺傳演算法 ,概率邏輯。系統會分析大盤行情以及宏觀經濟數據,之後會做出自己的市場預測,並對最好的行動進行表決。
不僅是機器學習,自然語言處理技術也被廣泛應用在金融領域。自然語言處理技術的核心是:機器可以簡單地理解一句話的大體意思。現在跟著大數據一起滿大街都是的輿情應用就是自然語言處理技術的一種應用,他可以簡單理解一句話中的主體(公司),還有那句話的情感。
自然語言處理技術如果僅用於輿情,那就是用牛刀殺雞了。
我們這裡看兩家公司,一家是 Dataminr,一家是 Palantir。第二家大家可能很熟悉了,我們先看Dataminr,它是一家基於Twitter及其他公開信息的實時風險情報分析公司。社交媒體中的信息比新聞快很多。如果別人用新聞來做決策,大家都盯著新聞看的時候,會晚一步。一些突發事件也不存在小道消息或內幕消息,完全無法預測,只有發生之後最快知道的人能更快的躲避風險。演算法綜合考慮了 Twitter 用戶的位置、信譽、新聞外部引用、市場容量、市場價格等因素來提供告警信息。Dataminr 產品的功能包括儀錶盤、截圖、告警細節等,其演算法綜合考慮了 Twitter 用戶的位置、信譽、新聞外部引用、市場容量、市場價格等因素來提供告警信息。此外,Dataminr 的演算法也考慮了告警信息的誤報。其演算法利用了 Twitter 的自修正能力—一旦某人發出的微博是有誤的,馬上就會有人指正,這種行為會通知 Dataminr 的演算法引起其注意。Dataminr 目前已經吸引了銀行、政府、對沖基金等方面的客戶,他們用這套系統來作為自己的早期預警系統。而美國證交會(SEC)現在已批准公司可以將社交網路作為新聞發布渠道,因此 Dataminr 的系統採用率只會越來越高。該公司正打算將產品推向更多的垂直領域。
這是我們公司(文因互聯)做的一個東西,它是金融領域知識圖譜生成的一次嘗試。生成的知識圖譜是產業鏈,供應鏈,相似企業,對標企業等,在此基礎上它能給出精準的產業鏈提示。比如在一個行業里,前五大供應商是誰,我們也可以找到,它現在已經升級了,被整合到了我們的投研系統 FinGo 里。
自動生成報告也是我們跟客戶的交流過程中頻繁遇到的頂級需求。比如,研報中的一些模塊,寫各種公告,公開轉讓說明書,上會報告等等。我們的客戶覺得其中有大量重複勞動可以用機器替代,希望我們提供一種簡單操作就可以生成文本內容的工具。這裡我想講的是:自動報告技術現在達到了什麼程度,能做哪些報告。
自動生成報告並不是新技術。自動生成的報告我們可以分為兩類:一種是圖表,一種是文本。關於圖標,用過 Excel 表格的基本都會,不是新鮮事物。但是生成文字就不是了,不像繪製圖表一樣簡單了。但是,生成文字也有簡單的方法。按照難易度可以分為篇章級別、段落級別、句子級別。在篇章級別上用一種模板,替換裡面的數字或關鍵字是最簡單的。這個大家都能想得到,這也用不到深度學習這種技術。不過,如果使用也是可以的。段落級別的自動生成報告就有點難了,儘管還是在段落級別的模板上替換數字或關鍵字,但是要考慮段落的組合。句子級別那就相當難了,句子組合成一個段落真是相當不容易的。
但是,深度學習不只是替換關鍵字,最基本的句子也是可以自動生成的。我們不少人用過谷歌翻譯,明顯感覺到以前很多句子是不通順的,就是因為哪些句子也是自動生成的。多說一句,如果是機器翻譯的老用戶,你們會發現最近幾年機器翻譯有一個質的飛躍。雖然還是那麼爛,但是感覺能看得懂了。機器翻譯因為有很多的平行語料,所以可以用深度學習訓練。
金融領域裡,我們自動生成報告遇到的難點是可以用於訓練的數據不多。但是模板級別是不需要的。以應用場景為驅動,在不斷迭代過程中讓成本更低這個目標下,還是有信息的。
跟我們一樣做這方面努力的公司在上圖,可以看一下。
舉一個我們自己正在做的自動生成報告的例子。我們從年報、半年報、公司主頁、工商信息等等信息中提取信息,經過文本數據結構化和自然語言生成兩個環節,生成 PPT 格式的掛牌公司報告。生成這樣的報告,我們用 0.4 秒就能生成一份,我們用了一個小時就生成了全市場 9000 份新三板掛牌公司報告。這份 PPT 不是簡單的轉化,現在我們和銀行合作,他們有許多需求,比如信貸盡調報告他們希望能夠自動生成,這樣可以防止客戶經理的一些操作。
數據終端解決了基礎金融數據問題。它偏向結構化數據,但是缺少碎片化文本信息的檢索工具。這裡就產生了搜索引擎的需求。
金融搜索引擎,是我這次分享的最後一個應用場景。通過智能的搜索和淺層語義理解技術解決信息聚類和領域垂直搜索問題。
前面已經分析了一些應用場景,但在實際與客戶交流的過程中,我們遇到了無數困難,說「顛覆」兩個字並不容易。我們發現目前實際應用場景中最核心的需求還是獲取更多可靠的數據,而不是機器提供決策。以我們最近接觸的銀行客戶為例子,他們的需求第一是整合銀行內部數據,第二是整合外部數據。銀行內部數據是原來就有的,主要是許可權問題和內部管理制度問題。
而外部數據是全新的,他們會從各種渠道買來數據,比如各種黑名單、電信等等。這些數據就需要有一種好的方法統一結構存儲,方便以後檢索。我們所做的解決方案是金融領域個性化搜索引擎。由於是異構數據,我們需要用一定的 NLP 和知識圖譜技術來降低構建信息查詢系統的成本。還有,如果做關聯搜索,必須使用知識圖譜技術。比如,想知道一家投資機構背後註冊的公司投資了哪些,我們爬取基金業協會、工商數據後還要進行關聯。
國外,我們發現了一家類似的公司—— Alphasense,主要是針對文本數據提供檢索的公司。他們也通過搜索把各種相關的碎片文本信息整合到一起,方便數據瀏覽。
最後說一下我的設想,我們希望完成這樣一個 10GB /天到 10KB /天的轉換,從每天產生的大量數據中提取出具有決策價值的信息,幫助進行直接決策。
謝謝大家。
點擊此處即可報名第15期智能金融沙龍,私募工場創始人屈乃霞主講危機下的量化投資全解析。
推薦閱讀:
※【債券日評】20171201 2017年11月份債券市場回顧:市場情緒轉換主導的再次大幅調整
※平安集團現在是中國最大的綜合金融集團了嗎?是如何成長的?
※證券市場中說的「一板」「二板」「三板」「四板」具體是指什麼?有什麼區別?
※美式看跌期權
※前端+人工智慧=?