機器學習如何應用在金融行業?

在近日由IBM和CDA數據分析研究院聯合舉辦的2016機器學習行業應用國際峰會

數庫CTO夏磊應邀做了主旨發言:如何將機器學習應用在金融信息處理中。

Part I. 人工智慧和機器學習

大家眼裡的人工智慧是這樣的:前沿、時尚。

而在數庫CTO夏磊眼裡,人工智慧在金融信息的處理領域卻是個苦差事,是一次次不斷優化的演算法。

Part II. 那數庫在做什麼呢?

數庫特色產品SAM-Segment Analysis Mapping

(SAM產品樹,點擊可放大)

為什麼要做SAM呢?

  • 解決傳統行業分類兩大問題:

  1. 一個行業標籤代表整個公司,多業務企業無法被正確反映

  2. 行業標籤更新速度不及時,往往企業業務轉型了,但是行業標籤還是原來的

舉個例子:

「杉杉股份」在大家的印象中,是一家從事服裝行業的公司,它在申銀萬國中的行業分類中,被分在男裝。數庫SAM行業分析工具的處理邏輯是,解析每一家上市公的產品收入,再推導其行業分類,因此我們可以在杉杉股份轉型鋰離子電池後的第一時間,把他放在正確的行業分類里,「電子製造業」。

  • 在搭建投資組合過程中,單個公司的行業對標的錯差,隨著成份股的增加,行業對標的失真度會不斷加大,往往對投資預期帶來不可控的噪音。SAM能夠量化和減少噪音的影響

  • 可比公司分析是金融界公司估值中採用最重要也是最常用的估值方法

  • 在對行業不熟悉的時候,尋找公司可比性最難的和最核心的點在於如何確定在海量企業中哪些在做同類的業務,相同度有多高,參與這些業務的規模多少,是否是公司的核心業務等

SAM產業鏈工具

  • 數庫通過SAM能夠讓任何人在一分鐘之內精準完成專業級的可比公司分析

  • 通過分析師對每個行業的深度研究,我們把業務線和業務線對接起來,形成上下游的產業鏈

  • 數庫的SAM產業鏈是目前全中國唯一針對全部上市公司(中國,香港和美國)從下而上的產業鏈架構

  • 產業鏈架構的實現為數庫在數據串聯、解讀金融現象、打造產品(如指數)帶來相當大的靈活性

數庫產業鏈示例

從人工過渡到機器學習

  • 2012年開始,25個人團隊深度挖掘上市公司業務線含義,進行統一結構化搭建

  • 2014年,SAM 第一版本推出,以2800個標準化業務節點覆蓋3000多家公司

  • 從人工接入機器學習,目前機器取代了99%的SAM維護工作

SAM是數庫將半結構化的數字結構化的一個里程碑式的產品,接下來的產品KAM就是數庫挑戰非結構化數字的又一次飛躍了~~

KAM-Knowledge Analysis Mapping, 是對SAM對市場變動不夠及時的補充,對互聯網上的實時資訊進行收集,通過自然語言處理、機器學習、知識圖譜等技術解讀信息,讓投資者能夠實時捕捉市場熱點、事件和投資機會。

舉個例子:

"平潭發展000592",其55%的收入來自於「纖維板」這個產品,SAM的產品數據會根據半年報以及年報披露的數據來更新。這樣的更新周期,也會造成我們對上市公司的認知有一定滯後性。在今年5月,我們通過KAM的工具發現,平潭發展開始涉足賽馬行業。通過對新聞的分析,我們更加及時地去捕捉上市公司的動態,所以KAM是對與SAM工具的一種補充。同時,我們也可以通過SAM的工具持續跟蹤這家公司是否在賽馬這個產品分項上有實際收入,如果長期都沒有的話,那說明這家公司是一家僅僅愛炒作的公司。

上圖為KAM的應用界面,通過KAM我可以實時發現市場上的熱點概念、事件、關聯的公司、股東等信息。

Part III. 我們如何做

數庫使用到的人工智慧有哪些?

  1. 自然語言處理NLP

  2. 深度學習DL

  3. 圖像處理

機器學習是實現人工智慧的基礎,我們使用的演算法有哪些呢?

  1. 分類演算法

    情緒分類: SVM-準確率89%、LSTM-準確率85%

    擇時策略: HMM

  2. 推薦演算法

    標籤關聯、知識推薦

  3. 聚類演算法

    主題提取

對新技術的不斷追求,是為了實現這樣兩個目標

  • 提升數庫自己的運營槓桿

  • 提升客戶的知識決策效率

舉個例子:

作為一家金融數據服務商,我們日常最多要處理的工作就是閱讀上市公司的財報,財報中的附註信息,來獲取數據。最初,數庫建立了一個40人的團隊來處理這部分數據,當時覆蓋2000家公司,隨著上市公司數量的增加,以及覆蓋市場的不斷拓展,像新三板的掛牌公司已經超過1萬家,原有的工作方式使我們需要不斷去拓展隊伍,在招人的壓力之下,我們轉向了由技術,通過機器學習來解決這個問題。通過程序來抽取PDF公告中的數據,把人工放在校驗,以及特殊的公告類型上。

從PDF到文本的全過程:

  • 非結構化數據標準化

將pdf解析為字元、線條、圖像等中間數據,方便演算法使用

  • 演算法

通過各類機器學習演算法,實現文本抽取、表格構建、圖像識別等挖掘出有用的數據

  • 結構化存儲

將演算法輸出的有用數據進行SQL或者NOSQL存儲,以供進一步加工和使用(比如NLP、DL等等)

上圖是我們日常將PDF中的文字變成數字入庫的工作平台的界面。

深度學習在命名實體識別上的應用

新聞情緒分析

主題聚類與新主題發現

以上就是此次講座的內容啦~~大家有任何疑問可以留言

或者電話:+86 21 3635 9360 – 706

數庫數據服務覆蓋A股、港股、美股、新三板

查詢到上市公司的業務分布以及歸屬行業

訪問:http://finance.chinascope.com,

關於數庫

數庫(上海)科技有限公司是一家基於機器學習演算法的大數據量化分析公司。通過數庫獨家的挖掘以及分析工具,可以使非結構化、半結構化的數據結構化;使原本無序沒有關聯的數據產生關聯性,進而實現數據智能化,為個人投資、金融機構投研提供精準而又全面的技術服務。


推薦閱讀:

TAG:機器學習 | 金融數據 |