金融知識圖譜的現狀和展望

01-28

本文整理自文因互聯CEO鮑捷在3月29日舉辦的金融知識圖譜論壇上所做的開場報告。

今早我看了一下本次大會報名表，大概有 270 個人報名，參加的單位超過 150 個。我人工做了一個簡單的統計：其中有2家交易所，7 家券商，10 多家銀行，還有 10 多所大學，逾 10 家的智能金融從業公司。除了今天的主講嘉賓之外，還有其他的好多家也過來了。BAT 也悉數到場，其他的加在一起有超過 10 家大型的互聯網公司，投資機構來了至少有 30 家。可以看到整個智能金融知識圖譜領域受到了極大關注，跟去年對比非常明顯。我們去年也是在 3 月份的時候，在北京召開了第一次語義對話金融沙龍。那次我們請了一部分嘉賓，大概是來了 30 多個人，那次會場可以看比今天這個會場要小得多。

這一年的時間，發生了很大的變化。我們今天討論的很多內容，都是在這過去一年裡面新增出來的。一年之前大家還把這個東西叫做語義，現在基本上都已經轉叫知識圖譜了。雖然名字發生了變化，但是這個技術的本質並沒有變化，其應用卻發生了巨大的變化。像自動化報告，很多跟智能投研相關的技術，去年都還只處於雛形構思階段，到今天已經得到了落實，在市場上已經可以看到這樣的產品出現。

如果我們把金融知識圖譜放在一個更大的圖景里來看的話，可以看到整個 FinTech 行業的發展。過去三四年大家聽到最多的一個詞就是互聯網金融，最近一兩年有智能金融這個詞冒出來。在我的理解裡面，它代表了 FinTech 的上半場和下半場。任何技術在去改變，或者革新一個已有的產業，通常就會有這樣一個上半場和下半場。

上半場重點在提高效率，在互聯網金融這個領域，主要是解決觸達的問題。不管是交易也好還是平台也好，P2P 也好，其實它是在解決如何把原有的資源更好地組織在一起的問題。它把線下的搬到線上了，把原來效率低的提高效率，主要解決了一個觸達的問題。但是當一個技術真正深入到一個領域，它將行業效率提升到了一個很高的程度，之後會發生怎樣的情況？通常會有新的商業模式應運而生，產生一個重構。以前它不能夠形成的商業模式，不能夠做的很多應用，因為新技術的支持可以做了。我覺得這塊恰恰就是我們今後兩三年，甚至三四年的時間內的一個重心。這一塊的重心就不僅僅是由於互聯網而更多的是由人工智慧來支持的。

在這個從觸達到重構的變遷里，其實很多經驗不完全適用。在更早的互聯網應用裡面，無非就是加錢、加人、加機器解決問題，因為互聯網的應用，它是一種複雜的系統。但是對於智能系統，它也是一種複雜系統，但它不是 complex system，它是一個 complicated system，它裡面有非常精細的小結構在裡頭，不僅是通過加錢加人就能夠解決這個問題，所以兩者的發展路徑上會有點不一樣的地方。

今天我們的主題是知識圖譜，但是知識圖譜其實是整個智能化的一部分。我們金融的智能化也不能脫離過去20年的整個工作。按照我自己的理解把它分為四個階段：

第一個階段就是信息化，包括銀行之前做的就是這件事情，比如我們用紙質的文檔，現在變成一種機器的文檔，從線下到線上解決這個問題。

第二個階段是大數據化。過去其實十年的時間，一開始不叫大數據，但其實做的東西就是大數據化，就是把割裂的分散的數據把它集中在一起。一開始它叫數據倉庫，後來叫大數據，最近又叫雲，每家銀行都在做，券商也在做，交易所也在做。實際上是要把這個數據從割裂狀態，變成一個融合的狀態，變成一個大數據，解決這個問題。

這兩年應該說從 2015 年開始，我們又進入了下面一個階段，就是一個自動化的階段。在我們有了這麼多數據之後，我們發現很多東西是非常繁瑣的，用人工來轉移這些數據，不如用機器來做這種重複性的工作。我們用更智能的程序，來幫我們自動化這個過程，把繁瑣變為簡單。這也是最近兩三年的時間，我們在很多分支里都看到了的嘗試。

智能化可以說是緊跟著自動化開始，我把它稱為從畫龍到點睛，也就是整個系統裡面，我們以前是人做所有的工作。但是人應該和機器在一起形成一個協作系統，機器做複雜的事情，而人是真正的價值創造者。只有人才能夠點睛，智能化就是要把這個過程變成讓機器來畫龍，人來點睛的過程。

人工智慧現在有很多不同的分支，我這裡列了三個主要的分支，就是經驗主義，或者稱為機器學習方法，還有聯結主義，最近最火就是深度學習，在這之前是神經網路方法，還有今天我們要談到的知識的方法，就是符號主義，更早的時候叫邏輯，後來在90年代末的時候，開始有一個領域叫語義網，後來演化成了知識圖譜。在金融領域裡面，早期大家對於機器學習比較熟悉，包括像信用卡導購，營銷，用戶畫像技術，我們都會用到很多機器學習的方法；最近一兩年時間，深度學習開始廣泛的應用，知識圖譜進入還是算比較晚的吧。

大家對知識圖譜可能不是很熟悉，我這裡就來簡單講一下我個人理解的知識圖譜。在我看來知識其實就是結構，我們最簡單的知識就是字典，我們用一些詞去定義另外一些詞，所以這就是形成了詞和詞之間的結構。

這副圖是谷歌的知識圖譜。它放出來的一個廣告圖，代表了每一個節點，就是一個實體，這裡有一個蒙娜麗莎是一幅畫，然後達芬奇是一個人，這代表了一個關係，就是蒙娜麗莎是達芬奇畫的這樣一個關係。回頭陳華鈞老師會更詳細地介紹。

另外一個結構，就是行業上下游。每一種行業，我們都可以畫出這個行業的上游產品、下游產品是什麼；在每一種產品上有什麼樣的公司在提供這樣一種服務。以前我們都是用人工來做這樣的事情，它可不可以自動化呢？以前我們對於比如A股上市公司，可能只有那麼幾百個行業，我們可以人工來做。但現在我們面臨的是上萬家上市和掛牌公司，上千個細分行業，我們能不能用機器來提高效率，來做出這樣的知識圖譜呢？應該是可以的。

這是用了 JSON 的格式從公告裡面提取出來的一個高管變動，裡面提到了其中某一個人，他因為什麼原因，他在什麼時間辭去了什麼職位，這樣一個知識提取，也是機器可以幫我們做出來的。

所以整個知識圖譜技術的核心，就是如何把數據結構化。在傳統的資料庫研究裡面，我們已經看到了數據是結構化的。知識圖譜技術，從某種程度上來說，是資料庫技術往前的一步，把傳統的表格結構所不能處理的複雜的關係，用更新型的資料庫來進行存儲、表達。這個技術雖然是從2012年開始才為大家所知，但從淵源上講，已經有差不多15年到20年的發展時間了。

今天的論壇是由中文信息協會來主持的，中文信息協會以前是側重在自然語言處理這個技術上面的。自然語言處理里有一個分支叫知識提取，從非結構化的數據裡面，把結構化數據提取出來。後來到了2012年左右的時候，這一塊就融入了知識圖譜技術，白碩老師待會給大家詳細地講這一塊技術。知識表現是另外一塊，更古老的時候叫做邏輯，或者再早的時候叫專家系統。漆桂林老師是這塊的大拿。在語義網研究的十幾年的時間中起起伏伏，當然也有一些非常輝煌的成功，包括像 Siri、IBM Watson 這樣的項目，在2010年、2012年的時候，證明了知識表現的價值。到2012年的時候，也被併入了知識圖譜這個領域。知識存儲的淵源，就是剛才提到的資料庫技術。現在大家聽到得很多，像 Neo4j 這種圖資料庫，RDF 資料庫，都是代表了新的知識存儲引擎。最後一塊就是知識檢索，今天在座的也有很多從搜索引擎公司出來的朋友。谷歌有一句話是說我們現在搜索的東西，不再是字元串-string，而是實體-entity。

這四個不同的領域，發展到了某一個關鍵節點，都發現要想解決各自領域裡的問題，必須用結構化數據，進而就形成了知識圖譜這個技術。

我們具體再來看金融知識圖譜，這是我們今天在中國市場上看到主要的各種類型的金融知識圖譜。這是一個很粗的分類，每一個分類下面，都會有很多更細分的分類。比如像前面的創投類資料庫，滕放騰總，文飛翔文總，還有郭穎哲郭總，他們接下來會分別向大家介紹自己的經驗。另外在很多其他類型的市場上，包括一級市場、二級市場，我們都看到各種不同的知識圖譜、資料庫陸陸續續出現。比如做A股、新三板的公司，其實還有做港股、美股的公司，各種基本面的數據，行情的數據，現在都在陸陸續續地知識圖譜化。以前大家只看 F10，現在一種智能的「F10」出現了，還有公告數據、研報數據的提取、公告研報的檢索等等。泛輿情數據、泛企業數據和各種工商數據，都是我們今天看到的金融知識圖譜的不同分支。

從應用上來講，我能想到的有十幾種。但實際上會遠遠不止這十幾種。讓人興奮的是，這裡面的大多數應用都是在過去一年裡頭出現的。一年之前我列這個列表可能只有四五種，而現在我們可以列出十幾種。所以我們很難想像，明年我們會列出多少種。在各種投資的分支上面，我們可以看到知識圖譜有非常廣闊的應用。今天在座的也有很多嘉賓，他們分別都在做各自的工作，這個論壇的目的就是把大家湊在一起，互通有無，交流經驗。

我就簡短地說一下，今天主要的時間留給各位主講嘉賓。今天一共有 5 個報告人，前面白老師主要講 NLP 和知識圖譜對接的工作，然後是三個做創投資料庫的公司的老總來給大家分享一下自己的經驗，最後是陳華鈞教授和丁力老師，來跟大家講一下開放知識圖譜的願景。

（更加精彩的論壇主題報告將於下周陸續發布，敬請關注）