鮑捷:知識圖譜在金融領域的發展與應用
本文來自文因互聯CEO鮑捷博士,2017年7月11日參加上海市——『信息化專家委沙龍——人工智慧與知識管理』主題活動所做演講。
活動介紹:
上海市信息化專家委員會成立於1999年,是為促進實施上海信息化發展戰略而成立的高級專家組織,主要通過開展各類研究和諮詢,為提高上海信息化發展質量和水平、提升上海城市綜合競爭力提供智力支持。為積極拓展新型智庫發展途徑,信息化專家委與上海研究院加強深度合作,共同舉辦信息化專家委系列沙龍活動,集聚專家智慧,共商趨勢熱點。本期信息化專家委沙龍,將聚焦人工智慧與知識管理領域,邀請企業、研究機構、政府部門的專家頭腦風暴,開展討論。
鮑捷:大家好,今天我講的都是比較具體的事情,之前的專家老師介紹了一些比較高屋建瓴的東西,而我這幾年時間一直都是在尋求落地。
今天我主要講的是在金融方面的應用。在這之前有很多年,我也曾在學校裡面工作,一個坎又一個坎,跳了很多的坑。我們今天的主題是知識管理,從2005年到2012年期間,我自己就寫了很多的知識管理系統,包括2008年的時候,去了RPI(註:美國倫斯勒理工學院)——這個領域裡最好的一個學校,在哪裡我寫了一個知識管理系統,但整個實驗室的人都沒有用起來。
我當時就在痛苦地反思,我們是世界上最好的做知識管理的一群人,我們挺自信的並且很懂這件事情,為什麼我們做出來的東西,自己也不用?一定有什麼地方出錯了。我那個系統後來可以說失敗了,然後實驗室又重新來做,又花了兩年時間,又不知道花了多少錢,重新基於RDF做了一套知識管理系統,那個系統最後又失敗了。
失敗的項目是好的例子,尤其是在知名機構的失敗。大多數的人工智慧的項目最後都是失敗的。有一句話說,如果你去過香腸工廠,你就再也不想吃香腸了。如果你做過一個人工智慧的項目,你可能就再也不想做人工智慧了。大多數的人工智慧的項目,就好像智障。可能這也是因為這個領域還是處於發展早期的階段,很多標準件還不存在,很多路還要人去趟,現在還沒有趟出來,每趟一條路都是要有無數的項目的屍體在前面鋪著,才能把這條路給趟出來。整個知識管理領域,從40年前誕生到現在,一點一點落地,可以說這個落地非常地艱難。到了2012年的時候,才真正的有了一個比較明確的大規模應用的前景,這之前30多年時間,一直都是痛苦地在黑暗中摸索。
我今天講的這一塊主要是講在金融領域咱們走的一些路,有一些是彎路。我個人的學術經歷基本上都是在做語義網和知識管理方面的工作,在這之前也做過一些神經網路和機器學習的工作,跟今天的工作相關的主要是兩段經歷,一個是在MIT的時候,做了XBRL的語義化,再有就是最近幾年時間,做了金融搜索和金融知識圖譜自動化問答,在文因互聯這個公司。
簡單介紹一下文因互聯,我們是在北京的一個小公司,這個名字的意思就是「文化的基因的互聯」,英文叫 Memect,前4個字母,「Meme」是英文裡面的一個單詞,有人翻譯成模因,我把它翻譯成文化的基因,簡稱「文因」。
知識圖譜能幫金融做什麼?
知識圖譜能幫金融做什麼?簡單來說,就是把現在金融領域裡面大家做的一些簡單重複勞動給替代掉。會有人問,金融知識圖譜能不能做出比人更好的投資決策?這是大家最關心的問題,我說不能,至少短期內不能。有時候,在金融機構里有一些朋友就會問,這個東西不能夠提高投資的回報率嗎?我說不能,不能長期、大量的保證。他說那你能幹什麼?我說能提高效率。他會問提高效率有什麼用?
這是一種非常經典的誤解。當提到人工智慧,特別是看到人工智慧在媒體上那麼火的時候,大家第一個想法就是人類要被人工智慧毀滅了,就那種感覺。其實這種感覺並不太好。因為在歷史上已經出現過兩次這種感覺了,每一次這種感覺之後,最後不是人類被毀滅了,而是我們(人工智慧從業者)被毀滅了。因為大家覺得我們是騙子,所以每次大家有這種感覺的時候,我是挺慌的。我就會老老實實告訴他,咱們現在真的做不了特別大的事情,咱們也就最多只能去替代一些初級的勞動,雖然這個人群的數量已經不少了。
以我們現在技術能夠落地的場合,我們假設僅僅是在金融這一個領域,我們真的可以去影響上百萬人的工作,並不是說讓他們丟掉工作,而是讓他們提升工作效率。中國現在每一個金融機構裡面都有大量的實習生、大量的初級的分析師,他們在做著完全不應該用人類來執行的工作,這是一種極大的人力的浪費。
很多在知名的大學裡面讀到碩士的人才,頭兩年時間都在做文秘工作,都在做從PDF文件裡面扒數據的工作,或者說寫他們自己都要吐了的那些報告。像券商裡頭一些報告,沒有洞見在裡頭,因為基本是套模板,更悲催的是寫出來沒人看,絕大多數沒人看。整個金融神經系統現在還沒有被建立起來,所以大量的本來應該用機器來做的事情,由於基礎設施沒有到位,必須要由人來做,這是極大的浪費,至少100多萬人力被浪費了。中國有800萬人在金融行業裡面,不光是在證券這個行業,像保險、銀行都有大量的重複勞動,這些簡單重複勞動應該被消滅掉。
這裡面列了大概十幾項實踐。這是我們今年3月份的時候,在杭州開金融知識圖譜論壇的時候,我想到的。在2016年的3月份,我們開第一次金融知識圖譜沙龍的時候,只有5、6項,一年時間,我們就找到了這麼多新的應用,這些應用不是臆想出來的,每一個都是實實在在的有公司在做的事情。我們自己一開始在做金融的搜索,後來做了自動化報告,現在也在探索一些更深的應用了,包括一些自動化的監管,還有金融問答方面的工作。
金融知識圖譜的兩種實現方式
其實金融知識圖譜這個東西並不是一個全新的東西。在二三十年前,結構化數據在金融里的應用就已經存在了,但是不叫這個名字。在1998年的時候,就有人發明出了XBRL這種語言,英文叫eXtensible Business Reporting Language,就是可擴展的商務報告語言。
這個東西1998年發明的時候,XML還是一個新興的技術,XBRL是基於XML的。基本的想法就是從頂向下進行設計,就是有一群專家來討論,大家規定好咱們有這麼一個格式,所有相關的人都按照這個來進行發布。XBRL有一個委員會,主要是以會計為背景、財務為背景的人進行討論,XBRL的辭彙表也要被討論,每個國家自己還要討論。比如說在美國就有GAAP,在中國就有CAS,歐洲有自己的一套標準,日本也有自己的標準,這都是每個國家內部自頂向下的設計。在中國據我所知至少有4個XBRL的標準,到現在沒法統一起來,到現在為止自頂向下的設計還沒有統一下來。
這還僅僅只是在最高層面上,在各大券商,各個上市公司那裡,我們要推行這樣一種自頂向下的設計都是千難萬難。上市公司被要求用XBRL這種格式來發布數據,但他們的董秘和證代,經常不理解結構化的數據,也很難理解我們用機器來處理數據有什麼意義,這對他們來說是多餘的工作,很困難。對於主板上市公司還好,對於現在的新三板公司更加地痛苦。所以現在新三板的一萬多家公司,並沒有強制要求做XBRL的披露,這都是由於成本高,所以造成了難以推行。
怎麼推進下去?最近幾年時間,大家開始想能不能咱們不對信息發布的時候做這麼高的要求。我們已經有了一些發布的數據,比如說各個公司都有年報,都有披露的材料、季報,還有股轉書,這其中有很多反覆出現的數據,能不能從既有的數據裡面,把它結構化的部分先提取出來,這就是一種總結的方法,現在這套方法也就是我們最近這幾年興起的知識圖譜的方法。
所以知識圖譜跟傳統的語義網,既是一個繼承,也是一個揚棄,因為傳統的語義網也就是top-down的方法,就是我們先想好一個schema,然後在schema上填數據。那麼2006年開始,從Linked Open Data開始,出現了這樣一個分支,我們發現去總結這種結構化數據比設計結構化數據更行得通,雖然這個數據的質量肯定會下降,因為現實中的數據都是非常髒的,但是至少我們get something。
所以在2006年的時候,Tim Berners-Lee——也是我在MIT的導師——他就提出了Linked Open Data的概念。這是一個杯子,他畫了數據的評級標準,一共有五顆星:
第一顆星就是把數據發布出來,On the web。比如說現在我們做金融,在巨潮網上就有所有公司公開的披露材料,這就是On the web。
第二步是Machine-readable,就是叫機器可讀。比如說早期2013年的時候,新三板的很多公開材料是掃描件,機器沒辦法處理。現在比如說我們做債務評級的報告生成的時候,大部分涉及到的文件還是掃描件,這些都不符合Machine-readable的標準。好在現在絕大多數的公司在發布披露材料的時候都已經是文字可讀的可行性報告了,都至少滿足兩顆星,就是Machine-readable。
第三顆星,就是說如果能用一個公開的格式,而不是專有格式是最好的。比如說PDF並不是一個公開的格式,因為PDF是Adobe這個公司的專有格式。再比如說中國的論文資料庫以前有個CIS格式,那種數據就不滿足開放數據的要求,因為它是由一個公司來決定這個格式怎麼發布的。
第四顆星和第五顆星都是在講如何讓數據產生互聯,用W3C的那一套語義網的標準,RDF這一套,這裡就不多說了,因為往後走都是成本很高的方法。
開放數據是新時代的高鐵
回到金融這一塊來講,再多說一句,為什麼我們要做這個事情?為什麼要把數據開放出來?在金融這邊,待會我會給出更多的例子來講,為什麼開放數據對整個產業發展是極其重要的一件事情。可以說開放數據就是信息世界的高鐵。
高鐵連通了整個中國,如果我們有了各個領域的開放數據,所創造的經濟價值,我相信是不亞於高鐵的,這是一個非常重要的競爭優勢。這也是為什麼在2009年奧巴馬上台的第一個月,他就發布了行政令,要求聯邦政府的所有的部門都要把他們的數據開放出來,然後各州政府也在跟進。英國政府也跟進,現在已經有了幾十萬的數據集被開放出來,這是歐美政府非常高瞻遠矚的一件事情。
這個圖叫做互聯數據云,還是在好幾年前,我做的一個截圖,這是Linked Open Data這個組織在歐洲和美國,他們開放出來數據的一部分在這裡。其實我們現在Open KG(中國開放知識圖譜聯盟)的目標,就像陳老師(註:陳華鈞 浙江大學計算機科學與技術學院教授)所說,也就是做一個中國版本的開放數據云。 這張圖還是三年前的版本,如果現在來畫這個就完全沒有辦法畫了,可能要把整個牆全部畫滿也畫不完,因為現在已經有幾十萬的數據集了。
但這裡面金融的東西並不多,我們看這裡面比較多的主要是百科數據、媒體數據、生物學的數據,金融的數據只有一小部分在政府的開放數據裡頭,主要的政府的開放數據還是在美國政府,就是http://DATA.GOV這個網站上,它大概有
100多個跟金融有關的數據集,最主要的是美國證監會開放出來的。包括公告數據、投資公司、共同基金、XBRL、保險、SEC法規的數據等。
其實100多個數據集,相對而言並不算很多。因為其他的領域,比如說環保都有成千上萬的數據在那裡,所以金融相對而言還算是比較落後的。大部分這些數據,它還是一顆星的,它只是放在那裡,很多就是EXCEL的表格,就像法規那樣的純文本,所以說並不是太好處理。但是在美國證監會的上市公司公告這一塊,它做得比較好,它的數據,第一個是公開出來了,第二個是機器可讀的,第三個是沒有用專有格式。美國所有公司的這些年報的數據,都可以直接從SEC的網站上拿到,還可以下載。這個數據開放性做得非常得好,中國到現在還沒有能夠做到,我相信今後幾年還是會做不到,這就是美國比中國做得領先的地方。
開放數據能帶來什麼?
這種數據開放能夠帶來什麼?在美國很早以前,就已經有一些市場監控的小公司存在。只要證監會SEC把數據一公布出來,馬上就有機器人來監控並進行解析,解析出來了結構化的知識圖譜之後來進行判斷,根據預先投資的決策來進行判斷,這件事情是不是有一個特殊機會,或者特殊風險,兩秒鐘之內就會把這個消息推送給訂閱了這個規則的投資者。
中國到現在為止還沒有做到,因為基礎數據還沒有完備。可以說基礎數據的準備工作,也是我們和其他的一些類似的公司正在做的事情。我們在追趕美國,雖然落後了他們好幾年時間,不過我相信我們追趕他們應該不需要花七八年,因為畢竟這幾年技術又進步了。
這裡題外說一句,中國現在也有開放政府數據的項目,我認為上海是做得非常好的,其他一些地方政府也有公開數據,但是都要進行申請,然後要註冊,要提交身份證號。我之前申請過一個市,但從來沒有被批准過。經濟發展程度不一樣,經濟發展越好的地方越開放。
目前中國、美國,可以說絕大多數地圖上藍色的這些國家,都已經用了XBRL做了信息披露。在美國XBRL是強制的,但在中國現在還不是強制的。
XBRL的介紹
具體的XBRL說什麼,我這裡就不再深入講了,基本上就是在講財報、利潤表、現金流量表,各種不同報表的會計數字的一個機器可讀的格式。
這是XBRL的一個具體的例子,代表了某個公司的收支情況怎麼樣,這一次報告的起始日期、貨幣單位等等,可以看到,這一整頁紙非常多的字元沒有講什麼東西,就講了很簡單的幾個數字。它為了講這幾個數字,有這麼一大堆的輔助的信息在這裡。XBRL本質上是非常羅嗦的一個語言,為什麼羅嗦?因為它其實是一個結構的描述。
傳統會計我們大家會用EXCEL,但是EXCEL並不方便機器自動化處理,比如說表頭是什麼意思,列和列之間是什麼關係,並沒有寫出來,但XBRL就可以做到。我們把這些初步的結構的關係寫出來,但是它依然只是一個結構的東西,不是個語義的東西,所以它非常羅嗦。比如說如果子公司的收入要匯總到總公司裡面,該講總公司的時候,就得把這句話重新再說一遍。它沒有推理,它也沒有能夠說,我的子公司的子公司也在我這裡,沒有這樣的邏輯關係可以寫。
再比如說一致性的檢查,跨報告周期的財務數據的完整性和一致性,這也是沒有辦法內生地去檢查的,只能讓程序員在外面寫個規則來做檢查。在MIT的時候,我們就做了XBRL的語義化,用一種邏輯的語言來描述XBRL,然後再用一些規則,就是SPARQL這種語言來表示規則。具體的內容就不再多說了,因為都比較技術的東西,回頭我會把這個ppt發給大家,有感興趣的可以跟我聯繫。
這裡有一個具體的例子,這是一個XBRL的描述,這是一個結構化的描述,後來這裡面有語義在裡面。比如說【currentAssets】是一種貨幣類型,概念層級這種語義的關係,在這裡面是隱含的,我們進行了邏輯描述以後變得更清晰了,特別是像OWL這種關係是可以知識推理的。在此基礎上可以進行各種規則的建模。如果我們進行公開公告的合規檢查的時候,比如說要求在兩天之內對重大合同的披露,如果重大合同的披露也用XBRL來描述,就可以來進行檢查。因為披露規則本身是可以寫成一種計算機可執行的規則。在進行了一系列的檢查,在日期內我們就可以判斷這個披露在是不是合規。
剛才講的這個事情,前提是結構化數據的存在。但是我們並沒有這樣的結構化數據,如果我們要求所有的上市公司都從源頭上提供這樣的結構化數據,對他們來說也是成本非常高的事情。最近這幾年時間,在W3C,萬維網聯盟也有專門的工作組來改進這些,其中有一個叫FIBO 【Financial Industry Business Ontology】,他們做的核心工作之一,就是對金融各個子領域做辭彙集的擴展。他們繼續找專家、找銀行的專家、證券的專家進行工作組的開會,開了七八年的會,到現在還沒有開完。
所以自頂向下的設計,我們可以看到是非常低效率的,而且難以落地。但其中有一部分跟個人消費者相關的東西,已經進入到目前的互聯網上。比如說跟個人信貸有關的,個人消費有關的,信用卡有關的一些概念。谷歌在它的http://schema.org 辭彙表裡面已經用上了,這算是這麼多年工作總算是有一點落地的東西了。最近這幾年核心問題就是,我們能不能不要求大家發布這些結構化數據,而是你先發布現有的數據,然後我們把這個數據裡面能夠結構化的東西先結構化出來,這就變成了智能金融的領域。
具體的技術有很多種,核心就是說我們在運用這些技術的過程當中,逐漸地把數據的質量給提升。我大體上在這裡分成幾個層級,從臟數據開始,比如說一些掃描件就是臟數據,至少一些文本數據是乾淨的,比如說有了文本,有段落劃分了,句子劃分好了,表格提取出來了,這就變成一個很乾凈的數據了。這一步已經非常難了,我們做這一步,可能要寫上10萬行以上的代碼,才有可能把這些PDF變成比較乾淨的數據。
再下面就更難了,把這個實體提取出來,什麼公司、人名字、一些產品、行業,產品和產品之間的關係等等這些實體。再往下就是圖譜,比如說全球產業鏈,美國和中國公司之間的對標,新三板公司投資標的的可能性等等,這些加在一起就是所謂實體和實體之間的關係構成的一個圖譜。
再下面就是業務邏輯,比如說行業的邏輯,看每一個行業,我們都會看不同的指標,有不同的增長率,還有業務的邏輯,比如說做併購有併購找殼的指標,比如說做監管有監管的邏輯,加在一起就是一層一層的,每一層比上一層難。這並不意味著我們要把所有的事情全部做了以後,然後才能去變金融的魔術。因為基本上每一個層次都可以加速我們人來進行人和機器的協作,我們把事情做得更快一點,這也是我們現在跟一些業務合作單位在做的。
機器不是替代人,而是增強人。
現在在市面上我們可以看到的金融知識圖譜,有一級市場跟二級市場的,有創投市場的,公告的數據、研報的數據,還有一些輿情的數據、工商的數據等等各種不同,這裡列的每一個項下面都有好幾家公司在做。我們主要是集中在上市公司基礎數據,還有公告和研報的數據提取,這幾塊上面。
我們今年3月份的時候,在杭州開了一個金融知識圖譜論壇,大概有200多個人參加。在2016年3月份的時候,我們開了一個會,大概只有三四十個人,一年時間,這個領域一下就起來了。今年9月份的時候,我們在上海還會再開一次,我相信也會是高朋滿座,歡迎大家來參加。
最後再多說幾句,也是首尾呼應一下,我一開始提到的,我們做的很多事情都是「智障」的。人工智慧在落地的時候,乍想起來都是很好的,但是每次落地的時候都是異常地痛苦。好東西都是總結出來的,很少有一個東西能夠自頂向下的,你把它設計出來,通常都是一個坑,又一個坑,再一個坑,從坑裡總結出來的。最後發現要從簡單系統才能演化出來一個複雜系統。一開始設計出來的複雜系統,通常都是不切實際的,智能金融系統也是這樣一種東西。剛才王昊奮(註:狗尾草CTO)提到了Watson ,Watson在一些領域落地的時候,也不是很順的,因為設計出來的系統在具體業務里落地的時候,都會遇到非常難以想像的困難,反倒是一開始不做那麼大的東西,從特別小的細節開始做的東西,最後能夠落實出來。
最後說一句,一句別人的名言。通常大家會高估技術的短期價值,而低估技術的長期價值。現在人工智慧技術又再一次歷史地輪迴到這個點,大家高估了技術的短期價值,總覺得人類要被機器毀滅了,或者說什麼職位要被替代了,大家會非常地希望人工智慧表現出比人類更高的智慧能力,但這真的是「臣妾做不到」。
但是大家也會低估這個技術的長期價值,像這樣一種能夠提高人的效率的這種東西,它的價值都是在潛移默化的。它提高你效率兩三倍的時候,你感覺不到,但是溫水煮青蛙,當它把你的效率提高10倍的時候,你突然發現整個領域,怎麼一下就變了?可能在10年左右的時間內,發現整個天翻地覆的一個新的事情就出現了。
我們公司就在國貿旁邊,我就經常會站在窗口和我們的同事說,你看寫字樓裡面那些軍閥們,他們將來都要被用AI武裝起來的紅軍幹掉。但是真正每一步具體來做的時候,都是非常痛苦的,就是從非常小的事情開始落地的,從根據地建設開始。
加入智能金融交流群
添加微信群管理員微信號 qgyx123,附上姓名、所屬機構、部門及職位,審核後管理員會邀請您入群。
推薦閱讀:
※聊聊「事件抽取」 | 每周話題精選 #05
※從語義網到知識圖譜——語義技術工程化的回顧與反思
※揭開知識庫問答KB-QA的面紗4·向量建模篇
※報名 | 知識圖譜前沿技術課程(暨學術交流)
※關於醫療大腦、知識圖譜與智能診斷,這是最全的解讀 | 硬創公開課