金融AI「庖丁」——中國版palantir
【聽楊姐說】
中科院計算所研究員、微信人工智慧首席科學顧問、博士生導師羅平是庖丁科技的AI大腦。他發現,正有越來越多的金融從業者在庖丁科技的網站上上傳正在撰寫的文件,有的甚至是兩個共同撰寫者各自分別上傳自己的那部分。
沒錯,矯正錯誤正是金融「民工」們的硬需求:哪個IPO申請書或者財報文件都不容有一丁點錯誤——輕則導致經濟賠償,嚴重的數據錯誤甚至可能導致上市失敗。
而事實上形勢比看到的更加嚴峻。
2018年1月12日,財政部在自己的官網上刊登了一篇《我國上市公司2016年執行企業內部控制規範體系情況分析報告》。
報告中稱,2016年在2931家披露內部控制是否存在缺陷的上市公司中,942家披露內部控制存在缺陷,佔比32.14%,其中42家披露內部控制存在重大缺陷,40家披露內部控制存在重要缺陷,895家披露內部控制存在一般缺陷;1989家披露內部控制未存在缺陷,佔比67.86%。
不論對監管層還是上市公司,抑或是第三方審計機構,這都是一個非常令人抓狂的數字。
一些審計機構正在招人手來解決這個問題,但看起來相當麻煩,因為不僅人力成本巨高且耗時巨大。他們也試圖通過IT部門尋找一個更加高效的解決辦法,但IT部門卻找不到一個能夠真正解決問題的服務商。
然而,這正是AI公司庖丁科技羅平他們正在做的事。
中科院計算所研究員、微信人工智慧首席科學顧問羅平
羅平所建立的AI模型,專門研讀滬深證券交易所上市公司公開披露的年度內部控制評價報告、內部控制審計報告、年度報告等公開資料,針對企業內控報告披露存在的問題,還可以智能甄別遺失披露、不及時披露、格式不規範、補充更正、前後矛盾、認定標準不明晰等主要問題。
「這會是我們今年的戰略產品!」庖丁科技CEO高大光透露:「目前庖丁科技的AI模型對IPO文件的糾錯能力,已經高達99.9%!」
金融民工的硬需求
知乎上有一個調查:整個金融行業什麼樣的職位最苦逼,排在第一名的是投資銀行家,他們非常的苦!他們苦在哪兒呢?投行的從業者門檻非常高,每個人都必須要有光鮮的背景,都是海歸、或名校畢業。
但是實際上他們每天都做著非常苦的工作,特別是事業初期的投行從業者,每天都在撰寫各種金融文檔、各種募集說明書,包括債券募集說明書、IPO或者資產證券化說明書。
這些說明書平均都是500頁以上,撰寫工作非常繁雜枯燥。而且這些東西都有 Deadline,錯過要等好幾個月才能重新審批。如此大的工作量,經常讓他們感到非常痛苦。
這些金融監管機構對文檔的要求那是非常高,不僅要真實、準確還需要完整,由於公開的金融文檔具有一定法律效力,如果數據有錯誤,則可能要面對訴訟連帶責任。
此外,文檔的質量往往關乎IPO是否能成功,也是證監會考評每個投資銀行的重要指標。如果級別從A降到B,投行每年將支付更多的監管費用,這是很大的一筆運營成本。
舉兩個例子:2011年,高盛的一個私募產品,裡面存在數字方面的錯誤,帶來超過 4500 萬美金的賠償訴訟。另外,國內某銀行在財報中公布「負債8億億」,實際上是8萬億。
「有的即將上市IPO公司老闆對錯別字都零容忍。」庖丁科技董事長林得苗透露,因為他就怕出一丁點錯影響上市發行,「而這些,我們都能檢查出來,而且是在短短的20多分鐘里就能搞定。如果是普通的公司,大約要20個人干15天!」
AI讀懂你的財報
其實羅平和林得苗之所以給這套AI系統取名庖丁解文,就是取義於「庖丁解牛」這個成語,希望AI技術能夠像庖丁一樣,乾淨利落的把金融文檔結構化。
創立庖丁科技的最初動因聽起來很有「愛」:林得苗的愛人在金融機構上班,每天做的就是周而復始的文案工作,其中涉及不少數據核對等問題。林得苗就想,為什麼不能用人工智慧的技術來解決這些問題呢?
已經是個連續創業者的林得苗行動力超強,他立刻找到了在惠普時的老同事羅平,其實他們兩個都是同一屆畢業的學生,兩人相熟多年,一拍即合。羅平用了三個月,就完成了核心產品——AutoDoc。2017年8月庖丁科技開始融資,9月份完成第一輪融資,目前正在籌備第二輪融資。
這是一個用AI取代人工智慧提升基礎文本工作效率的產品。它的主要功能是財務數據複核。用戶只需上傳需要複核的金融文檔,經過自動解析和比對,機器會自動標註出數據不一致的地方。
庖丁科技在1000個已公開的債券募集說明書上進行測試和人工確認。測試結果是:其中68.92%的文檔存在數據不一致的錯誤。
2017年10月,全球最大的資產管理公司貝萊德的負責人在北京與高大光等人一起吃了飯時,直接就問:「把你的東西賣給我吧」。他之所以下這個決定,很簡單的一個邏輯就是,庖丁科技的產品有人在用:「從投資領域也好,商業社會也好,能把最先進、最前沿的技術落地,才是最有用的。」
事實上,這套系統的智能和複雜程度並沒有操作起來的那麼簡單。
除了自然語言的理解外,還有表格。一般的表格是結構化的,但是很多財報里的表格並沒有邊框,計算機就無法讀懂。羅平和庖丁科技的團隊通過一個黑科技技術可以自動給沒有邊框的表格「加上邊框」,從而將非結構化的數據結構化。
這是一個結構化的過程——只有讀懂語義,提取出這樣的信息才是有用的。所以,在某種程度上,庖丁是通過技術來講所有財報的內容重新「翻譯」了一遍,將這些內容變成了計算機能讀懂的語言,特別是一些超級長的句子。
「我們還有個核心技術是可以幫他們做自動撰寫、自動複核等一系列的工作。因為在這些行業裡面不能有錯,有錯的話損失太大了,比如說IPO去審核的時候因為文檔里有一個數字有問題,就直接失去IPO資格,損失會非常大,所以這個場景的切入點會是這些金融機構的剛需。當然,我們把這些數字結構化之後,也會有更為廣闊的應用空間。」羅平說。
中國的palantir
其實,如果跳出庖丁來看庖丁,你會發現,這家公司挑選了金融領域做AI,是很有「目的」的一個決定。
今天的銀行、基金、保險、券商、信託、期貨,所有金融的東西,包括用微信支付,實際上都在跟金融發生關係,金融領域涉及了人類所有的經濟活動,中石油也好、中國移動也好、騰訊也好,只要他做得足夠大,都會在資本市場進行融資,都會在資本市場繼續做資本運作,這些東西都被金融數據記錄下來。
而庖丁科技真正想做的,其實是從金融開始,扎到每一個細分領域去——例如現在美國有一家全世界最大的大數據商業分析公司palantir,也是從金融開始扎到365行里。
說起這家palantir的創始人之一Peter Thiel,就是大名鼎鼎的paypal的創始人。palantir這家公司本來默默無聞,結果在2015年時被人翻出來居然已經有了202億美元的估值,排名僅次於Uber和Airbnb之後。
palantir主要有兩個平台最強悍,一個是PalantirGotham平台,另一個是Palantir Metropolis平台,但前者主要用於國防安全領域,後者更偏重於金融領域的應用。
事實上,Palantir最為人津津樂道的案例有兩個,一是此前美國政府追捕本拉登行動中,Palantir扮演了重要的情報分析的角色;二是Palantir協助多家銀行追回了納斯達克前主席麥道夫BernieMadoff所隱藏起來的數十億美元巨款。
庖丁科技顯然只是在後者上正在效仿Palantir,他們試圖建立更豐富的屬性圖譜,在垂直領域成為圖譜的底層提供商,從而最終能夠形成一個「資本圖譜」!
換句話說,那些被關聯得越來越多的知識圖譜、屬性圖譜,未來都將成為一個神奇的金融AI的基礎——甚至能夠用於對一個公司貸款、投資等決策的依據!
這樣的工作需要更多的時間來「養成」,市場潛力也頗為巨大。中國在2016年的時候傳統的金融機構在IT方面的投入差不多一年1000億左右,而且都是投向基礎IT,比如說工商銀行買電腦等等,所謂智能化的投入不到1%,也就是10億左右。
現在保守估計,到了2020年,智能化的升級應該佔到總投入的20%以上,在美國那邊更高。比如Palantir公司在2016年已經通過NLP及計算機視覺技術,分析所有場景的大數據,最後給各個行業公司運用,他們在2016年的收入是35億美金。
一個會令人頗為期待的挑戰是,目前據說有幾家國際巨頭都要進入中國國內做類似的事,但羅平認為,這對巨頭來講挑戰比較大,因為中文是非常複雜的一種語言。相對來說,其實中國的AI去做英文的內容相對來說更加簡單。
楊姐點評:
是的,庖丁科技也有個小小的野心——進入英文市場。
契機是美國證監會要求投行的人用「最平實」的語言來描述標的企業,每句話都要讓普通大眾老百姓都看得懂。針對這樣的要求,庖丁科技如魚得水,因為庖丁科技的技術恰恰不是寫一個規則把這些東西提取出來,而通過數據驅動的方式來將之「識別」出來。
那麼庖丁科技最終的目標究竟是什麼呢?
庖丁科技通過將自己的AI模塊部署到金融機構的私有雲里,幫助金融機構處理他們最頭疼的文檔,但他們最終希望得到的並不是數據,而是一個訓練得無比聰慧的大腦,這個大腦無論運用到哪裡都將成為一個最有經驗的決策者。
注意,基於傳統的知識圖譜構建的新的資本圖譜,能夠把傳統意義上金融投資機構在做的事情用計算機來代替,這是美國同類公司正在做的。而前文提到的貝萊德是全世界最大的資產管理公司,管理著5萬億美金,他們最害怕的不是像他一樣資產管理機構,最害怕的是那些Google、Facebook這樣的公司,因為害怕他們造出來的AI最後能夠取代投資經理來進行投資,或者有那麼一、兩個資深的人就OK了。
因為,這意味著像庖丁科技這樣的AI公司未來就是一個新的金融機構!
推薦閱讀:
※為什麼大型超市流動比率和速動比率常常小於1?
※夢話(一):什麼是價格?
※酷站推薦 - dianrong.com - 點融 | 新的金融 |n 互聯網金融平台
※證券保證金賬戶的省錢和理財常識
※你所在的 Trading Floor 是怎樣的?
TAG:金融 |