文因搜索:智能的金融搜索引擎

文|鮑捷,本文發佈於2016年6月8日

大家好,我是文因互聯的鮑捷。在過去十幾年中,我和我的團隊一直在致力於用人工智慧(AI)技術改善人們的生活。我們參與過三星語音助手S-Voice、谷歌電視GoogleTV、西門子醫療語義搜索、Counselytices法規搜索、好東西傳送門科技新聞推薦引擎等人工智慧應用。人工智慧正在把很多我們小時候認為是科幻的事情變成現實。能親身參與打造這樣的產品,更對人工智慧的力量有了深刻的印象。

一年前,我們開始思考一個問題:人工智慧是否也有助於金融行業呢?如果可以,該怎麼切入呢? 智能金融:如何變魔術? 過去幾年來,金融科技(Fintech)成為一個熱門詞。但是大部分的金融科技產品,還是停留在對金融信息獲取、統計量化模型、交易完成的信息技術(IT)保障上。人工智慧的金融應用還是個比較新的方向,整體上還處於探索的階段。

過去一年中,我們接觸了很多金融界人士,從風投到孵化器,從券商到私募,從銀行到交易所,涉及的問題有行業研究、企業研究、盡職調查、交易撮合、併購、投資顧問、理財顧問、個人徵信、企業徵信、風險控制、系統風險防範等等諸多領域。我們發現,儘管金融面臨的具體問題千差萬別,但總的來說,集中在「價值判斷」和「風險評估」這兩個大問題上。

但是如何做價值判斷和風險評估,就是仁者見仁,智者見智,沒有一個統一的方法,甚至有時候看起來純粹是「拍腦門」。比如我們請教過一位併購行業的前輩,怎麼找到合適的殼公司。他告訴了我們一個「三分鐘找殼法」,其中一個條件是實際控制人應該是大學畢業,40-50歲之間。這有什麼道理?但是經驗上可能就是有意義的。還有一次,我們問一位VC合伙人,判斷投一個項目要多長時間?他說5分鐘吧,基本上5分鐘里就可以憑直覺做出判斷了,看商業計劃書里的三五頁大體心裡就有數了;還有看項目的來源,看誰在背書這個項目。最終做決定是很快的,乍看起來一點也不「理性」。

但是這其實很有道理的。金融決策的特點是要考慮的因素實在是太多了。金融產品可能是最複雜的商品。一份股轉書有兩百多頁,還有大量的年報、半年報、研究報告、公告、反饋意見、盡職調查結果……但很少有人是看了這幾百頁的材料再做決定的,往往就是憑經驗和人脈,直接「變魔術」,做出決定。

機器能不能也「變魔術」,替代人做出價值判斷和風險評估呢?在市場上,也不乏這樣的探索者。一些金融界人士也對此很擔心。前段時間AlphaGo戰勝人類圍棋冠軍,一位二級市場研究員就和我說,「以後我們的飯碗都要被人工智慧搶走啊!」但是越深入理解金融,越發現,這種擔心在短期內可能是多餘的——雖然長期看真可能會發生。

我認為想讓機器「變魔術」之前,要依次解決五個問題。這五個問題每一個都依賴前一個問題的解決。現在我們依靠人「變魔術」,是因為這個五個問題(特別是後面的問題)還沒有完善的解決方案,所以還需要人的經驗和人脈(信任、背書)來引導。但是每一個問題的解決,都可以讓我們更多地利用機器的力量,獲得更智能的工具來做出價值判斷和風險評估,從而解放人力,有更多的時間去做只有人才能獲得的「洞察」(insights)

第一個問題是從物理世界獲得數字化的數據。

大多數買方和賣方的數據,其實是很難被機器、甚至人去訪問的。很多時候還是需要人面對面的交談、親臨現場的訪問,才能得到決策的依據。甚至僅僅是獲得一個行業里中小企業的名錄,往往都是很困難的事。現在有了新三板系統,有了巨潮網上的信息披露,才讓數據獲取成本降下來,並使後續的機器處理成為可能。最近股轉系統要求券商留掛牌過程中的電子底稿,長遠看就是特別有意義的事。

第二個問題是從「臟數據」中獲得「乾淨數據」。

數字化數據中依然有大量的「臟數據」,例如新三板披露材料中有1/4是掃描件,大量的公告是不規範的pdf難以做文本處理,大量的財務數據用不規範的表格展示。至於網上千差萬別的新聞數據、研究報告,就更「臟」。很多數據(如財務、股權結構、股東結構)隱藏在圖片中,難以提取、統計、匯總、比較。XBRL報表只解決一小部分問題,而且還沒有對公眾開放。現在各家機構都在用實習生、初級研究員做這些數據的提取工作,其實是人力的極大浪費。

第三個問題是從數據中辨認金融「實體」。

實體(entity)包括企業、投資機構、人(高管、股東、投資人、合伙人等等)、行業、產品、事件、案例、法規等等。數據不僅是一堆漢字和數字的組合,一次定增公告里會提到項目、產品、定增對象(人或者機構),供應商和收入來源里會提到上下游企業,投資人簡歷里會提到學歷和以前的職務。這些實體和它們的屬性往往很有價值。例如一家券商曾委託我們篩選股東里不含契約型基金的公司、在江浙地區的投資基金等等,這就需要我們不僅把股東、基金的名字看成字元串,而是理解它是什麼樣的機構、有哪些地域屬性、分類屬性等。這些數據,分散在很多地方,如股轉系統、工商網站、行業協會、機構官網。只有做好實體的識別,才能把這些信息串起來。

第四個問題是發現金融實體之間的深入關係,形成「知識圖譜」。

金融決策需要的洞察,往往不是表面上一眼能看出來的。例如投資公司對企業的投資,往往通過各種子公司和「殼」來完成,僅僅依賴股東披露或工商註冊信息(包括子公司、孫公司的工商信息)是不夠的,需要一些規則和數據挖掘來發現隱藏得很深的關係。我們曾對一家投資公司做了個案研究,發現單純從披露數據和工商數據,只能獲得一半的投資事件,而通過深度規則挖掘,才能獲得比較完整的投資組合(我們給對方打電話確認的時候,對方很吃驚:「你們怎麼知道的」 :D)。此外如行業對標關係,行業上下游關係、供應鏈關係、股權變更歷史、定增與重大資產重組的關係、多張財務報表之間的數據交叉驗證,都需要深入關聯來自多個源頭、多個時期、多個企業之間的數據關係。

第五個問題是在知識圖譜的基礎上表達業務邏輯。

掛牌、定增、併購、對沖、二級市場交易等等,每一個業務場景都會有自身的邏輯。我遇到很多研究員、投資總監,在學習Python、R、Matlab,因為他們痛感自己腦子裡的邏輯,難以用文字或者Excel表格表達出來,市場上也沒有一個好用的工具幫助他們在數據的基礎上,把被經驗驗證有效的業務邏輯清晰地表現出來,免得總是要做簡單重複勞動。邏輯的表達可能是看數據的一些方式、處理數據的一些規則、展示數據的一些模板。一旦可以把邏輯數字化,其實一些比較初級的價值判斷和風險評估就可以由機器來做了。

解決了這五個問題,我們就擁有了「變魔術」的有力道具。當然,這並不是說,我們需要把這五個問題都解決了,才能去輔助人來「變魔術」。每個層次都可以比之前的層次更能幫助人快速發現洞察、做出判斷。每多一些機器的輔助,人就可以更好地集中精力去發現機器不善於完成的工作,當好「魔術師」這個角色。

上述的過程總結為下圖:

那當前這個階段,技術發展到了哪一步呢?就金融領域的應用而言,我們認為美國領先中國很多。美國在各個層面都有相應的服務提供商,而中國僅僅在乾淨數據這些層面有了成熟的解決方案。在實體數據層面,中國還只是在一些局部剛剛開始(如一些行業資料庫和工商信息服務商),美國七八年前就已經有了成熟的服務。再往上圖譜數據和業務邏輯,中國還基本沒有對應的服務者。不過也需要指出,業務邏輯和「魔術」的層面,美國金融領域的嘗試也是初步的,現在還很難說已經走通了。一些企業的例子見下表。(關於這些企業的詳細介紹,在@文因互聯 的官方微博有持續報道)

所以總結來說,美國的成熟行業前沿(state of the art)在圖譜數據這個層面,而中國在乾淨數據層面。

因此,我們認為,當前中國的金融智能化,應該聚焦於基礎數據的實體化和圖譜化。今年3月份我們邀請了很多金融界的人士參加「語義對話金融研討會」,與會人士也表示,當前最需要的,不是讓機器來代替人做判斷,而是提供優質的、經過整理的數據,讓數據更可信、更好用、更容易被發現和獲得

文因搜索:讓金融搜索更容易 基於上面這些思考和觀察,我們開發了「文因搜索」這個產品。您可以在我們的微信公眾號「文因新三板」中獲得使用的入口,也可以直接在手機或者PC端瀏覽器中訪問 文因互聯

用微信掃描這個二維碼:

weixin.qq.com/r/uzq5oSz (二維碼自動識別)

可以在菜單中選擇進入搜索界面

目前,我們聚焦在新三板市場上,提供新三板投資決策中需要的核心實體數據。搜索現在可以返回4種結果,分別為:企業、投資機構、高管、定增事件。文因搜索覆蓋了7000+家新三板企業,60000+個投資機構與資管計劃,80000+高管,4000+次定增事件。

企業搜索

輸入關鍵字,可以呈現全部相關企業

關鍵字可以是企業的名稱或者行業關鍵字:

通過行業關鍵字搜索,可以按產品或者行業的名稱需找該行業所屬企業,或者該產品的提供商。想知道有哪些企業屬於人工智慧行業? 或者電梯、清真、鎢?現在不僅可以在官方定義的140個行業中過濾,還可以在20000多個產品和行業的關鍵詞上尋找相關企業。

通過企業名稱搜索,可以通過企業簡稱、股票代碼、漢語拼音搜索。

搜索結果中包含了傳統金融客戶端「F10」提供的基本企業和財務信息,還集成了參股機構、定增信息、工商信息、股權結構、高管名單等。 投資機構搜索

投資機構搜索里我們做了深度的投資關係的發現,儘可能多地發掘了在公開披露材料里沒有直接聲明的投資主體

通過行業關鍵字搜索,可以搜索到所有對相關行業的新三板企業進行投資的投資機構,按投資次數排序。這個可以告訴我們在某個行業上各投資機構的投入力度,了解各大機構的投資偏好。

對每一家基金,我們可以看到它在新三板上的直接參股情況和子公司投資情況。(說個八卦,我們給一家券商看搜索結果的時候,對方說:其實很多結果我們是故意不想讓人知道的,你們要是不列,我們可以給你們錢 :D )

高管搜索

通過簡歷關鍵字搜索清華大學,可以看到清華大學的校友有哪些在新三板上(989個)。其他的,北京大學有663個,浙江大學615個,復旦大學398個,武漢大學367個,廈門大學362個,中山大學348個。你也可以試試,看看你的母校有多少人?

通過高管姓名搜索,可以直接定位到該名高管的簡歷:

每名高管我們都提供格式化過的簡歷,更清晰、易讀。職務、學歷、出生日期都一目了然。

定增事件

通過行業關鍵字搜索,可以搜到該行業相關的所有定增事件:

通過企業名稱搜索,可以搜到該企業的定增事件:

在定增詳細頁中,會列出發行對象詳情、持股期限、 認購價格、認購數量、認購金額等。 總結和未來的計劃文因搜索現在解決了哪些問題?

按任何關鍵詞發現企業、投資機構、人員和投資事件,不被官方定義的分類限制。想怎麼搜,就怎麼搜

深度發現企業和投資機構之間的關係,洞察隱藏的潛在聯繫

乾淨、專為關心股權投資的人士打造,沒有散戶才關心的那些雜訊內容。界面上也儘可能適應股權投資人士旅行多、時間寶貴的特點,隨時隨地搜、只展示最有價值的數據

聰明,知道關鍵詞之間的潛在關係,會幫你聯想你自己都不知道的關鍵詞

任何平台上、任何設備上,不管是Mac,Windows,Linux,蘋果手機、安卓手機、平板電腦,還是其他什麼,打開search.memect.cn都可以搜索。在路演現場想快速查看台上的企業數據?找路演講者的簡歷?用文因搜索。

每一個搜索結果,都可以通過微信、郵件分享給同事,可以保存下來以後再看(用微信收藏或者瀏覽器收藏)。想在微信群里討論一個企業、一個投資機構、某個人?最方便的就是分享文因搜索的結果鏈接。

這當然不是全部!很快,我們還會看到一個更強大的搜索引擎

主板和美股的數據。目前我們聚焦在新三板,以後會逐步加入主板和美股的數據。

越來越聰明。我們在不斷教文因搜索各種千奇百怪的熱門和冷門知識,比如幾萬種產品之間有什麼關係?國民老公的投資公司投了誰?每天都有上萬條新的知識源被加入到背後的智能引擎里,構造一個更強大的「知識圖譜」。

多維度的數據過濾和排序。只關心創新層企業?bingo,其他的都隱藏了。想看看高管學歷構成?一排序就一目了然了。

異常事件的提醒。企業和行業中發生了哪些值得注意的大事?

企業大事一覽。企業發展歷程中,發生了哪些關鍵事件?人員、資金流向是什麼?

公告和法規搜索。指定企業或行業,有哪些適用的法規和相關的公告?如何借鑒以往的案例?

關注和訂閱快報。持續關心一個企業或者行業?點擊「關注」就可以訂閱該話題的文因快報。

關注我們的微信「文因新三板」,或者微博@文因互聯,就能得到及時的服務更新提醒。

雖然我們現在離「變魔術」還很遠,但是我們相信人工智慧,特別是知識圖譜技術的潛力在金融領域還遠遠沒有發揮出來。我們會一點一點為「魔術」打下基石,為用戶節約時間,每天多一個小時,可以用來睡覺、散步、學習、看《魔獸》,當然也可以去掙更多的錢…….

Stay tuned! 不久後咱們接著聊。
推薦閱讀:

量子場論在金融中都有哪些應用?
金融的兩個基本問題(下)

TAG:人工智能 | 金融 | 投资银行 |