文因搜索:智能的金融搜索引擎
過去一年中,我們接觸了很多金融界人士,從風投到孵化器,從券商到私募,從銀行到交易所,涉及的問題有行業研究、企業研究、盡職調查、交易撮合、併購、投資顧問、理財顧問、個人徵信、企業徵信、風險控制、系統風險防範等等諸多領域。我們發現,儘管金融面臨的具體問題千差萬別,但總的來說,集中在「價值判斷」和「風險評估」這兩個大問題上。
但是如何做價值判斷和風險評估,就是仁者見仁,智者見智,沒有一個統一的方法,甚至有時候看起來純粹是「拍腦門」。比如我們請教過一位併購行業的前輩,怎麼找到合適的殼公司。他告訴了我們一個「三分鐘找殼法」,其中一個條件是實際控制人應該是大學畢業,40-50歲之間。這有什麼道理?但是經驗上可能就是有意義的。還有一次,我們問一位VC合伙人,判斷投一個項目要多長時間?他說5分鐘吧,基本上5分鐘里就可以憑直覺做出判斷了,看商業計劃書里的三五頁大體心裡就有數了;還有看項目的來源,看誰在背書這個項目。最終做決定是很快的,乍看起來一點也不「理性」。但是這其實很有道理的。金融決策的特點是要考慮的因素實在是太多了。金融產品可能是最複雜的商品。一份股轉書有兩百多頁,還有大量的年報、半年報、研究報告、公告、反饋意見、盡職調查結果……但很少有人是看了這幾百頁的材料再做決定的,往往就是憑經驗和人脈,直接「變魔術」,做出決定。機器能不能也「變魔術」,替代人做出價值判斷和風險評估呢?在市場上,也不乏這樣的探索者。一些金融界人士也對此很擔心。前段時間AlphaGo戰勝人類圍棋冠軍,一位二級市場研究員就和我說,「以後我們的飯碗都要被人工智慧搶走啊!」但是越深入理解金融,越發現,這種擔心在短期內可能是多餘的——雖然長期看真可能會發生。我認為想讓機器「變魔術」之前,要依次解決五個問題。這五個問題每一個都依賴前一個問題的解決。現在我們依靠人「變魔術」,是因為這個五個問題(特別是後面的問題)還沒有完善的解決方案,所以還需要人的經驗和人脈(信任、背書)來引導。但是每一個問題的解決,都可以讓我們更多地利用機器的力量,獲得更智能的工具來做出價值判斷和風險評估,從而解放人力,有更多的時間去做只有人才能獲得的「洞察」(insights)第一個問題是從物理世界獲得數字化的數據。
大多數買方和賣方的數據,其實是很難被機器、甚至人去訪問的。很多時候還是需要人面對面的交談、親臨現場的訪問,才能得到決策的依據。甚至僅僅是獲得一個行業里中小企業的名錄,往往都是很困難的事。現在有了新三板系統,有了巨潮網上的信息披露,才讓數據獲取成本降下來,並使後續的機器處理成為可能。最近股轉系統要求券商留掛牌過程中的電子底稿,長遠看就是特別有意義的事。第二個問題是從「臟數據」中獲得「乾淨數據」。數字化數據中依然有大量的「臟數據」,例如新三板披露材料中有1/4是掃描件,大量的公告是不規範的pdf難以做文本處理,大量的財務數據用不規範的表格展示。至於網上千差萬別的新聞數據、研究報告,就更「臟」。很多數據(如財務、股權結構、股東結構)隱藏在圖片中,難以提取、統計、匯總、比較。XBRL報表只解決一小部分問題,而且還沒有對公眾開放。現在各家機構都在用實習生、初級研究員做這些數據的提取工作,其實是人力的極大浪費。第三個問題是從數據中辨認金融「實體」。實體(entity)包括企業、投資機構、人(高管、股東、投資人、合伙人等等)、行業、產品、事件、案例、法規等等。數據不僅是一堆漢字和數字的組合,一次定增公告里會提到項目、產品、定增對象(人或者機構),供應商和收入來源里會提到上下游企業,投資人簡歷里會提到學歷和以前的職務。這些實體和它們的屬性往往很有價值。例如一家券商曾委託我們篩選股東里不含契約型基金的公司、在江浙地區的投資基金等等,這就需要我們不僅把股東、基金的名字看成字元串,而是理解它是什麼樣的機構、有哪些地域屬性、分類屬性等。這些數據,分散在很多地方,如股轉系統、工商網站、行業協會、機構官網。只有做好實體的識別,才能把這些信息串起來。
第四個問題是發現金融實體之間的深入關係,形成「知識圖譜」。金融決策需要的洞察,往往不是表面上一眼能看出來的。例如投資公司對企業的投資,往往通過各種子公司和「殼」來完成,僅僅依賴股東披露或工商註冊信息(包括子公司、孫公司的工商信息)是不夠的,需要一些規則和數據挖掘來發現隱藏得很深的關係。我們曾對一家投資公司做了個案研究,發現單純從披露數據和工商數據,只能獲得一半的投資事件,而通過深度規則挖掘,才能獲得比較完整的投資組合(我們給對方打電話確認的時候,對方很吃驚:「你們怎麼知道的」 :D)。此外如行業對標關係,行業上下游關係、供應鏈關係、股權變更歷史、定增與重大資產重組的關係、多張財務報表之間的數據交叉驗證,都需要深入關聯來自多個源頭、多個時期、多個企業之間的數據關係。第五個問題是在知識圖譜的基礎上表達業務邏輯。掛牌、定增、併購、對沖、二級市場交易等等,每一個業務場景都會有自身的邏輯。我遇到很多研究員、投資總監,在學習Python、R、Matlab,因為他們痛感自己腦子裡的邏輯,難以用文字或者Excel表格表達出來,市場上也沒有一個好用的工具幫助他們在數據的基礎上,把被經驗驗證有效的業務邏輯清晰地表現出來,免得總是要做簡單重複勞動。邏輯的表達可能是看數據的一些方式、處理數據的一些規則、展示數據的一些模板。一旦可以把邏輯數字化,其實一些比較初級的價值判斷和風險評估就可以由機器來做了。解決了這五個問題,我們就擁有了「變魔術」的有力道具。當然,這並不是說,我們需要把這五個問題都解決了,才能去輔助人來「變魔術」。每個層次都可以比之前的層次更能幫助人快速發現洞察、做出判斷。每多一些機器的輔助,人就可以更好地集中精力去發現機器不善於完成的工作,當好「魔術師」這個角色。
上述的過程總結為下圖:
那當前這個階段,技術發展到了哪一步呢?就金融領域的應用而言,我們認為美國領先中國很多。美國在各個層面都有相應的服務提供商,而中國僅僅在乾淨數據這些層面有了成熟的解決方案。在實體數據層面,中國還只是在一些局部剛剛開始(如一些行業資料庫和工商信息服務商),美國七八年前就已經有了成熟的服務。再往上圖譜數據和業務邏輯,中國還基本沒有對應的服務者。不過也需要指出,業務邏輯和「魔術」的層面,美國金融領域的嘗試也是初步的,現在還很難說已經走通了。一些企業的例子見下表。(關於這些企業的詳細介紹,在@文因互聯 的官方微博有持續報道)所以總結來說,美國的成熟行業前沿(state of the art)在圖譜數據這個層面,而中國在乾淨數據層面。因此,我們認為,當前中國的金融智能化,應該聚焦於基礎數據的實體化和圖譜化。今年3月份我們邀請了很多金融界的人士參加「語義對話金融研討會」,與會人士也表示,當前最需要的,不是讓機器來代替人做判斷,而是提供優質的、經過整理的數據,讓數據更可信、更好用、更容易被發現和獲得。
文因搜索:讓金融搜索更容易 基於上面這些思考和觀察,我們開發了「文因搜索」這個產品。您可以在我們的微信公眾號「文因新三板」中獲得使用的入口,也可以直接在手機或者PC端瀏覽器中訪問 文因互聯用微信掃描這個二維碼:http://weixin.qq.com/r/uzq5oSzEOHFHrWjC92_p (二維碼自動識別)
可以在菜單中選擇進入搜索界面目前,我們聚焦在新三板市場上,提供新三板投資決策中需要的核心實體數據。搜索現在可以返回4種結果,分別為:企業、投資機構、高管、定增事件。文因搜索覆蓋了7000+家新三板企業,60000+個投資機構與資管計劃,80000+高管,4000+次定增事件。
企業搜索
輸入關鍵字,可以呈現全部相關企業
關鍵字可以是企業的名稱或者行業關鍵字:通過行業關鍵字搜索,可以按產品或者行業的名稱需找該行業所屬企業,或者該產品的提供商。想知道有哪些企業屬於人工智慧行業? 或者電梯、清真、鎢?現在不僅可以在官方定義的140個行業中過濾,還可以在20000多個產品和行業的關鍵詞上尋找相關企業。通過企業名稱搜索,可以通過企業簡稱、股票代碼、漢語拼音搜索。
搜索結果中包含了傳統金融客戶端「F10」提供的基本企業和財務信息,還集成了參股機構、定增信息、工商信息、股權結構、高管名單等。 投資機構搜索投資機構搜索里我們做了深度的投資關係的發現,儘可能多地發掘了在公開披露材料里沒有直接聲明的投資主體通過行業關鍵字搜索,可以搜索到所有對相關行業的新三板企業進行投資的投資機構,按投資次數排序。這個可以告訴我們在某個行業上各投資機構的投入力度,了解各大機構的投資偏好。對每一家基金,我們可以看到它在新三板上的直接參股情況和子公司投資情況。(說個八卦,我們給一家券商看搜索結果的時候,對方說:其實很多結果我們是故意不想讓人知道的,你們要是不列,我們可以給你們錢 :D )定增事件
通過行業關鍵字搜索,可以搜到該行業相關的所有定增事件:通過企業名稱搜索,可以搜到該企業的定增事件:在定增詳細頁中,會列出發行對象詳情、持股期限、 認購價格、認購數量、認購金額等。 總結和未來的計劃文因搜索現在解決了哪些問題?按任何關鍵詞發現企業、投資機構、人員和投資事件,不被官方定義的分類限制。想怎麼搜,就怎麼搜。
深度發現企業和投資機構之間的關係,洞察隱藏的潛在聯繫。乾淨、專為關心股權投資的人士打造,沒有散戶才關心的那些雜訊內容。界面上也儘可能適應股權投資人士旅行多、時間寶貴的特點,隨時隨地搜、只展示最有價值的數據。聰明,知道關鍵詞之間的潛在關係,會幫你聯想你自己都不知道的關鍵詞。在任何平台上、任何設備上,不管是Mac,Windows,Linux,蘋果手機、安卓手機、平板電腦,還是其他什麼,打開http://search.memect.cn都可以搜索。在路演現場想快速查看台上的企業數據?找路演講者的簡歷?用文因搜索。每一個搜索結果,都可以通過微信、郵件分享給同事,可以保存下來以後再看(用微信收藏或者瀏覽器收藏)。想在微信群里討論一個企業、一個投資機構、某個人?最方便的就是分享文因搜索的結果鏈接。
這當然不是全部!很快,我們還會看到一個更強大的搜索引擎
主板和美股的數據。目前我們聚焦在新三板,以後會逐步加入主板和美股的數據。
越來越聰明。我們在不斷教文因搜索各種千奇百怪的熱門和冷門知識,比如幾萬種產品之間有什麼關係?國民老公的投資公司投了誰?每天都有上萬條新的知識源被加入到背後的智能引擎里,構造一個更強大的「知識圖譜」。多維度的數據過濾和排序。只關心創新層企業?bingo,其他的都隱藏了。想看看高管學歷構成?一排序就一目了然了。異常事件的提醒。企業和行業中發生了哪些值得注意的大事?企業大事一覽。企業發展歷程中,發生了哪些關鍵事件?人員、資金流向是什麼?公告和法規搜索。指定企業或行業,有哪些適用的法規和相關的公告?如何借鑒以往的案例?關注和訂閱快報。持續關心一個企業或者行業?點擊「關注」就可以訂閱該話題的文因快報。關注我們的微信「文因新三板」,或者微博@文因互聯,就能得到及時的服務更新提醒。
雖然我們現在離「變魔術」還很遠,但是我們相信人工智慧,特別是知識圖譜技術的潛力在金融領域還遠遠沒有發揮出來。我們會一點一點為「魔術」打下基石,為用戶節約時間,每天多一個小時,可以用來睡覺、散步、學習、看《魔獸》,當然也可以去掙更多的錢…….Stay tuned! 不久後咱們接著聊。推薦閱讀: