可視化及其在早期投研中的應用
在文因互聯2017年1月7日舉辦的第21期智能金融沙龍中,我們邀請到了北京知珠傳媒科技有限公司創始人CEO郝慶一,和大家分享面對海量數據和信息,如何通過可視化尋找早期投研機會,洞悉金融資本的背後決策邏輯。下面是分享的現場實錄,以供業界人士共同探討。
我們從2016年開始做可視化在投研中的應用,其實也經過兩三年的摸索和思考,但都是很淺的。所以今天在文因互聯舉辦的智能金融沙龍上,我把我們思考成熟的一些東西,甚至思考不成熟的都拿出來分享一下,拋磚引玉,和大家一起探索更多的可能性。
這次主要從三個方面來聊,
- 第一部分:可視化和可視分析。
- 第二部分:美國公司Quid。
- 第三部分:和大家彙報我們這一段時間做的工作。
第一部分:可視化和可視分析
提起可視化,其實大家腦海中最先想到的應該是類似下面左邊這樣的報表,或者是一些信息圖。下面右邊的圖就是一個典型的信息圖,它把一些事件或一些很有意思的事情,很形象地畫出來,然後達到很有趣的傳播效果。但是可視化是不是就是這些?
1. 什麼是可視化?
可視化(Visualization)對事物建立心理模型(mental model)或者心理圖像(mental image)。
這是學術領域對可視化的一個大概的定義。
可視化實際上可以理解成兩端:一端是數據和信息,另外一端是可視化的各種元素。可視化的各種元素包括形狀、位置、顏色、大小等,還有其他更多元素,那麼我們需要把數據信息和可視化元素構成一個映射,這樣的過程就算是一個可視化的過程。
我們可以從抽象和形象在橫軸上對一些可視化進行劃分。比如說最左邊,我們可以認為這是一個形象的可視化,然後這是很具代表性的科學可視化,上面是流場(Flow Field)的可視化,下面是生物醫學方面的可視化。科研人員在研究過程中,面對大量的流場數據或者生物數據,沒有辦法形成一個很形象的認知。但是可視化就能夠幫助他們,通過視覺去傳達出流場的數據、生物的數據,然後幫助他們在整個科研過程中進行更好的探索。
現在再回到數據和信息這方面。我們現在面臨的是一個很碎片化的信息環境。無論你想了解行業,還是想了解學術,通過搜索引擎或者其他各種公開信息,你看到的將是什麼呢?新聞、評論、報道、報告文本、文獻文本、專利,這些都是碎片化的分布。我想我們可以通過可視分析這種手段,在一定程度上解決這樣的情況,讓大家可以掌握這些公開信息。
2. 可視分析
下面這本書實際上是2005年出版的。這本書標誌了可視分析作為一個學科的真正開端。當然這本書是在恐怖襲擊這樣一個背景下,由美國提出來的,所以說可視分析跟情報是有天然的緊密的耦合的,這是學術界給可視分析的一個大大致概念。
可視分析,是由交互可視界面支持和分析推理的科學。
應該怎麼理解可視分析呢?可能看這個定義,很難想像出來這是什麼。從這幾個方面,一個從數據,就可視分析所要幫助用戶掌握的數據是什麼樣子的,這是一個海量、動態、模糊,甚至相互衝突的數據,同時更是異構的數據。首先結構化的、半結構化的,甚至非結構化的數據,這樣的異構,同時從來源上排斥異構。文獻是一種來源,專利是一種來源,社會網路是一種來源,新聞報道是一種來源。這些異構的數據和海量的數據,怎麼樣讓用戶去把握,或者探尋其中的一些問題,是可視分析系統所要解決的一個問題。它希望讓人們去達到什麼樣的目的?就是發現我們知道我們不知道的信息,同時發現我們不知道我們不知道的信息。要達到個目的,需要在數據層面上和分析與展現層面上做到能夠即時反饋用戶的意圖。
來看下面的這張圖,給大家解釋一下前兩個可視化系統:
第一個可視化系統,是360和北京大學的袁曉如老師構建的手機基站的一個可視分析系統。他們的數據就是手機基站中發送的文本信息,然後它的活躍程度,地理位置信息,時間因素,然後他們構建這樣的系統是為了什麼呢?是為了發現一些偽基站,也就是每天給大家手機上發送垃圾簡訊的偽基站。他們構建了這樣一個可視分析的系統,然後把後面的一些異構的數據,和人結合起來,讓人可以藉此尋找這些基站發送內容方面的,或時間活躍度方面的一些規律,然後去尋找這些偽基站的蹤跡。他們通過這個系統,找到了一些偽基站,並且協助警方成功破獲了一些案件。
第二個可視化系統,是交通數據的一個可視分析系統。這個系統把交通流量、位置、信息、時間放在這樣一個界面上,用戶可以通過多維度去察看,這樣可以讓交通部門的政策制定者,首先要了解整個交通狀況,然後重點關注一些經常產生擁堵或問題的故障。
可以再從更現實或更本質的意義上去理解一下。我們想要做的可視分析系統是什麼意思?就是在很多情況下,人們試圖去理解周邊的新生事物,這就是一種信息行為。那麼,這個信息行為大概是什麼過程?人們需要對周圍的信息進行收集、整理、綜合、評估,然後再根據先驗的知識,將這些收集到的信息,重新構建新的更新的知識。這樣一個過程,就是用可視分析的方法將整個過程構建起來,以可視化的形式構建起來,然後讓用戶可以進行數據收集整理、數據清洗。然後涉及到數據用什麼樣的方法進行分析,分析出來的結果怎麼樣去呈現,構建出這樣一個系統,然後讓用戶不斷地去迭代,最終做出一些新的發現。實際上是這樣一個本質的行為。
在這樣的行為當中,其實最具挑戰性的是什麼呢?是不確定性。我們區別於數據挖掘很大的一個特點,就是我們面對了很多不確定性。
首先,是數據的不確定性。因為在探尋一個新問題的時候,你不知道要收集多少數據才算足夠,也不知道收集來的數據到底是什麼樣的質量。
其次,是分析方法的不確定性。其實你不知道用什麼樣的分析方法,才能夠得出來想要的結果,或者你應該得出來的結論。但是我們可以去準備一些方法讓用戶使用。最後,是結果的不確定性。就是你用這些不確定的數據、不確定的方法,實際上你也不知道結果是什麼。所以這是一個迭代的循環,而不是一個一次性做出來的。其實從這個角度講,比如我們構建這樣一個可視分析系統,它可以幫助人們認知信息,或者說進行知識認知的這樣一個系統。所以說從這個角度上講,我們可以這樣來理解可視分析。上圖是波普爾的三個世界理論,為什麼我把這些放在這兒?因為利用這些理論能把碎片化信息組合起來進行分析。首先需要從世界觀上先說明一下,波普爾的三個世界就是:物質世界、人的精神世界和客觀世界。物質世界就是那些物質的東西;人的精神世界就是你的思想、你的情感,理性的和非理性的;然後作用於第一世界,形成客觀知識世界,就是各種理論、各種概念,或者說知識。其實剛才說的那些嘈雜的、碎片的信息裡面,蘊含的都是知識。他們實際上就是可觀知識世界中的重要組成部分,包括論文、專利、新聞報道、評論、社交網路上的一些信息,這些都是客觀知識世界。那麼我們現在是想用一些方法去對他們分析,然後再作用於物質世界,更好地認識和改變物質世界。其實我們怎麼自由操作那些非結構化的數據,這就是鮑捷老師提到的,數據從非結構化到語義網這樣純凈的數據過程。
在這個過程當中,我們需要對整個數據進行純凈化,在這個過程中還需要運用各種方法。首先只用人力是肯定達不到的,那就要考慮人和機器進行結合起來用。下面這張圖實際上就是知識表示或者知識表現在不同領域研究的問題。通過這一張圖,應該就能夠得到一些結論。心理學大概在講個體的生理和心理與知識的關係,這個是教育技術領域的知識可視化。其實思維導圖,或者知識地圖,就應該放在這個領域,用於人和人之間利用形象化的形式進行知識表現,從而達到知識流動。右上角是計算機領域的知識表示,這是什麼意思呢?我們可以把它理解成語義網之類的事物,人們怎麼樣讓機器理解知識。其實,教育技術領域的知識表示是可視化的部分,計算機領域的知識表示就是數據的部分。我們在可視化和數據之間構建一個橋樑,就是讓一個可視分析系統,然後就能夠把人和機器以及知識結合起來,讓他們去做一些更多更自由的探索。
下圖是在2016年9月中國可視化大會上,袁曉如老師和陳為老師對可視化和可視分析方面提出的一些趨勢和挑戰。我們其實最關注的是幾點:
- 一個是可視化的方法、工具、系統的復用。我們構建一個抽象的表達可視分析系統,希望它能夠適用於大多數的文本分析,或者說情報分析。
- 然後是支持眾包的可視化。在一些可視分析系統,我們希望能夠把人對於數據和分析方法的貢獻,直接納入到系統的循環當中。
- 還有虛擬現實或者說混合現實,跟分析的一種交融。但是,現在業界、學術界其實對於這個點,並不是特別支持,為什麼呢?因為很多分析方法和工具,還停留在統計圖表上。那麼基於這樣的統計圖表,如果在三維空間中進行展示的話,會產生視覺的各種誤差。下圖右邊是陳為老師提出的,在整個大數據和機器智能的環節上,其實都是可以將可視化結合進去的,從數據的獲取,到數據的清洗,然後到建模、分析、到模擬。
第二部分:美國的公司Quid
下面簡單介紹一下 美國公司Quid,這家公司在2015年進行了D輪融資。他們把非結構化數據,轉變為結構化數據。但實際上他們是走完了整個流程的,也就是從數據,從非結構化數據到結構化數據,再到分析方法,再到可視化方面,他們是一條線貫穿下來的。所以說他們的產品是一個綜合的產品。
媒體稱 Quid 是一家量化分析公司。因為他們把那些無法量化的文本信息或者碎片化的東西,量化出來了。他們的數據源包括新聞、公司信息、專利,以及用戶評論、報告,類似這樣的非結構化數據。他們把這些非結構化數據中涉及到的原數據都抽取出來。例如新聞數據,然後他們會把標題、來源、時間、地點、分享數量等等這樣的信息都抽取出來。抽取出來之後,他們再去構建碎片化信息的體系網,他們用複雜網路的方法把這些碎片化的信息構建起來。然後加以初步分析,或者說聚類,然後給用戶全局的把握。再去提供一些各種分析工具,讓用戶基於這個內容去做更多的探查。
對於可視化,我們首先需要做的事情是:對標籤進行優化。因為我們拿到標籤,很多時候沒有太大意義。不同的公司標籤質量不太一樣,然後我們需要綜合各種手段,提高標籤質量。但是整個從公司再到這個圖,再到這個劃分,這些基本上都是演算法弄出來的。但是我們跟一些分析者去溝通的時候發現,他們心目中已經有一個大概邏輯思維。這是機器做出來的,當然你了解金融領域的創業公司,你覺得是這樣。但是如果你不了解金融領域的創業公司,或者說你了解金融領域創業公司的情況,但不了解新聞報道的情況,不了解專利的情況,不了解文獻的情況,那麼用同樣的方法,都能夠給你一個體系化的東西。所以說可視化的價值在於這裡。根據體系化的結果,不管是時間上的,還是數量上的,不管進行一個簡單的排名也好,還是其他的一些查看也好,都是希望用戶通過一些方法,有一些發現。
關於範式,我們來簡單地說一下。科學範式大家可以理解成科學框架。在這個框架下,或者說在某一個大家認同的一些方法組成的框架下,科學研究中發現的一些問題是這個科學框架解決不了的。可能就會有一些人叛逃出已有的科學框架,去做一些新的嘗試。引文分析實際上就是在用一些文獻計量學的方法,對科學範式的轉移進行一些描繪。這些其實都是一些很成熟的方法。當時我們就希望用這種方法平移到行業裡面,去做一些分析。但實際上我們發現,不僅科學有範式,技術也有範式,技術經濟也有範式。技術經濟範式大家可以理解成一系列相關的技術和組織原則。在現有的技術經濟範式下,對產業的生產效率進行提升。之後,技術經濟範式的潛力會逐步被挖掘出來。比如說到達一定程度之後,效率提升就沒有多少了,這時候就會有一些人叛逃出現有的技術經濟範式,去做一些新的嘗試。這實際上就是創業者在做的事情,他們希望尋找新的可能性來提高產業的生產效率,然後謀取更大的利益。在這個過程當中,實際上金融資本也扮演了一個叛逃者的角色,它從已有的經濟範式中叛逃出來,去支持新的可能性。當然這些可能性很多都是在試錯,但是最終會有一些存活下來,並且真正成為了下一個技術經濟範式。實際上,我們現在從時間點上來看,我們現在這樣一個狀態,基本上也是一個技術經濟範式轉移的時期。從一些很簡單的現象可以看到,大量的公司合併、收購,就是2015年到2016年大部分的公司合併。這個應該是大家有感觸的。
還有很多資本都在說要走出去,要出海。出海其實是一個技術經濟範式在本國或者本地,發展到一定程度之後需要向外擴散。也就是發展到一定程度,成熟了之後,要向外擴散去尋找更多的利潤,這樣的一個現象。所以說,其實我們認為,現在也是到了一個範式革命的時期。那些方法我們是不是要做一些嘗試,剛才那個是創業公司圖譜,下面的圖表是創業構思和投資公司的投融資關係圖譜。紅色的節點是創業公司,綠色的節點是投資公司,他們以投融資關係相互連接,構成了這個網路。然後隨著時間的變化,這個網路不斷生長。我們希望能夠在這樣一個生長演化的過程中,尋找到一些東西,然後幫助用戶對這些範式的中長期變化作出判斷。所以我們做了一個很簡單的東西,在網路演化的過程中,不管創業公司也好,還是投資公司也好,我們對他們進行排序,每個年份得有排序。這樣的話,這些創業公司就有了一個排名表。這張表其實包含了一些趨勢,一開始金融領域的創業公司,有可能排名在逐漸往下走,有一些是起來的很快,這是創業公司。
下面這張表是投資公司的排列變化。有一些投資公司在金融領域的重要程度一直在下降。有的開始投了一些,後來就不怎麼投了。但是有一些公司處在一個波動,然後上升的狀態。在座大家如果是分析師本身,可能對這個並不是特別關注,但是對創業公司的排名變化,分析師有可能更關心,因為這個排名的變化在一定程度上,表明了投資熱點的轉換。我們現在在嘗試一些可視化的方法,把排名變化展現出來。我們還在做基於投融資網路的一些鏈路預測方面的工作,網路在發展的過程當中,有一些演算法能夠對網路的發展進行預測,可以預測邊的缺失。也就是說這個網路,比如到2016年7月份截止,我們用鏈路預測發現一些缺失的邊。那麼這些缺失的邊有可能是什麼呢?是公開信息中沒有公開的投融資事件,或者未來有可能發生的投融資事件。當然現在數據量還不是很多,所以預測結果不一定很可靠。但我們認為這是一種可能性,新的創業公司進到這個網路裡面,他們會和哪些投資公司發生關係?這個其實也是投融資或者分析者比較關心的,那麼我們就可以做一個基於這個網路的類似推薦系統的東西。這樣的話其實就是在對這個網路的演化方面,我們試圖去做一些工作。
最後,和大家分享四本書。這四本書如果大家有時間、有興趣的話可以看一下。第一本是介紹複雜性科學的入門讀物,後面三本分別是在講科學範式、技術範式和技術經濟範式。最後一本書我覺得做分析或者做投資的話,都可以去看一看,因為它是在一個宏觀的尺度上,去講金融和產業資本的這種互動,在技術範式不斷變化的過程當中,他們是怎麼樣去互動的,然後這對投資來講,或者說分析來講,是會有一定的啟發的。
推薦閱讀:
※該不該啃老:你所謂的自力更生和堅強,會毀掉你的一輩子
※剛剛,中國狠抽了華爾街一記耳光!美國或心如刀絞...
※探秘家族辦公室 打破「富不過三代」魔咒
※數據處理-signlog
※【債券日評】20170502 如何理解公開市場操作