從 Kensho 看大工業金融的發展路徑(上)

2018年3月7日,美國智能投研公司Kensho被標普全球以5.5億美元收購,這是迄今為止,華爾街最大規模的人工智慧公司併購案。

5.5億美元貴不貴?Kensho究竟能做到什麼?它的模式將給國內智能金融行業帶來怎樣的啟示?為什麼智能金融領域沒能出現第二個 Kensho?為什麼智能金融不必複製 Kensho?

在上半部分的文章中,文因互聯 CEO 鮑捷博士結合兩年多的實踐探索經驗,為大家一一解答。

作者介紹 鮑捷博士,文因互聯 CEO。擁有20年學術界和工業界的相關經驗。美國Iowa State University人工智慧博士,RPI博士後,MIT訪問研究員,W3C OWL(Web本體語言)工作組成員,前三星美國研發中心研究員,三星問答系統SVoice第二代系統核心設計師。主要研究領域涵蓋人工智慧的諸多分支,包括機器學習、神經網路、數據挖掘、自然語言處理、形式推理、語義網和本體工程等,發表了70多篇領域內相關論文。是中文信息學會語言與知識計算專委會委員,中國計算機協會會刊編委,W3C顧問會員會代表。2010年以來關注金融智能化的研究和應用,成果有XBRL語義模型,基於知識圖譜的基本面分析、金融問答引擎、財務報告自動化提取、自動化監管等。

Kensho公司簡介

2013年,Daniel Nadler創立了Kensho;2014年Kensho與高盛合作,並獲得高盛的1500萬美元投資;2017年,獲標普國際領投的B輪5000萬美元融資,估值達5億美元;其核心產品是金融決策引擎「Warren」,曾成功預言英國脫歐後的英鎊走勢,及2017年美國科技股的強勢上漲。


以下為演講原文:

Kensho 以5.5 億美元被收購,這個消息到底是一個利空?還是一個利好?

我今天想要和大家探討:

  • 第一,Kensho是什麼;
  • 第二,怎麼做出 Kensho;
  • 第三,我們能不能做到;
  • 第四,是否應該那樣去做。

接下來要講的,有的是事實,有的是觀點,有的是信仰。

事實是大家都已經看到的東西;

觀點我相信而且有一定的證據能夠證明的東西;

信仰是在遙遠的未來才能夠證明的東西。

AI的循環:人神共憤 or 騙子

先做一個簡單的自我介紹,我從1998年開始做人工智慧的研究,人工智慧有幾個大的學派,神經網路、機器學習,還有邏輯學派,或者說理性主義學派,這幾個學派,我或多或少都有一些涉獵。

我在2001年去的美國,在衣阿華州立大學拿到博士學位,博士期間主要做語義網的研究,這個領域現在改名字叫知識圖譜了。2007年博士畢業以後,去了倫斯勒理工學院(RPI),2010年的時候去了MIT,在 圖靈獎得主Tim Berners-Lee 的實驗室。2011年去了三星美國研究院,在那裡做自然語言處理的研究,研究問答系統。2013年以後,開始自己在矽谷創業。2015年的時候,把團隊帶回中國來,專註在智能金融領域。我們的公司叫文因互聯。

自己跟金融有關的經歷,是2010年還在MIT的時候,跟MIT管理學院,還有Fidelity的工程師一起做了一個 XBRL 的語義建模。XBRL 是金融報表語言的一個國際標準,但是只是一個 XML 的標準,它並沒有語義,不能做推理。

比如說財務自動校驗,是它本身沒有的能力,我們給它定義了一個語義模型以方便後續的自動化工作。後來基於這個工作,我們在2011年做了一個基於語義和社交數據的基本面分析的論文,後來這篇論文拿了 IEEE金融工程和計算智能會議最佳論文。

2015年以後,我們就把其他的業務都砍掉了,專門做金融這方面,前前後後實驗了很多產品。一開始做新三板的資料庫,然後做金融搜索引擎、自動化報告、公告、研報的摘要,機器人等等。我們主要用知識圖譜技術幫助金融機構做業務的自動化,如自動化讀公告、自動化監管、自動化審計、流程自動化、問答自動化等。

人工智慧到現在也有60年的發展歷史了。自從我入行以來,我也經歷了兩個小的低谷,總的來說,人工智慧的發展基本上都是下圖這樣的:

一會兒說人類要毀滅了,一會兒又說人工智慧是騙子。尤其是去年,「人類要毀滅」了的新聞到處都是,但從今年以來,各種反思乃至否定的文章也開始出現。

以下是幾個神化人工智慧的例子:一個是說高盛的交易員要被人工智慧取代了。

另一個是說35歲以前,如果還一事無成,你還能去哪?

最後一個新聞最令人恐慌,用了一個非常誇張的詞,「人神共憤」。

這到底還是不是人工智慧?

要判斷是否具有AI屬性,不考慮科學論證的嚴謹性,一個直觀的判斷標準,看裡面是否有機器學習、知識圖譜、自然語言處理等成分,如果沒有,其實它更多的是傳統的自動化。

回過頭看這三個新聞。

比如說第一個新聞,高盛的交易員只剩兩人,是人工智慧導致的嗎?並不是。因為這裡面並沒有什麼人工智慧的技術。交易本身是一個執行,並不涉及策略的形成。交易本身分很多級,從低級到高級。現在真正被替代的應該就是一些機械的,既定的策略,去執行一下就好。與其說是人工智慧替代了這些人,不如說是資料庫和網路替代了這些人。

第二個技術,其實是在講會計。現在我們看到德勤等很多會計公司都推出了過程的自動化、財會的自動化,這些技術是不是人工智慧?很難說是不是人工智慧。

最後一條關於Kensho,Kensho的的確確是人工智慧。從數據層到表現層,最後到策略層,是人工智慧的一個綜合應用,Kensho有一個很大的知識圖譜部門。

大約從2013年、2014年開始,新一代真正的人工智慧系統開始應用在金融領域,所以人工智慧確實是在改變這個世界,改變這個行業。

但到底是不是真的會做到人神共憤的層面,我們再往下看故事。

Kensho 能做到什麼?

Kensho 這個詞是什麼意思?Kensho 是一個日語詞,它是日語的「見性」,明心見性是個佛教用語,代表的是說大徹大悟,醍醐灌頂的意思。

說起來很神,本質就是三個字——「相關性」

大數據領域興起後,其核心想法是,與其去發現因果性,不如把數據積累起來,尋找事件和資產之間的相關性,以及事件對價格、特別是價格長期趨勢的影響,這就是 Kensho 提供的主要服務。

因為我不是 Kensho 公司的,我所知道的消息都是從公開渠道收集來的,或者打電話從老同學、老同事那裡收集來的,未必完全準確。但我們理解 Kensho 並不需要真正的去深入它的系統本身的那些細節上去,我們從它的邏輯和它的基本服務,大體上可以推斷出來它要幹什麼,建立這樣的系統需要什麼樣的東西。

我們看幾個例子,Kensho 推出的最主要的應用,就是 Warren 搜索引擎,或者說決策引擎。它能在一分鐘內,完成過去分析師要做幾個小時甚至幾天的工作。

首先, Kensho 的底層是一個很大的資料庫。兩年前,它是9萬個數據集的資料庫,在此基礎上有各種事件、價格、基本面。

這個圖是某一個ETF(Exchange Traded Funds 指數基金)的基本面研究,下面有哪些資產在ETF下面,它們最近的趨勢是什麼,比例是什麼,可以往前的推斷指標是什麼。這是 Kensho 基本的數據,像這樣的數據有成千上萬個。

在此之上,剛才提到了,它要做一個趨勢性研究,核心就是說如果有一些事情發生了,它跟資產價格之間,在長期來看是什麼樣相關的趨勢。圖上這個例子在講,歐洲的整個資產相對於英國的貿易,它們之間的相關性是什麼,這其實是一個很長很長的圖,我只截取了前面一段,就是在講相關性的各種指標是什麼。

第二個例子是原油(見下圖),在某一種價格變動後,WTI原油的表現一周內會發生什麼變化?這也是各種指標和指標之間的相關性。所以Kensho里不僅有股票,也有各種大宗資產、期貨。

第三個例子是事件影響分析,下圖描述了2000年以來,春節對資產的影響,由此可以決定我們的策略。「事件影響分析」也是 Kensho 在新聞里最常見的一個賣點。

第四個例子是長期趨勢分析,2010年以來,應該是從美股恢復以來,每年9月份,三大指數,它們的表現是什麼樣。所以它有非常多數據切片的分析。我記得2016年美國大選結束的時候, Kensho第二天就推出一個圖,分析如果是共和黨的總統上台,對於資產長期來看,會有什麼樣的影響。各種相關性的比較,可以想像出來無窮種的組合。

第五個例子是一個策略:如果原油價格超過了50美元一桶之後,我買入,5天之後就賣出,這樣的一種事件,從歷史預期來看,我能得到什麼樣的回報率。像這樣簡單的策略,也是有無窮多種的組合的。

對一個初級分析師來說,要做以上這些事,他要去收集數據、整合數據、自己做相關性分析,還要畫圖。Kensho 則可以一分鐘內完成這些以前要幾小時,甚至幾天才能做完的事。從這點來講,華爾街有些人會「人神共憤」,是可以理解的。

我們也注意到,剛才有幾段截圖是從電視上來的,這是CNBC。在 Kensho 的早期,它的幾個商業模式之一就是跟媒體合作,幫助媒體分析。另外一個就是像高盛這樣的獲客、留客、分倉的商業模式。

在電視訪談裡面,也有人問過 Kensho 的創始人,問你們自己去炒嗎?他很堅定地說,我們自己不去做交易,我們要做成千上萬家金融機構決策的提供商,但我們自己不下水做交易。有一段時間Kensho被高盛買了以後,其他人就很難用到了,只有高盛的客戶才能用。我又問了我在高盛的同學,他們自己也不太能夠用到這個東西,所以外邊也很難用得到。不知道在座的,有沒有用過kensho的?(參會者回復)沒有。

5.5億美元貴不貴?

不久以前,Kensho 以5.5億美元被標準普爾收購,貴不貴?

大家一開始對 Kensho 的預期遠遠高於5.5億美元。公認 Kensho 有非常巨大的市場。因為整個金融的數據市場,大概是260億美元。

大約在三年前,有一個新聞說,說如果廣泛加以應用,那麼 Warren,即Kensho 的搜索系統,可能會撼動長期以來,被彭博社、湯森路透所壟斷的260億美元的金融數據市場。如果它真正能夠撼動市場,它將來的價格不會是5.5億美元。

下面的幾句話都是正方觀點,在兩年前或三年前的時候,大家看到 Kensho 的時候,其實預期是比現在更高的。其中一個說,如果Kensho 的產品最後能夠研發成功,金融機構的分析師和研究人員將面臨災難,面對更快、更好的機器人分析師,他們毫無勝算。

最後一句話,也是Kensho 創始人自己在一次訪談里說的,他說他推出了 Kensho 這個系統以後,有人給他打電話說:「你這個叛徒!如果你發現了這種關係,你就用這種關係來交易,但你不要公開它,你公開它,就導致大家都沒法交易了。」

事實是,5.5億美元的價格,從某種程度上說明,上述預期並沒有達到。

我也找到了一些針對 Kensho 的反方觀點,這些觀點不一定正確,但是非常值得思考。

第一個說法是,彭博可以很容易地複製 Kensho ,而且可以做得好100倍。我在諮詢彭博的同學後,感受是,彭博在短期內,還做不出Kensho。自從我回國以來,我聽到了至少不下10個團隊,試圖去複製 Kensho,也有一些非常大的國家級機構,也想去做這種東西,到目前為止,還沒有一個能做成的。

第二個觀點來自高盛的朋友。他說這些年來,並沒有看到 Kensho 做出什麼牛逼的東西,也沒見高盛內部人用過 Kensho ,更多是高盛的客戶在用。

第三個,有人質疑,說 Kensho 提供了相關性,統計過去的事件對股票的影響,針對未來的操作會有指導意義嗎?勝算有多高呢?我們也知道,其實我們在買基金的時候,都會有這麼一條說明,過去的業績不等於未來的預測。過去的相關性是不是對未來有指導意義?可能不同的學派對這些有不同的想法。

最後一點,我想應該是被證實了的。普通人想一夜就能成為坐著數錢的交易員的話,還是洗洗睡吧。Kensho 這樣的大殺器,到底能不能讓人掙錢,這是第一個問題。它能不能讓普通人掙錢,這是第二個問題。我想這兩個問題,在目前還沒有明確的答案,至少現在沒有肯定的答案

我們回過頭來看,為什麼 Kensho 能值5.5億美元?

5.5億美元,在某些情況下,我們看是個小數字,但已經是近年來最大的一筆人工智慧公司的併購了

在人工智慧領域裡,一般來說,常見的併購額度是1億到2億美元。我們知道,Siri 當初的收購價格是2億美元。微軟在幾年前收購 Powerset 的時候,也就是它的智能搜索引擎,2億美元。最便宜的是亞馬遜的智能音箱背後的搜索引擎True Knowledge,2600萬美元。

所以說相比之下,Kensho賣了5.5億美元,可以說是給人工智慧公司打了一針興奮劑,對於某些投資機構,也是一個利好的消息。

我們從kensho底層來看,想複製它的的確確是一件不容易的事情,不管是在中國,還是在美國。

基於這樣的技術複雜度,5.5億美元是一個非常合理的價格

構造 Kensho 的技術關鍵

為什麼過去4年沒有一家團隊能夠成功複製 Kensho?

Kensho包含三個難度比較高的組成部分,這三個組成部分在中國的基礎目前都還不到位。它們分別是:底層的結構化資料庫中間層的金融領域知識庫前端的問答技術

第一個部分是結構化資料庫。如果我們簡化一下 Kensho,可以不精確地認為 Kensho 是給高盛的結構化資料庫做了一個自然語言的前端。如果讓 Kensho 從頭把所有的結構化資料庫做出來,那一兩年絕對不夠,十年也不一定行。高盛在過去20年多少萬人的積累,才創造出來這樣一個底層資料庫,比如SecDB,現在應該遠遠不止9萬個數據集了,在此基礎上才可能有 Kensho。有了上述的基礎設施以後,在上面做自然語言的前端,才能水到渠成。

Kensho 的產生也依賴於過去十年美國整個數據生態系統的發展。2009年奧巴馬上台時,曾發布過一個總統令,要求美國所有政府部門都開放數據,其中也包含了大量金融部門,包括 SEC。美國所有基礎證券的信息,各個細分領域的國民經濟政府數據都是開放的,所有人不需要任何申請就能拿到。到目前為止,美國政府已開放了上百萬個這樣的數據集。

而在中國,這樣開放的數據基礎近乎於零。現在連基礎證券的數據,包括新三板或者主板的 XBRL 數據,還不能讓所有人免費、公開地訪問。這個數據生態的差距是以光年來計算的。

第二個是金融領域的知識庫,在做金融統計時,會有各種關聯分析、回歸分析和細分子領域的分析,比如產業鏈、財務模型、行業模型,宏觀模型、投資模型等等。

以財務模型為例,美國有 GAAP 模型,中國有 CAS 模型,這都是成千上萬條不同的會計準則,有了這些準則後,我們才能做財務的一致性校驗。

在產業鏈領域,國內也有一些公司在做。美國的Capital IQ公司,很早以前就把產業對標做得很透了。而國內,還遠遠沒有做好給公司打標籤,或對標研究這件事。行業模型、宏觀模型、各種投資模型,現在也都是方興未艾。我們如果想做好上面提到的 Kensho的幾個案例,逃不掉這些模型。而要做這些模型,需要協調各領域、各分支的專家,整合各種各樣的專家知識。目前在中文領域,這一塊還比較缺失。

第三塊,從技術上來說是更有挑戰的東西,就是前端問答技術。前幾天,我在知乎上回答了一個帖子,有人問:Kensho 能不能複製?複製的核心技術要點是什麼?我回答,前端問答是其中的一個大挑戰。一位讀者留言說:問答技術沒什麼了不起,現在搜索引擎公司早就解決這個問題了。

這是一個誤區,像小冰這樣的問答機器人,大家看起來已經很智能了,但這種技術很難用在 Kensho上,因為這是兩種完全不同的技術路線。

小冰本質上是一種基於檢索的技術。它是從一大堆文本裡頭,找到過去存在的相似問答,再做答案和問題間的匹配。用術語來說,是用端到端的深度學習的模型來做訓練。但這樣的模型,有兩個問題:第一,它無法精確地理解這個問題是什麼,就是說它無法進行語義解析;第二,它的答案很難被構造出來。比如,像上述Kensho 例子中一些各種不同切面的切分,各種不同指標的組合,我們可以設想出無窮多種的組合,但用深度學習技術,卻無法生成無窮多種答案。

如果想做到這一點,我們必須要做語義解析也就是真的理解用戶說的話,理解他說的詞是什麼意思,詞和詞之間是什麼關係,這可能是這個問題最難的一點。到目前為止,這還不是一個完全被解決的問題。具體要做語義解析,又要涉及大概十幾種非常專業的技術。小冰的技術是沒有辦法用到 Kensho 這樣的強知識性問答中的。

回顧了這三個關鍵點後,我們可以說,想建立Kensho 這樣的系統,要依賴於很多先決條件,包括數據基礎、領域知識庫基礎和前端問答基礎,這三塊都很有挑戰。對專業人士而言,這不是一個令人吃驚的結果。因為在過去40年的專家系統開發中,這些問題一直都困擾著整個知識工程界,只是現在在金融領域,我們再次遇到了這些攔路虎。

所以我要為 Kensho 團隊點贊:他們做得非常好,Kensho團隊現在是600多個人,他們技術部門是100多人,用100多個技術人員,就能把這樣高複雜度的問題做到現在的結果,非常不容易。

跳出 kensho 思考智能金融

前面主要是在講 Kensho 是什麼,大多數都在陳述事實。在這一篇章,我主要講我的觀點,還有信仰。

先說一個事實,過去4年了,我們沒有看到真正的 Kensho 的複製品。為什麼會沒有?我提出兩個觀點和一個信仰。

第一個觀點,Kensho 不會取代任何人,所以說剛開始我給大家看的三個新聞截圖,我認為是不會發生的。Kensho 不會取代任何交易員,Kensho 不會取代任何投資經理,Kensho 不會取代任何分析師,甚至 Kensho 未必會取代任何實習生。因為它所要做的事情跟我們對它的期望,其實是有很大的距離的。

第二個觀點,Kensho在中國目前無法複製,從技術、產品、商業模式幾個層面上來分析。

技術層面剛才分析過了,想造出這樣的產品來,可能還需要一段時間的發展。

數據層面這邊,金融數據是不是能開放,基礎資料庫、公告資料庫、研報資料庫,市場上是不是有廠商可以提供?中國現在有400種公告,每天就有大概2000多份公告,還不算新三板的。這些公告絕大多數沒有結構化,什麼時候能夠結構化?

我們之前有研報的一致性預期,研報裡面僅僅只有這些信息可以用嗎?很多其他的信息,不管是做交易,還是做監管,都是需要的。

還有新聞,每天成千上萬條新聞。輿情監控基本上只能做到一個正負面,是不是可以再深入分析?大量的新聞裡面的數據是不是能夠被應用起來?我們脫離這些數據基礎來造 Kensho,現在是造不出來的。

最後一點,從商業模式上來講。Kensho最早的商業模式,應該是幫助這些券商獲客,或者來提高客戶留存率。因為券商作為一個服務機構,它向客戶提供投研能力,讓更多的交易發生在自己的平台上面,從而提高分倉傭金,這是一種商業模式。Kensho 從中可以分到一筆錢。這個模式在中國能不能複製成功?到目前為止還沒有先例,也許可以。

最後我認為,我們現在做智能金融,可能大家就直接奔著提高交易的效率,或者是掙更多的錢,或者是打敗這個市場的思路,這個模式是不是應該追求的?經過兩年多的探索之後,我認為這個事情未必應該是這樣的,或者說智能金融應該有一個更大的途徑,而不僅僅是追求 Kensho 這一個途徑

這個途徑,我認為應該是通過零件的打造,逐步走向所謂大工業的金融

前兩天,我們跟另外一個證券公司的人聊過,他們從兩年前就開始想複製 Kensho,內部加上外部的合作商一起開發,都開發不出來,他很失望。

「Kensho」,打引號的Kensho,不是說Kensho本身,而是這樣一種聰明的金融專家系統,是我們的目標。可能路徑比我們的目標更重要。目標是引導我們走向未來的一個明燈,但是我們真正想走到目標,更重要的是怎麼去設計這個路徑。

是不是我們直奔著目標,這個路徑就對了?大多數的歷史進程裡面,證明不是這個樣子的,我們需要迂迴。

所以在我看來,就目前這幾年時間,比較合理的目標和路徑,是把一部分信息處理流程標準件化,這是目前階段比較合理的追求目標。

大概兩年前,我去一個資管公司,他們有千億以上的總資產。總經理問了我兩個問題:第一,你現在立即、馬上就能幫我掙錢嗎?第二,你是不是立即、馬上,就能夠幫我比市場上其他人掙更多的錢?

我實事求是地說,好像這兩個答案,我現在都不能給你肯定的答覆。

他說如果做不到,那你們搞智能金融還有什麼意義?

我相信這個想法,可能在那個時候非常普遍,是一種非常高的預期。最近這兩年跟大家溝通的過程中,越來越少地聽到這樣的想法。

我們跟多家機構合作都找到了更小的落地點,大家不再追求這樣一個可以說是非理性的目標了。

回過頭來,咱們想一想,如果這家公司有數千億,你能持久地高於市場的回報率,最終的結果會是什麼?這種事情真的有可能發生嗎?任何人也打敗不了市場,市場打敗不了市場本身。

如何跳出 Kensho 思考智能金融?

在下半部分的文章中,鮑捷博士將細緻闡述一種反常識的新思路——智能金融的切入點,一定不是股票交易,離交易越遠越能落地。通過零件的打造,逐步走向所謂大工業的金融。

請期待周四即將發布的《從 Kensho 看大工業金融的發展路徑(下)》


推薦閱讀:

大陸考CFA的流程是怎樣的?
人類經歷的那些免費和價值重構----也說樂視網硬體免費
P2P,P2B,P2C,P2N等等互聯網金融行業里,到底有什麼區別?
什麼叫做萬能均線?
睡前消息【18-01-29】上上下下

TAG:金融 | 工業 | 人工智慧 |