從 Kensho 看大工業金融的發展路徑（上）

05-11

2018年3月7日，美國智能投研公司Kensho被標普全球以5.5億美元收購，這是迄今為止，華爾街最大規模的人工智慧公司併購案。

5.5億美元貴不貴？Kensho究竟能做到什麼？它的模式將給國內智能金融行業帶來怎樣的啟示？為什麼智能金融領域沒能出現第二個 Kensho？為什麼智能金融不必複製 Kensho？

在上半部分的文章中，文因互聯 CEO 鮑捷博士結合兩年多的實踐探索經驗，為大家一一解答。

作者介紹 鮑捷博士，文因互聯 CEO。擁有20年學術界和工業界的相關經驗。美國Iowa State University人工智慧博士，RPI博士後，MIT訪問研究員，W3C OWL(Web本體語言)工作組成員，前三星美國研發中心研究員，三星問答系統SVoice第二代系統核心設計師。主要研究領域涵蓋人工智慧的諸多分支，包括機器學習、神經網路、數據挖掘、自然語言處理、形式推理、語義網和本體工程等，發表了70多篇領域內相關論文。是中文信息學會語言與知識計算專委會委員，中國計算機協會會刊編委，W3C顧問會員會代表。2010年以來關注金融智能化的研究和應用，成果有XBRL語義模型，基於知識圖譜的基本面分析、金融問答引擎、財務報告自動化提取、自動化監管等。

Kensho公司簡介

2013年，Daniel Nadler創立了Kensho；2014年Kensho與高盛合作，並獲得高盛的1500萬美元投資；2017年,獲標普國際領投的B輪5000萬美元融資，估值達5億美元；其核心產品是金融決策引擎「Warren」,曾成功預言英國脫歐後的英鎊走勢，及2017年美國科技股的強勢上漲。

以下為演講原文：

Kensho 以5.5 億美元被收購，這個消息到底是一個利空？還是一個利好？

我今天想要和大家探討：

第一，Kensho是什麼；
第二，怎麼做出 Kensho；
第三，我們能不能做到；
第四，是否應該那樣去做。

接下來要講的，有的是事實，有的是觀點，有的是信仰。

事實是大家都已經看到的東西；

觀點我相信而且有一定的證據能夠證明的東西；

信仰是在遙遠的未來才能夠證明的東西。

AI的循環：人神共憤 or 騙子

先做一個簡單的自我介紹，我從1998年開始做人工智慧的研究，人工智慧有幾個大的學派，神經網路、機器學習，還有邏輯學派，或者說理性主義學派，這幾個學派，我或多或少都有一些涉獵。

我在2001年去的美國，在衣阿華州立大學拿到博士學位，博士期間主要做語義網的研究，這個領域現在改名字叫知識圖譜了。2007年博士畢業以後，去了倫斯勒理工學院（RPI），2010年的時候去了MIT，在圖靈獎得主Tim Berners-Lee 的實驗室。2011年去了三星美國研究院，在那裡做自然語言處理的研究，研究問答系統。2013年以後，開始自己在矽谷創業。2015年的時候，把團隊帶回中國來，專註在智能金融領域。我們的公司叫文因互聯。

自己跟金融有關的經歷，是2010年還在MIT的時候，跟MIT管理學院，還有Fidelity的工程師一起做了一個 XBRL 的語義建模。XBRL 是金融報表語言的一個國際標準，但是只是一個 XML 的標準，它並沒有語義，不能做推理。

比如說財務自動校驗，是它本身沒有的能力，我們給它定義了一個語義模型以方便後續的自動化工作。後來基於這個工作，我們在2011年做了一個基於語義和社交數據的基本面分析的論文，後來這篇論文拿了 IEEE金融工程和計算智能會議最佳論文。

2015年以後，我們就把其他的業務都砍掉了，專門做金融這方面，前前後後實驗了很多產品。一開始做新三板的資料庫，然後做金融搜索引擎、自動化報告、公告、研報的摘要，機器人等等。我們主要用知識圖譜技術幫助金融機構做業務的自動化，如自動化讀公告、自動化監管、自動化審計、流程自動化、問答自動化等。

人工智慧到現在也有60年的發展歷史了。自從我入行以來，我也經歷了兩個小的低谷，總的來說，人工智慧的發展基本上都是下圖這樣的：

一會兒說人類要毀滅了，一會兒又說人工智慧是騙子。尤其是去年，「人類要毀滅」了的新聞到處都是，但從今年以來，各種反思乃至否定的文章也開始出現。

以下是幾個神化人工智慧的例子：一個是說高盛的交易員要被人工智慧取代了。

另一個是說35歲以前，如果還一事無成，你還能去哪？

最後一個新聞最令人恐慌，用了一個非常誇張的詞，「人神共憤」。

這到底還是不是人工智慧？

要判斷是否具有AI屬性，不考慮科學論證的嚴謹性，一個直觀的判斷標準，看裡面是否有機器學習、知識圖譜、自然語言處理等成分，如果沒有，其實它更多的是傳統的自動化。

回過頭看這三個新聞。

比如說第一個新聞，高盛的交易員只剩兩人，是人工智慧導致的嗎？並不是。因為這裡面並沒有什麼人工智慧的技術。交易本身是一個執行，並不涉及策略的形成。交易本身分很多級，從低級到高級。現在真正被替代的應該就是一些機械的，既定的策略，去執行一下就好。與其說是人工智慧替代了這些人，不如說是資料庫和網路替代了這些人。

第二個技術，其實是在講會計。現在我們看到德勤等很多會計公司都推出了過程的自動化、財會的自動化，這些技術是不是人工智慧？很難說是不是人工智慧。

最後一條關於Kensho，Kensho的的確確是人工智慧。從數據層到表現層，最後到策略層，是人工智慧的一個綜合應用，Kensho有一個很大的知識圖譜部門。

大約從2013年、2014年開始，新一代真正的人工智慧系統開始應用在金融領域，所以人工智慧確實是在改變這個世界，改變這個行業。

但到底是不是真的會做到人神共憤的層面，我們再往下看故事。

Kensho 能做到什麼？

Kensho 這個詞是什麼意思？Kensho 是一個日語詞，它是日語的「見性」，明心見性是個佛教用語，代表的是說大徹大悟，醍醐灌頂的意思。

說起來很神，本質就是三個字——「相關性」。

大數據領域興起後，其核心想法是，與其去發現因果性，不如把數據積累起來，尋找事件和資產之間的相關性，以及事件對價格、特別是價格長期趨勢的影響，這就是 Kensho 提供的主要服務。

因為我不是 Kensho 公司的，我所知道的消息都是從公開渠道收集來的，或者打電話從老同學、老同事那裡收集來的，未必完全準確。但我們理解 Kensho 並不需要真正的去深入它的系統本身的那些細節上去，我們從它的邏輯和它的基本服務，大體上可以推斷出來它要幹什麼，建立這樣的系統需要什麼樣的東西。

我們看幾個例子，Kensho 推出的最主要的應用，就是 Warren 搜索引擎，或者說決策引擎。它能在一分鐘內，完成過去分析師要做幾個小時甚至幾天的工作。

首先， Kensho 的底層是一個很大的資料庫。兩年前，它是9萬個數據集的資料庫，在此基礎上有各種事件、價格、基本面。

這個圖是某一個ETF（Exchange Traded Funds 指數基金）的基本面研究，下面有哪些資產在ETF下面，它們最近的趨勢是什麼，比例是什麼，可以往前的推斷指標是什麼。這是 Kensho 基本的數據，像這樣的數據有成千上萬個。

在此之上，剛才提到了，它要做一個趨勢性研究，核心就是說如果有一些事情發生了，它跟資產價格之間，在長期來看是什麼樣相關的趨勢。圖上這個例子在講，歐洲的整個資產相對於英國的貿易，它們之間的相關性是什麼，這其實是一個很長很長的圖，我只截取了前面一段，就是在講相關性的各種指標是什麼。

第二個例子是原油（見下圖），在某一種價格變動後，WTI原油的表現一周內會發生什麼變化？這也是各種指標和指標之間的相關性。所以Kensho里不僅有股票，也有各種大宗資產、期貨。

第三個例子是事件影響分析，下圖描述了2000年以來，春節對資產的影響，由此可以決定我們的策略。「事件影響分析」也是 Kensho 在新聞里最常見的一個賣點。

第四個例子是長期趨勢分析，2010年以來，應該是從美股恢復以來，每年9月份，三大指數，它們的表現是什麼樣。所以它有非常多數據切片的分析。我記得2016年美國大選結束的時候， Kensho第二天就推出一個圖，分析如果是共和黨的總統上台，對於資產長期來看，會有什麼樣的影響。各種相關性的比較，可以想像出來無窮種的組合。

第五個例子是一個策略：如果原油價格超過了50美元一桶之後，我買入，5天之後就賣出，這樣的一種事件，從歷史預期來看，我能得到什麼樣的回報率。像這樣簡單的策略，也是有無窮多種的組合的。

對一個初級分析師來說，要做以上這些事，他要去收集數據、整合數據、自己做相關性分析，還要畫圖。Kensho 則可以一分鐘內完成這些以前要幾小時，甚至幾天才能做完的事。從這點來講，華爾街有些人會「人神共憤」，是可以理解的。

我們也注意到，剛才有幾段截圖是從電視上來的，這是CNBC。在 Kensho 的早期，它的幾個商業模式之一就是跟媒體合作，幫助媒體分析。另外一個就是像高盛這樣的獲客、留客、分倉的商業模式。

在電視訪談裡面，也有人問過 Kensho 的創始人，問你們自己去炒嗎？他很堅定地說，我們自己不去做交易，我們要做成千上萬家金融機構決策的提供商，但我們自己不下水做交易。有一段時間Kensho被高盛買了以後，其他人就很難用到了，只有高盛的客戶才能用。我又問了我在高盛的同學，他們自己也不太能夠用到這個東西，所以外邊也很難用得到。不知道在座的，有沒有用過kensho的？（參會者回復）沒有。

5.5億美元貴不貴？

不久以前，Kensho 以5.5億美元被標準普爾收購，貴不貴？

大家一開始對 Kensho 的預期遠遠高於5.5億美元。公認 Kensho 有非常巨大的市場。因為整個金融的數據市場，大概是260億美元。

大約在三年前，有一個新聞說，說如果廣泛加以應用，那麼 Warren，即Kensho 的搜索系統，可能會撼動長期以來，被彭博社、湯森路透所壟斷的260億美元的金融數據市場。如果它真正能夠撼動市場，它將來的價格不會是5.5億美元。

下面的幾句話都是正方觀點，在兩年前或三年前的時候，大家看到 Kensho 的時候，其實預期是比現在更高的。其中一個說，如果Kensho 的產品最後能夠研發成功，金融機構的分析師和研究人員將面臨災難，面對更快、更好的機器人分析師，他們毫無勝算。

最後一句話，也是Kensho 創始人自己在一次訪談里說的，他說他推出了 Kensho 這個系統以後，有人給他打電話說：「你這個叛徒！如果你發現了這種關係，你就用這種關係來交易，但你不要公開它，你公開它，就導致大家都沒法交易了。」

事實是，5.5億美元的價格，從某種程度上說明，上述預期並沒有達到。

我也找到了一些針對 Kensho 的反方觀點，這些觀點不一定正確，但是非常值得思考。

第一個說法是，彭博可以很容易地複製 Kensho ，而且可以做得好100倍。我在諮詢彭博的同學後，感受是，彭博在短期內，還做不出Kensho。自從我回國以來，我聽到了至少不下10個團隊，試圖去複製 Kensho，也有一些非常大的國家級機構，也想去做這種東西，到目前為止，還沒有一個能做成的。

第二個觀點來自高盛的朋友。他說這些年來，並沒有看到 Kensho 做出什麼牛逼的東西，也沒見高盛內部人用過 Kensho ，更多是高盛的客戶在用。

第三個，有人質疑，說 Kensho 提供了相關性，統計過去的事件對股票的影響，針對未來的操作會有指導意義嗎？勝算有多高呢？我們也知道，其實我們在買基金的時候，都會有這麼一條說明，過去的業績不等於未來的預測。過去的相關性是不是對未來有指導意義？可能不同的學派對這些有不同的想法。

最後一點，我想應該是被證實了的。普通人想一夜就能成為坐著數錢的交易員的話，還是洗洗睡吧。Kensho 這樣的大殺器，到底能不能讓人掙錢，這是第一個問題。它能不能讓普通人掙錢，這是第二個問題。我想這兩個問題，在目前還沒有明確的答案，至少現在沒有肯定的答案。

我們回過頭來看，為什麼 Kensho 能值5.5億美元？

5.5億美元，在某些情況下，我們看是個小數字，但已經是近年來最大的一筆人工智慧公司的併購了。

在人工智慧領域裡，一般來說，常見的併購額度是1億到2億美元。我們知道，Siri 當初的收購價格是2億美元。微軟在幾年前收購 Powerset 的時候，也就是它的智能搜索引擎，2億美元。最便宜的是亞馬遜的智能音箱背後的搜索引擎True Knowledge，2600萬美元。

所以說相比之下，Kensho賣了5.5億美元，可以說是給人工智慧公司打了一針興奮劑，對於某些投資機構，也是一個利好的消息。

我們從kensho底層來看，想複製它的的確確是一件不容易的事情，不管是在中國，還是在美國。

基於這樣的技術複雜度，5.5億美元是一個非常合理的價格。

構造 Kensho 的技術關鍵

為什麼過去4年沒有一家團隊能夠成功複製 Kensho？

Kensho包含三個難度比較高的組成部分，這三個組成部分在中國的基礎目前都還不到位。它們分別是：底層的結構化資料庫、中間層的金融領域知識庫和前端的問答技術。

第一個部分是結構化資料庫。如果我們簡化一下 Kensho，可以不精確地認為 Kensho 是給高盛的結構化資料庫做了一個自然語言的前端。如果讓 Kensho 從頭把所有的結構化資料庫做出來，那一兩年絕對不夠，十年也不一定行。高盛在過去20年多少萬人的積累，才創造出來這樣一個底層資料庫，比如SecDB，現在應該遠遠不止9萬個數據集了，在此基礎上才可能有 Kensho。有了上述的基礎設施以後，在上面做自然語言的前端，才能水到渠成。

Kensho 的產生也依賴於過去十年美國整個數據生態系統的發展。2009年奧巴馬上台時，曾發布過一個總統令，要求美國所有政府部門都開放數據，其中也包含了大量金融部門，包括 SEC。美國所有基礎證券的信息，各個細分領域的國民經濟政府數據都是開放的，所有人不需要任何申請就能拿到。到目前為止，美國政府已開放了上百萬個這樣的數據集。

而在中國，這樣開放的數據基礎近乎於零。現在連基礎證券的數據，包括新三板或者主板的 XBRL 數據，還不能讓所有人免費、公開地訪問。這個數據生態的差距是以光年來計算的。

第二個是金融領域的知識庫，在做金融統計時，會有各種關聯分析、回歸分析和細分子領域的分析，比如產業鏈、財務模型、行業模型，宏觀模型、投資模型等等。

以財務模型為例，美國有 GAAP 模型，中國有 CAS 模型，這都是成千上萬條不同的會計準則，有了這些準則後，我們才能做財務的一致性校驗。

在產業鏈領域，國內也有一些公司在做。美國的Capital IQ公司，很早以前就把產業對標做得很透了。而國內，還遠遠沒有做好給公司打標籤，或對標研究這件事。行業模型、宏觀模型、各種投資模型，現在也都是方興未艾。我們如果想做好上面提到的 Kensho的幾個案例，逃不掉這些模型。而要做這些模型，需要協調各領域、各分支的專家，整合各種各樣的專家知識。目前在中文領域，這一塊還比較缺失。

第三塊，從技術上來說是更有挑戰的東西，就是前端問答技術。前幾天，我在知乎上回答了一個帖子，有人問：Kensho 能不能複製？複製的核心技術要點是什麼？我回答，前端問答是其中的一個大挑戰。一位讀者留言說：問答技術沒什麼了不起，現在搜索引擎公司早就解決這個問題了。

這是一個誤區，像小冰這樣的問答機器人，大家看起來已經很智能了，但這種技術很難用在 Kensho上，因為這是兩種完全不同的技術路線。

小冰本質上是一種基於檢索的技術。它是從一大堆文本裡頭，找到過去存在的相似問答，再做答案和問題間的匹配。用術語來說，是用端到端的深度學習的模型來做訓練。但這樣的模型，有兩個問題：第一，它無法精確地理解這個問題是什麼，就是說它無法進行語義解析；第二，它的答案很難被構造出來。比如，像上述Kensho 例子中一些各種不同切面的切分，各種不同指標的組合，我們可以設想出無窮多種的組合，但用深度學習技術，卻無法生成無窮多種答案。

如果想做到這一點，我們必須要做語義解析，也就是真的理解用戶說的話，理解他說的詞是什麼意思，詞和詞之間是什麼關係，這可能是這個問題最難的一點。到目前為止，這還不是一個完全被解決的問題。具體要做語義解析，又要涉及大概十幾種非常專業的技術。小冰的技術是沒有辦法用到 Kensho 這樣的強知識性問答中的。

回顧了這三個關鍵點後，我們可以說，想建立Kensho 這樣的系統，要依賴於很多先決條件，包括數據基礎、領域知識庫基礎和前端問答基礎，這三塊都很有挑戰。對專業人士而言，這不是一個令人吃驚的結果。因為在過去40年的專家系統開發中，這些問題一直都困擾著整個知識工程界，只是現在在金融領域，我們再次遇到了這些攔路虎。

所以我要為 Kensho 團隊點贊：他們做得非常好，Kensho團隊現在是600多個人，他們技術部門是100多人，用100多個技術人員，就能把這樣高複雜度的問題做到現在的結果，非常不容易。

跳出 kensho 思考智能金融

前面主要是在講 Kensho 是什麼，大多數都在陳述事實。在這一篇章，我主要講我的觀點，還有信仰。

先說一個事實，過去4年了，我們沒有看到真正的 Kensho 的複製品。為什麼會沒有？我提出兩個觀點和一個信仰。

第一個觀點，Kensho 不會取代任何人，所以說剛開始我給大家看的三個新聞截圖，我認為是不會發生的。Kensho 不會取代任何交易員，Kensho 不會取代任何投資經理，Kensho 不會取代任何分析師，甚至 Kensho 未必會取代任何實習生。因為它所要做的事情跟我們對它的期望，其實是有很大的距離的。

第二個觀點，Kensho在中國目前無法複製，從技術、產品、商業模式幾個層面上來分析。

技術層面剛才分析過了，想造出這樣的產品來，可能還需要一段時間的發展。

數據層面這邊，金融數據是不是能開放，基礎資料庫、公告資料庫、研報資料庫，市場上是不是有廠商可以提供？中國現在有400種公告，每天就有大概2000多份公告，還不算新三板的。這些公告絕大多數沒有結構化，什麼時候能夠結構化？

我們之前有研報的一致性預期，研報裡面僅僅只有這些信息可以用嗎？很多其他的信息，不管是做交易，還是做監管，都是需要的。

還有新聞，每天成千上萬條新聞。輿情監控基本上只能做到一個正負面，是不是可以再深入分析？大量的新聞裡面的數據是不是能夠被應用起來？我們脫離這些數據基礎來造 Kensho，現在是造不出來的。

最後一點，從商業模式上來講。Kensho最早的商業模式，應該是幫助這些券商獲客，或者來提高客戶留存率。因為券商作為一個服務機構，它向客戶提供投研能力，讓更多的交易發生在自己的平台上面，從而提高分倉傭金，這是一種商業模式。Kensho 從中可以分到一筆錢。這個模式在中國能不能複製成功？到目前為止還沒有先例，也許可以。

最後我認為，我們現在做智能金融，可能大家就直接奔著提高交易的效率，或者是掙更多的錢，或者是打敗這個市場的思路，這個模式是不是應該追求的？經過兩年多的探索之後，我認為這個事情未必應該是這樣的，或者說智能金融應該有一個更大的途徑，而不僅僅是追求 Kensho 這一個途徑。

這個途徑，我認為應該是通過零件的打造，逐步走向所謂大工業的金融。

前兩天，我們跟另外一個證券公司的人聊過，他們從兩年前就開始想複製 Kensho，內部加上外部的合作商一起開發，都開發不出來，他很失望。

「Kensho」，打引號的Kensho，不是說Kensho本身，而是這樣一種聰明的金融專家系統，是我們的目標。可能路徑比我們的目標更重要。目標是引導我們走向未來的一個明燈，但是我們真正想走到目標，更重要的是怎麼去設計這個路徑。

是不是我們直奔著目標，這個路徑就對了？大多數的歷史進程裡面，證明不是這個樣子的，我們需要迂迴。

所以在我看來，就目前這幾年時間，比較合理的目標和路徑，是把一部分信息處理流程標準件化，這是目前階段比較合理的追求目標。

大概兩年前，我去一個資管公司，他們有千億以上的總資產。總經理問了我兩個問題：第一，你現在立即、馬上就能幫我掙錢嗎？第二，你是不是立即、馬上，就能夠幫我比市場上其他人掙更多的錢？

我實事求是地說，好像這兩個答案，我現在都不能給你肯定的答覆。

他說如果做不到，那你們搞智能金融還有什麼意義？

我相信這個想法，可能在那個時候非常普遍，是一種非常高的預期。最近這兩年跟大家溝通的過程中，越來越少地聽到這樣的想法。

我們跟多家機構合作都找到了更小的落地點，大家不再追求這樣一個可以說是非理性的目標了。

回過頭來，咱們想一想，如果這家公司有數千億，你能持久地高於市場的回報率，最終的結果會是什麼？這種事情真的有可能發生嗎？任何人也打敗不了市場，市場打敗不了市場本身。

如何跳出 Kensho 思考智能金融？

在下半部分的文章中，鮑捷博士將細緻闡述一種反常識的新思路——智能金融的切入點，一定不是股票交易，離交易越遠越能落地。通過零件的打造，逐步走向所謂大工業的金融。

請期待周四即將發布的《從 Kensho 看大工業金融的發展路徑（下）》