實事求是談金融報告自動化

01-29

（本文根據作者在某諮詢公司的講座整理）

三個迷信

在講具體的技術之前，我想先說說關於人工智慧的三個迷信。

第一個迷信，因為AlphaGo 戰勝了圍棋冠軍，所以 AI 也可以做 XYZ（比如炒股）。可事實是，AlphaGo 只是 AI 的極小的一個分支。AI 總體還是處於「有多少人工就有多少智能」的水平。

第二個迷信，因為機器效率高，所以效率低的人會被機器消滅掉。我一開始也是這樣想的，但是後來我發現並不是這樣的。比如說計算器，計算器做加減乘除是比所有的人做得效率都高的。但會計並沒有因為計算器而失業。恰恰相反，現在這個時刻，可能是人類歷史上會計最多的一個時刻，未來還有可能更多。能被機器取代的，是完全的機械工作，就像工廠里的機器人那種工作，月工資2000塊錢以下的那種工作。大多數的工作還是需要創造力的，至少需要有一部分的創造力。當機器提高了工作效率之後，實際上是使得擁有這種技能的人反而被增強了，而不是被替代了。所以在我看來，分析師肯定不會被機器替代掉，而是隨著機器能力的上升，分析師的人數將來會越來越多。

第三個迷信，即人工智慧應用就要搞深度學習。我前兩天去拜訪一個客戶的時候，他們問我人工智慧是什麼？怎麼能夠應用到金融分析？我給他看了一堆列表，他看完了之後，覺得這不是人工智慧，因為據他所知人工智慧就是深度學習。甚至很多人會把關係顛倒過來，認為機器學習是深度學習的一個分支。可能最近兩年裡面，在媒體里到處都是這樣的報道，所以產生這樣的誤解。但是在人工智慧的幾個學派裡面，神經網路只是其中的一個學派，我們稱為連接主義學派。深度學習又只是連接主義學派當中的一個細小的分支。任何一個項目通常都不是一種演算法能夠完成的，而是很多種演算法集合在一起才能做成的。人工智慧有4個不同的主義，其中一個是連接主義的神經網路；再有一個是理性主義，就是邏輯的那一套；還有經驗主義，是機器學習那一套；但這些主義，都沒有最後一個主義厲害，我管它叫媒體主義，媒體說的AI其實是我們根本還做不到的。

金融報告是什麼

言歸正傳，回到今天我們的主題——金融報告能不能自動化以及怎麼自動化。首先要確認有哪些東西可以稱為金融報告。

第一種是信息披露報告，有股轉書，有做債的報告，有貸款的報告。新三板、A股、美股都有招股說明書、股轉書，這是信息披露類型的報告。還有年報、季報等等，全球每年有幾百萬份。

第二種就是研究報告，基於這些公開的材料，我們再做一些加工，有賣方的券商的報告，有買方的基金的報告，還有中介機構、諮詢公司的報告。

第三種報告，我稱為摘要型的報告。在各個大的券商，微信群裡面，每天都會發，比如說分行業、計算機行業、汽車行業，發生了很多事情，做一個每天的摘要這樣一個報告。巨潮網每天也都會發，早上發、中午發、晚上發，重要公告列表，這是一種公告摘要。還有一種是日常的跟蹤報告，有按天的、有按小時的，有按月的、按周的，報盤的新聞，在很多的財經媒體上，這種股票走勢、大盤走勢，這種行為都是機器人寫的。再有一種就是企業的信息圖、基本要素的分析，很多剛入行的分析師、實習生，每天都在寫這種東西，把這個企業拿過來看一下，基本亮點是什麼，股轉書裡面弄一個PPT出來，寫這種東西。

最後一種，我把它稱為陳述性的文章。我把所有前面不能夠囊括的東西都歸在這個裡面了，各種各樣的新聞，背景介紹、公司介紹、行業介紹，或者介紹一個新公司。比如，做鋰電池的，鋰電池是什麼？等等信息。然後深度進行觀點分析，我認為這件事情是什麼樣的，展開講述。最後就是八卦，比如「金融八卦女」。像八卦這個東西，機器人肯定替代不了。

前面這些東西，哪些是機器可以取代的，這就是我們今天要討論的話題。

人 vs 機器

分析師和記者會失業嗎？如果要有一個簡短的回答就是：NO。當然，實際情況並不是這麼簡單，因為分析師和記者，他們做的事情可以分為很多維度，有些維度的的確確是機器可以去做的。

分析師和記者到底在做什麼事情？我們把東西整個抽象起來就是三步，第一步信息獲取，第二步信息加工，第三步發布出去。舉一個例子，對一個企業做一個分析，我們通過某種渠道來找到這個信息的發源地，可能是股轉書，或者是公司的路演材料等等，我們進行分析，這是案頭的工作，還有一種是非案頭的工作，打電話跟董事長聊，去見他的董秘跟他聊，然後自己做分析達到一個結果，這是一個一般的流程。這裡面肯定有一部分工作是機器目前還沒有辦法做的，比如說盡職調查這個過程，打電話的過程。機器能先在案頭工作這一部分提高我們的效率。但最關鍵的東西就是 Insights，是機器人不能做的。人為什麼能夠做好這件事情？因為我們能夠有 Insights，有洞察，人能夠發現事情背後的一些聯繫，這是之所以需要人類分析師的原因。

我們對比來看，人的報告和機器的報告。

第一點，人的報告的優點是語言流暢。當然也不是絕對的，我看過一個股轉書裡面有大量的語法錯誤，所以被股轉中心給打回來了。但總的來說，人的語言比機器的語言是要流暢很多的。

第二點，內容相對來講比較豐富。因為機器能做的還很有限，它輸入的是什麼，說出的就是什麼。人可以發現很多種不同的相關的因素。比如說像我們最近在看某諮詢機構的報告，假如只是從內容的角度來看，50頁紙的報告里，我們評估下來，應該是90%以上的內容是機器沒有辦法生成的，這可能讓大家（分析師們）更加放心一點。就是說如果僅僅只是從內容本身以及公開材料的獲取的角度來說，機器現在還沒有辦法替代人在內容組織上的優勢。

第三個，人有豐富的Insights。我們人不僅可以發現 Insights，還可以關聯 Insights。

機器的優點在哪裡？快，非常非常快，一天24小時可以不間斷地工作，一秒鐘就會做出一個報告，這是人做不到的事情。內容，它也可以相對集中。人無法收集到太多信息，但是機器可以幾萬份報告全部扒過來，然後從裡面挑東西。簡單的分析羅列，在量上面，機器可以做得更好。

背後的技術

如果用機器來做，涉及到哪些技術？我們把它大概分成三部分內容。

輸入的時候是一些原始數據。這些原始數據有些是結構化數據，但我們現在面臨更大量的是非結構化的數據，各種各樣的文本。我們會進行自然語言理解（Nature Language Understanding），生成相對而言結構化的數據。這個結構化的數據，跟大家資料庫用到的結構化數據不是完全一樣的。因為如果我們想把數據完全去歸約成結構化的數據，比如把一個公司的財報全部變成資料庫的模式，成本是非常高的。我們在每一步處理都會犯很多錯誤，為了糾正這些錯誤，會需要大量的工程性投入。通常我們為了降低工程成本，在結構化的時候，會滿足一定終止條件，比如到某個力度不往下分了，比如說段落，會停留在這裡，這個段落會打標籤，這些標籤又是結構化的數據。通常這裡的結構化數據是根據我們在這個場景下面的預算來決定的。

有了結構化數據之後，我們重新把它變成人容易理解的語言，這個過程叫自然語言生成（Nature Language Generation）。從數據變成文本，還有另外一種就是從數據變成圖像，圖形可視化。大家天天都在用 Excel，或者其他的東西來進行可視化。把這些文字和這些圖表結合在一起，就會形成一篇文章，這是一般的流程。

我們先看第一步的非常簡化的一個示意，我們輸入各種數據，有PDF的、XBRL的半結構化金融報表，EXCEL的、WORD的拿過來進行分析。得到了相對而言乾淨的數據。什麼叫乾淨？這個乾淨與否，主要是對機器而言，那些機器很難處理的數據，我們通常把它稱為臟數據，機器相對而言比較容易處理的數據，我們稱為乾淨數據。我對股轉書比較熟悉，對新三板的股轉書，裡面有7%的股轉書是掃描件，這種掃描件，我們把它稱為臟數據。我們要花巨大的精力來做數據清洗工作。還有大量的重複，比如說券商的報告。券商去年發布了18萬份報告，其中大量是重複的東西，他們的晨報，在每個平台都發一遍。所以我們要做去重工作。還有就是數據排序，按照各種各樣數據的質量、重要性來探尋。

做完數據清洗，這最難的一步，可能80%的工作就做完了。下一步，就是進一步去做結構化的提升。主要就是實體的發現和關係的發現。什麼是實體？公司、人、產品，每個東西都是一個實體（Entity）。實體和實體之間是有關係的，萬事萬物之間都有關係，最後構成了一個圖（Graph）。這是一個基本的過程。

自然語言生成有三種常見方法。一種是基於模板的方法，是非常簡單的方法。可以說它不需要太高深的技術，非常多的機構都已經在用了。可能大家沒有注意到，很多財經媒體在好幾年之前，就已經在用模板，做報盤數據、跟蹤的報告。這幾年基於模板的方法得到了長足的進步，因為以前用人來寫模板，只能寫幾十個模板、幾百個模板，所以那個句子一眼就看得出來，就那麼幾種編寫。現在大家可以用機器學習來生成這些模板，通過學習海量的已有文檔，發現以前人是怎麼描述這些事，機器生成成千上萬的模板，所以現在的句子就寫得越來越好看。

下一種方法是基於知識圖譜的方法，比上面一種稍微進步一點。前面這種一般是填表，基於知識圖譜相對而言要複雜一點，要做一個推理而不是直接的句子、直接的詞和詞，數字到數字的過程。下面給了個例子，比如說這是從兩個不同的數據源來，一個數據源說，這個公司的主營業務是汽車的塗料生產。第二個數據源說，汽車的銷售量在下降。在這個過程中，我們要做一個推理，汽車銷量下降，意味著汽車塗料也可能會下降，有可能這個公司的主營業務會下降。但這個邏輯不是100%的，只是說存在這樣一個推理途徑，我們可以推理出來，這個事情還沒有發生。機器是可以寫出這樣的話，是因為背後我們有推理機。

第三種方法是機器學習。現在的方法，不僅僅局限於學習模板，很多時候是直接把句子拿過來用，往大了說，現在有很多機器學習和深度學習的問答系統。輸出一個問題，回答一個這樣的句子，這些句子並不是機器生成的，而是機器從浩如煙海的人類文檔裡面把它提取出來。這種方法的前提是什麼？是要有海量的數據。所以這種方法一般只適用於Web頭部的搜索，一些細分的領域是沒有辦法去做的。

我們現在正在做公告摘要，是報告的其中一個模塊。之所以提出來，是因為它是兩種不同方法的混合。我在一開始的時候也提到了，人工智慧方法不止一種。我們通常是用多種方法進行混合來解決問題的。在這裡，我們綜合運用深度學習的方法和知識圖譜的方法。我們會在公告的處理上，首先用深度學習來進行句子層面的解析，全面訓練句子並打標籤，這是用深度學習的方法來做的。有了這些句子層面的數據和所謂的元數據之後，我們在知識圖譜上面進行一個標註，因為所有的標籤背後都是有關係的。這個關係就是知識圖譜，最終基於此我們來生成公告摘要。之後我會給一些例子。

知識圖譜

接下來具體講一下知識圖譜。知識圖譜用一句話來說就是圖譜，即圖（Graph）。在座每一位都學過如何畫畫，就知道知識圖譜是什麼了。困難在哪裡？人畫圖和讓機器來理解圖是不一樣的。讓機器去存儲幾張圖和讓機器去存儲幾萬張、幾千萬張圖，也是不一樣的。所以在工程上，我們僅僅為了解決圖的提取、表達、存儲、檢索這幾件事情，就不得不發明一整套的方法來做。知識圖譜技術，並不是從天上掉下來的，實際上它是基於過去二三十年時間，幾個不同的細分領域的發展。後來，大概在五年之前，它們交匯在一起，所以我們給它一個新的名字叫知識圖譜。它大概有4個不同的分支：

第一個分支是從傳統的自然語言處理髮展來，叫做知識提取。它主要研究如何從各種各樣的文本里，把知識的結構發現出來。

第二塊叫知識表現。研究怎麼讓機器更好的表達圖譜。我們有一個任務叫做推理。推理在數學上嚴格的表述，實際上是當圖上面有一些邊之後，如何發現新的邊，這個過程就是推理。推理有非常多的變種，但是你把它抽象了看，其實就是在講圖上推導邊。怎麼去做這種推理，怎麼去做這種圖在計算機里的表示，怎麼樣的方法是最高效的，最不容易犯錯誤的，這個研究領域就稱為知識表現。在研究過程中，我們產生了很多好東西，把它稱為知識庫。比如說 Wikipedia 或者百度百科，我們去看的時候，在它的右邊有一個叫做 Infobox的邊欄。比如說我們查北京，在 Wikipedia 上就會有北京的人口、經度、緯度等等，實際上它是一個很簡單的表格。這些表格以前是人來看的。後來就有人說，為什麼不把這個東西變成一個機器可以讀的格式呢？於是就有好幾撥人來做 Wikipedia 知識圖譜的構造，後來在德國的一些大學裡，他們做了一個項目叫 DBpedia，後來在美國有個公司叫 Metaweb，他們做了一套叫 Freebase，這些所有的系統都是在說我們怎麼去方便用機器來進行知識的表示，後來 Freebase 被谷歌給買了之後，改成谷歌知識圖譜，這是2012年的事情。

第三部分是知識存儲。當我們有了海量的知識以後，如何放在計算機裡面，讓資料庫能夠更好地存儲和表達呢？傳統的資料庫是關係型的資料庫，一張一張的表。現在我們要面臨的不是一個簡單的關係，表的兩列之間可能有關係，表的兩行之間可能還有關係，表的每一個格子和每個格子都可以有關係。所以說它很難用傳統的關係資料庫或EXCEL來表示，所以又興起了一系列的新資料庫。比如圖資料庫，還有像RDF資料庫，根據不同的應用，我們會選擇不同的資料庫。

最後一塊叫知識檢索，從最低層面的大家常見的關鍵詞的檢索，到最高層面的問答系統的檢索，中間有很多不同的環節。這一塊就是在講，我現在有了一大堆的知識在我的資料庫裡頭，怎麼發現它，這一塊基本上是從搜索引擎的研究裡邊分出來的。

大概在2012年前後，這4個領域都都遇到了瓶頸，都發現知識是如此的重要，發現解決方案就是知識的處理，於是融合成新一個領域叫知識圖譜。

數據的遞進

數據的遞進可以大致分為六層。從原始的數據，比如說我們從巨潮網上看到的那些公告數據，或者是我們從客戶那裡拿到的原始的財務報表，到最後我們能夠「變魔術」，中間有一級一級、數據質量不斷提升的過程。這個魔術會根據不同的場景變化。比如說併購，假如一個海外公司委託我們分析國內哪家公司是最值得併購的，我們就能告訴他這個公司的名字，這是魔術。又比如說散戶，他要投資，希望你告訴他哪支股票買了可以漲，這也是魔術。但是不管是人還是機器，現在都沒有辦法通過這些數據立即得出結論。我們需要一步一步分析，每一步的分析背後還要有證據。我們需要一步一步地去發現數據背後的關係，提高數據背後的質量。

其實在沒有這些東西的時候，比如說100年前，那時候也是要做投資的，所有這些數據全都沒有，大家怎麼做？當時也有辦法。人是有直覺的，人是有經驗的，人是有人脈的。我聽說李四說這個股票會漲，這個股票肯定會漲。這是當時的方法。100年前的股市，就是投機分析。後來大家慢慢地變得更加理性了，慢慢地發現我們需要信息披露，慢慢地需要進行審計了，包括這些年隨著信息化的成熟，大數據技術，各種信息的自動化，一級級地把數據質量提升上去，每提升一級數據質量之後，人做判斷的時候，就沒有必要完全依靠非數字的物理世界的經驗和人脈來做。我們每多一些數據，都可以加快我們的分析的速度、效率。

分析的遞進

分析技術也分為六層來討論。

第一層在我看來就是提高數據的可訪問性問題。現在我們有大量的數據是在每個企業自己的牆裡邊的，在每一個部門，每一個組織，都有一道信息牆。每一個組織內部都有自己的數據的不同的格式，各種處理的流程。很多數據壁壘問題，我們也很難僅僅通過技術的手段就能夠解決，但是還是存在大量的事情我們可以做得更好。比如說那些PDF的數據，在美國的SEC網站（SEC.gov | Home）上，你可以下載到所有的公司結構化的數據，但在中國是沒有的。我們就需要從PDF裡面把這些數據搜索出來，這個事情技術上是可行的，因為我們能做到，這就是在進行數據的可訪問性的探索。包括有一個工具叫 TuShare（TuShare -財經數據介麵包），在座很多人可能也用過，它就做了一件很好的事情，把分散在很多地方的數據變成一個統一的API。大家做量化的，或者做投資的、做分析的，都可以用它那個API來訪問數據，這也是提高數據的可訪問性。

第二層就是數據的可發現性。現在我們有數據了，問題就來了，太多數據怎麼辦？根本找不到。如何提高數據的信噪比，這是數據的可發現性問題。我們有搜索引擎的技術、推薦系統的技術、推送系統的技術，可以解決這些問題。

第三層，深度的關係的發現。現在我已經有數據了，數據背後是什麼？當我發現這個企業有很多問題，我就要想，這個股東是一個有限合伙人，這個有限合夥真實的股東是誰？一直追溯到自然人，這就是一個典型的關係的發現。

第四個層面是在講領域知識的集成。因為在我們進行分析的時候，通常我們是會針對比如說一個垂直行業來做，做行業分析的時候，我們都會看每一個行業，鋰電池有鋰電池的邏輯，珠寶有珠寶的行情。每個領域裡頭都有大量的專有名詞，大量的人的關係、公司的關係，我們把所有的這些關係都稱為領域知識。這塊會有各種知識庫構造的工具方法需要我們去探索。

第五層就是業務知識的集成。比如說我們要進行股票投資的時候，不管是長期的投資，還是短期的投機，其實都是有大量前人已經摸索出來的規律，比如說財務的校驗，哪個公司的財務可能出問題，這是最基本的，有很多很多財務的規律，我們可以去套。比如說像做波段的，或者做短期的，也是有很多前人推導出來的微觀的市場結構的東西，我們可以去推導，這些東西都可以變成軟體。

最後一層就是更籠統了。凡是上面不能夠囊括的東西，我都把它扔在這裡邊了，包括用戶的建模問題，邏輯鏈條的學習，風險、渠道的認證，證據的收集，證據的排序，所有這些東西會產生一個策略，會有幫助。那麼把這些所有的東西做成之後，我們就會有了一種研究系統，通常會包含這6層的東西。

一些實踐

說了太多理論了，下面說一些實踐。這裡具體舉幾個例子，在我們過去大半年的探索中，根據上面說的這些方法，嘗試了很多種不同的生成報告的方式。

這是我們去年7月份做的，行業快報。它主要是針對新三板做的，有哪些公司掛牌了，有哪些公告，成交量怎麼樣，大家很容易想像的一些很基本的東西，做了個圖文並茂的快報。

這個跟上面那個很類似，但是是在微信里分享用的，一個可視化的年報和半年報。去年在半年報季的時候，我們給差不多幾千個新三板公司都自動生成了這樣一個報告，把半年報里最重要的一些信息概括起來，生成大概十幾頁的可視化報告，HTML5格式的。

自動化企業分析報告。這是給一家諮詢公司做的。他們之前找了很多實習生來做這件事情。他們主要是做併購，所以對領域裡的每一個公司都要了解到。這些公司的基本情況大概包括十幾個要素，包括基本面、產品、競爭優勢、銷售模式、實際控制人，還包括有沒有訴訟，實際控制人有沒有負面新聞等等。一般來說，一個實習生進來的時候，第一個月根本幹不了這事，要培訓至少一個月才能做。手快的要一天，手慢的要兩天才能做這樣一份報告。我們看了以後，認為整個報告全部可以自動化，就把它給自動化了，最後我們可以1秒鐘生成這樣一份報告。

這是2016年10月份，跟銀行做的另外一個事情。銀行看了我們的自動化報告以後，覺得可以用在信貸報告上。銀行在做準備工作的時候，信貸報告有大概兩三百個考慮要素。我們做了一個評估，藍色的那些東西是可以自動化的內容，那些紅色的東西是沒有辦法自動化的，黃色的是可以半自動化的，至少是可以提高效率的。我們對幾百項都做了這種評估，我們發現這樣做下來，至少還是可以提高一半的效率。跟那個類似的還做了債券的評級報告，也是差不多的事情。

後來開始做公告摘要。我們評估了一下，在過去的一年裡，A股有36萬份公告，新三板有33萬份公告，去年一年有18萬份的研報，其中5萬份的深度研報。每個分析師平均要跟進20家企業，每天要花一小時時間閱讀公告，可以考慮到其巨大的人力投入。把非常初步的信息跟蹤自動化，就是我們的希望。

現在一些機構在用人工來做這件事情，平均每家都有至少20個人的團隊來做人工摘要的編寫。在去年12月6號的時候，我們看了A股披露的所有公告，當天是1700份，其中有摘要的只有125份，也就是說目前人力的極限，大概是不到10%。我們有沒有什麼辦法可以覆蓋到100%？所以我們先開始做了一些測試，大概從去年12月份開始做。A股一共有99種各種不同的公告，要分別處理。比如說停牌公告，一般是兩頁紙，最核心的是兩件事情，什麼時候停牌，什麼時候復牌。以前是要人來做摘要的。如果我們用機器能夠幫他們做到這一點，我覺得是一個非常有價值的事情。大家至少可以多點時間和家人一起，有時間談戀愛了。

後來我們陸陸續續做了十幾種不同類型的公告。比如擔保公告，擔保額度是多少，標的是什麼，為什麼，與公司的關係是什麼，這些提取都是可以用機器來自動化。還有中標公告，招標方是誰，招標的項目是什麼，招標的金額是多少，都可以用機器處理。

數據提取出來後，就可以生成一個自然語言的公告摘要。生成了這種摘要之後，我們把它集成在一起，我們把它稱為公司歷程。這是一個例子，這個公司過去這段時間發生了很多事情，我們把不重要的都已經過濾掉了，不用每個公告打開看了，裡面最核心的數據點都在這兒，一目了然。

什麼能夠自動化？

我們現在可以回過頭來看，一開始這張表，金融報告能夠自動化嗎？我們分類來討論：

第一類信息披露報告，我們認為這一部分報告主要是寫作，這個是可以部分自動化的。在這之前，我們跟券商掛牌部門，就是通道部門，進行過很多次接觸，裡面相當多的部分是可以自動化的。比如說財務部分，它是跟銀行的業務是一樣的，大量的財務報表，本來企業交上來的時候，就已經是結構化數據，沒有必要人工的再重新搞一遍，這是可以完全自動化的部分。

再說可以半自動化的，提高效率的。比如說在券商做招股書的時候，都會有一個過程，就是反饋意見。股轉系統認為不清楚的地方該如何處理？通常他們的做法是找到以前類似公司的處理方法。然後看案例，這些案例只能在PDF裡面。浩如煙海的PDF幾萬份，之前只有非常熟這件事情才能夠做到。實際上這些反饋意見，其實都在那兒，這是可以提取出來變成案例庫的。把它提取出來變成案例庫以後，就可以大大地節約人力，這是一種半自動化。所以股轉書、公開轉讓說明書，跟銀行的審計報告一樣，存在大量可以自動化的部分。

第二類是研究性的報告，賣方的報告、買方的報告，包括諮詢公司的報告。這些報告單從寫作的層面上來說，我認為現在還是比較難以自動化的。之所以大家要這樣的報告，是因為它的 Insights。18萬份報告裡面，大概5萬份的深度報告是有Insights的，其他13萬份還是一個比較普通的報告，那部分報告是有可能被自動化的，但是深度報告還是很難。這一塊我認為機器能做得最主要的工作就是數據準備。比如說要做一個公司的報告，這個公司的A股上的對標公司是誰，美股上的對標公司是誰，這些公司對應的財務指標是什麼。在這些信息的挖掘上，機器是可以幫大家的。

第三類是日常的報告，這一類基本上是可以自動化的，我認為5年之後，這些東西很可能不會再由人來寫了。

最後一部分就是知識的介紹、觀點分析和八卦等等。我認為目前還是比較難自動化的，所以「金融八卦女」還是一個很好的項目 :)。

分析師如何應對AI

最後再多說一點，在人工智慧的威脅之下，大家該怎麼應對這些事情。人工智慧是紙老虎，它並不可怕，因為它畢竟只是一些演算法。但是如果我們不準備好了，它也可以變成真老虎。

要做什麼樣的準備呢？大家可以聽一個笑話，如果在森林裡頭遇到了老虎怎麼辦？有兩個策略，第一個是跑得比老虎快，第二個是跑得比身邊那個人快。跑得比老虎快是比較難的，但是跑得比旁邊那個人快，還是容易一點點。大家看看旁邊那個人，是不是可以跑得比他快一點。

我們還是有辦法跑贏真老虎的。

第一條是顏值、情商和親和力。為什麼有了這麼多在線房源資料庫之後，還要房地產中介，它起什麼作用？其實它就是心理諮詢。買家和賣家中間的擔心、焦慮、不確定性，這種東西是沒有辦法通過機器消滅掉的。這就是中介永遠會存在的原因。包括醫生很大程度上也是這樣的，醫生至少超過一半的作用是安慰。這一部分機器是肯定幹不了的。

我曾問我司的分析師，到我們公司來以後，你覺得你最想加強的能力是什麼？她給我一個非常令人吃驚的答案，她說PPT。我仔細一想，這蠻有道理的。我原來也在大公司工作，幹活的不如寫PPT的，寫PPT的不如講PPT的，所以如何把信息給表達出來的能力，機器還是做不到的，機器填表那種方式做出來的東西，那種表達力、說服力還是不如人做的東西。

第三個就是信息的抽象能力。機器在紛繁複雜的數據中進行抽象，特別是發現背後的這些關係是不如人的。

第四個是信息源。因為機器所有的分析都建立在比特世界的基礎上面。事物數據化之後機器才可以處理。在這之前，大多數重要的信息，在它之前就已經發生了。這是我們人類的優勢，我們可以找到專家、企業的負責人去聊，這是機器很難做到的事情。

最後一點是長程的邏輯推理鏈條，機器很容易做所謂的短程關係的發言，比如說奧巴馬老婆是誰，這件事情很容易做的。但是長程的，巴西下雨了，什麼樣的農產品會漲價，這是一個長程的關係，機器是比較難以做判斷的。這是跑贏老虎的辦法。

跑贏旁邊那個人怎麼做呢？我們用機器去加強我們自己的能力，編程能力，提高我們效率的能力。

提高效率細分為幾塊，一個是提高我們獲取數據的能力，比如爬蟲。在使用一些金融終端進行分析的時候，很多事情其實是機器可以做的，它可以自動幫你，每天、每周，把你關心的數據爬下來，可以節約你很多很多的時間。要想學會這個事情不難，很快，如果想做的話，一個星期就可以做到。以後一生都可以用這樣的機器，多好。

我們可以用資料庫，可以寫規則。比如在網上有很多現成的規則的工具，其中一個叫IFTTT，如果在新浪微博上發現了一個人在講某一個股票，讓它發個Email給我，可以節約大量時間。

我們去進行信息搜集的工作。凡是一件會讓你煩的事情，那就意味著它可以自動化。

學習機器學習的基本工具，比如說 weka，是有可視化界面的，基本上只要學會怎麼導數據，怎樣一步一步選一個演算法，就可以得到結果，機器學習並沒有大家想像的這麼難以去掌握。

我們只要掌握了工具去進行信息的收集和信息的整理，我們可以比我們身邊的人，或者另外的那個樓的人工作效率更高。

最後一點，我覺得也挺重要，跟第一點一樣重要。現在有太多的人會聲稱人工智慧無所不能，但是真正的從業者知道，它非常局限。在大多數事情上，我們只能推進一點點，而這一點點還是要大量的人工去堆的。「有多少人工就有多少智能」，現在還真是一句真理。我們在工作當中，通常大多數時候並不需要非常高深的人工智慧的知識，就可以極大地提高我們的效率。這一點點，就可以幫助大家跑贏旁邊那個人！