實事求是談金融報告自動化
(本文根據作者在某諮詢公司的講座整理)
三個迷信
在講具體的技術之前,我想先說說關於人工智慧的三個迷信。
第一個迷信,因為AlphaGo 戰勝了圍棋冠軍,所以 AI 也可以做 XYZ(比如炒股)。可事實是,AlphaGo 只是 AI 的極小的一個分支。AI 總體還是處於「有多少人工就有多少智能」的水平。
第二個迷信,因為機器效率高,所以效率低的人會被機器消滅掉。我一開始也是這樣想的,但是後來我發現並不是這樣的。比如說計算器,計算器做加減乘除是比所有的人做得效率都高的。但會計並沒有因為計算器而失業。恰恰相反,現在這個時刻,可能是人類歷史上會計最多的一個時刻,未來還有可能更多。能被機器取代的,是完全的機械工作,就像工廠里的機器人那種工作,月工資2000塊錢以下的那種工作。大多數的工作還是需要創造力的,至少需要有一部分的創造力。當機器提高了工作效率之後,實際上是使得擁有這種技能的人反而被增強了,而不是被替代了。所以在我看來,分析師肯定不會被機器替代掉,而是隨著機器能力的上升,分析師的人數將來會越來越多。
第三個迷信,即人工智慧應用就要搞深度學習。我前兩天去拜訪一個客戶的時候,他們問我人工智慧是什麼?怎麼能夠應用到金融分析?我給他看了一堆列表,他看完了之後,覺得這不是人工智慧,因為據他所知人工智慧就是深度學習。甚至很多人會把關係顛倒過來,認為機器學習是深度學習的一個分支。可能最近兩年裡面,在媒體里到處都是這樣的報道,所以產生這樣的誤解。但是在人工智慧的幾個學派裡面,神經網路只是其中的一個學派,我們稱為連接主義學派。深度學習又只是連接主義學派當中的一個細小的分支。任何一個項目通常都不是一種演算法能夠完成的,而是很多種演算法集合在一起才能做成的。人工智慧有4個不同的主義,其中一個是連接主義的神經網路;再有一個是理性主義,就是邏輯的那一套;還有經驗主義,是機器學習那一套;但這些主義,都沒有最後一個主義厲害,我管它叫媒體主義,媒體說的AI其實是我們根本還做不到的。
金融報告是什麼
言歸正傳,回到今天我們的主題——金融報告能不能自動化以及怎麼自動化。首先要確認有哪些東西可以稱為金融報告。
第一種是信息披露報告,有股轉書,有做債的報告,有貸款的報告。新三板、A股、美股都有招股說明書、股轉書,這是信息披露類型的報告。還有年報、季報等等,全球每年有幾百萬份。
第二種就是研究報告,基於這些公開的材料,我們再做一些加工,有賣方的券商的報告,有買方的基金的報告,還有中介機構、諮詢公司的報告。
第三種報告,我稱為摘要型的報告。在各個大的券商,微信群裡面,每天都會發,比如說分行業、計算機行業、汽車行業,發生了很多事情,做一個每天的摘要這樣一個報告。巨潮網每天也都會發,早上發、中午發、晚上發,重要公告列表,這是一種公告摘要。還有一種是日常的跟蹤報告,有按天的、有按小時的,有按月的、按周的,報盤的新聞,在很多的財經媒體上,這種股票走勢、大盤走勢,這種行為都是機器人寫的。再有一種就是企業的信息圖、基本要素的分析,很多剛入行的分析師、實習生,每天都在寫這種東西,把這個企業拿過來看一下,基本亮點是什麼,股轉書裡面弄一個PPT出來,寫這種東西。
最後一種,我把它稱為陳述性的文章。我把所有前面不能夠囊括的東西都歸在這個裡面了,各種各樣的新聞,背景介紹、公司介紹、行業介紹,或者介紹一個新公司。比如,做鋰電池的,鋰電池是什麼?等等信息。然後深度進行觀點分析,我認為這件事情是什麼樣的,展開講述。最後就是八卦,比如「金融八卦女」。像八卦這個東西,機器人肯定替代不了。
前面這些東西,哪些是機器可以取代的,這就是我們今天要討論的話題。
人 vs 機器
分析師和記者會失業嗎?如果要有一個簡短的回答就是:NO。當然,實際情況並不是這麼簡單,因為分析師和記者,他們做的事情可以分為很多維度,有些維度的的確確是機器可以去做的。
分析師和記者到底在做什麼事情?我們把東西整個抽象起來就是三步,第一步信息獲取,第二步信息加工,第三步發布出去。舉一個例子,對一個企業做一個分析,我們通過某種渠道來找到這個信息的發源地,可能是股轉書,或者是公司的路演材料等等,我們進行分析,這是案頭的工作,還有一種是非案頭的工作,打電話跟董事長聊,去見他的董秘跟他聊,然後自己做分析達到一個結果,這是一個一般的流程。這裡面肯定有一部分工作是機器目前還沒有辦法做的,比如說盡職調查這個過程,打電話的過程。機器能先在案頭工作這一部分提高我們的效率。但最關鍵的東西就是 Insights,是機器人不能做的。人為什麼能夠做好這件事情?因為我們能夠有 Insights,有洞察,人能夠發現事情背後的一些聯繫,這是之所以需要人類分析師的原因。
我們對比來看,人的報告和機器的報告。
第一點,人的報告的優點是語言流暢。當然也不是絕對的,我看過一個股轉書裡面有大量的語法錯誤,所以被股轉中心給打回來了。但總的來說,人的語言比機器的語言是要流暢很多的。
第二點,內容相對來講比較豐富。因為機器能做的還很有限,它輸入的是什麼,說出的就是什麼。人可以發現很多種不同的相關的因素。比如說像我們最近在看某諮詢機構的報告,假如只是從內容的角度來看,50頁紙的報告里,我們評估下來,應該是90%以上的內容是機器沒有辦法生成的,這可能讓大家(分析師們)更加放心一點。就是說如果僅僅只是從內容本身以及公開材料的獲取的角度來說,機器現在還沒有辦法替代人在內容組織上的優勢。
第三個,人有豐富的Insights。我們人不僅可以發現 Insights,還可以關聯 Insights。
機器的優點在哪裡?快,非常非常快,一天24小時可以不間斷地工作,一秒鐘就會做出一個報告,這是人做不到的事情。內容,它也可以相對集中。人無法收集到太多信息,但是機器可以幾萬份報告全部扒過來,然後從裡面挑東西。簡單的分析羅列,在量上面,機器可以做得更好。
背後的技術
如果用機器來做,涉及到哪些技術?我們把它大概分成三部分內容。
輸入的時候是一些原始數據。這些原始數據有些是結構化數據,但我們現在面臨更大量的是非結構化的數據,各種各樣的文本。我們會進行自然語言理解(Nature Language Understanding),生成相對而言結構化的數據。這個結構化的數據,跟大家資料庫用到的結構化數據不是完全一樣的。因為如果我們想把數據完全去歸約成結構化的數據,比如把一個公司的財報全部變成資料庫的模式,成本是非常高的。我們在每一步處理都會犯很多錯誤,為了糾正這些錯誤,會需要大量的工程性投入。通常我們為了降低工程成本,在結構化的時候,會滿足一定終止條件,比如到某個力度不往下分了,比如說段落,會停留在這裡,這個段落會打標籤,這些標籤又是結構化的數據。通常這裡的結構化數據是根據我們在這個場景下面的預算來決定的。
有了結構化數據之後,我們重新把它變成人容易理解的語言,這個過程叫自然語言生成(Nature Language Generation)。從數據變成文本,還有另外一種就是從數據變成圖像,圖形可視化。大家天天都在用 Excel,或者其他的東西來進行可視化。把這些文字和這些圖表結合在一起,就會形成一篇文章,這是一般的流程。
我們先看第一步的非常簡化的一個示意,我們輸入各種數據,有PDF的、XBRL的半結構化金融報表,EXCEL的、WORD的拿過來進行分析。得到了相對而言乾淨的數據。什麼叫乾淨?這個乾淨與否,主要是對機器而言,那些機器很難處理的數據,我們通常把它稱為臟數據,機器相對而言比較容易處理的數據,我們稱為乾淨數據。我對股轉書比較熟悉,對新三板的股轉書,裡面有7%的股轉書是掃描件,這種掃描件,我們把它稱為臟數據。我們要花巨大的精力來做數據清洗工作。還有大量的重複,比如說券商的報告。券商去年發布了18萬份報告,其中大量是重複的東西,他們的晨報,在每個平台都發一遍。所以我們要做去重工作。還有就是數據排序,按照各種各樣數據的質量、重要性來探尋。
做完數據清洗,這最難的一步,可能80%的工作就做完了。下一步,就是進一步去做結構化的提升。主要就是實體的發現和關係的發現。什麼是實體?公司、人、產品,每個東西都是一個實體(Entity)。實體和實體之間是有關係的,萬事萬物之間都有關係,最後構成了一個圖(Graph)。這是一個基本的過程。
自然語言生成有三種常見方法。一種是基於模板的方法,是非常簡單的方法。可以說它不需要太高深的技術,非常多的機構都已經在用了。可能大家沒有注意到,很多財經媒體在好幾年之前,就已經在用模板,做報盤數據、跟蹤的報告。這幾年基於模板的方法得到了長足的進步,因為以前用人來寫模板,只能寫幾十個模板、幾百個模板,所以那個句子一眼就看得出來,就那麼幾種編寫。現在大家可以用機器學習來生成這些模板,通過學習海量的已有文檔,發現以前人是怎麼描述這些事,機器生成成千上萬的模板,所以現在的句子就寫得越來越好看。
下一種方法是基於知識圖譜的方法,比上面一種稍微進步一點。前面這種一般是填表,基於知識圖譜相對而言要複雜一點,要做一個推理而不是直接的句子、直接的詞和詞,數字到數字的過程。下面給了個例子,比如說這是從兩個不同的數據源來,一個數據源說,這個公司的主營業務是汽車的塗料生產。第二個數據源說,汽車的銷售量在下降。在這個過程中,我們要做一個推理,汽車銷量下降,意味著汽車塗料也可能會下降,有可能這個公司的主營業務會下降。但這個邏輯不是100%的,只是說存在這樣一個推理途徑,我們可以推理出來,這個事情還沒有發生。機器是可以寫出這樣的話,是因為背後我們有推理機。
第三種方法是機器學習。現在的方法,不僅僅局限於學習模板,很多時候是直接把句子拿過來用,往大了說,現在有很多機器學習和深度學習的問答系統。輸出一個問題,回答一個這樣的句子,這些句子並不是機器生成的,而是機器從浩如煙海的人類文檔裡面把它提取出來。這種方法的前提是什麼?是要有海量的數據。所以這種方法一般只適用於Web頭部的搜索,一些細分的領域是沒有辦法去做的。
我們現在正在做公告摘要,是報告的其中一個模塊。之所以提出來,是因為它是兩種不同方法的混合。我在一開始的時候也提到了,人工智慧方法不止一種。我們通常是用多種方法進行混合來解決問題的。在這裡,我們綜合運用深度學習的方法和知識圖譜的方法。我們會在公告的處理上,首先用深度學習來進行句子層面的解析,全面訓練句子並打標籤,這是用深度學習的方法來做的。有了這些句子層面的數據和所謂的元數據之後,我們在知識圖譜上面進行一個標註,因為所有的標籤背後都是有關係的。這個關係就是知識圖譜,最終基於此我們來生成公告摘要。之後我會給一些例子。
知識圖譜
接下來具體講一下知識圖譜。知識圖譜用一句話來說就是圖譜,即圖(Graph)。在座每一位都學過如何畫畫,就知道知識圖譜是什麼了。困難在哪裡?人畫圖和讓機器來理解圖是不一樣的。讓機器去存儲幾張圖和讓機器去存儲幾萬張、幾千萬張圖,也是不一樣的。所以在工程上,我們僅僅為了解決圖的提取、表達、存儲、檢索這幾件事情,就不得不發明一整套的方法來做。知識圖譜技術,並不是從天上掉下來的,實際上它是基於過去二三十年時間,幾個不同的細分領域的發展。後來,大概在五年之前,它們交匯在一起,所以我們給它一個新的名字叫知識圖譜。它大概有4個不同的分支:
第一個分支是從傳統的自然語言處理髮展來,叫做知識提取。它主要研究如何從各種各樣的文本里,把知識的結構發現出來。
第二塊叫知識表現。研究怎麼讓機器更好的表達圖譜。我們有一個任務叫做推理。推理在數學上嚴格的表述,實際上是當圖上面有一些邊之後,如何發現新的邊,這個過程就是推理。推理有非常多的變種,但是你把它抽象了看,其實就是在講圖上推導邊。怎麼去做這種推理,怎麼去做這種圖在計算機里的表示,怎麼樣的方法是最高效的,最不容易犯錯誤的,這個研究領域就稱為知識表現。在研究過程中,我們產生了很多好東西,把它稱為知識庫。比如說 Wikipedia 或者百度百科,我們去看的時候,在它的右邊有一個叫做 Infobox的邊欄。比如說我們查北京,在 Wikipedia 上就會有北京的人口、經度、緯度等等,實際上它是一個很簡單的表格。這些表格以前是人來看的。後來就有人說,為什麼不把這個東西變成一個機器可以讀的格式呢?於是就有好幾撥人來做 Wikipedia 知識圖譜的構造,後來在德國的一些大學裡,他們做了一個項目叫 DBpedia,後來在美國有個公司叫 Metaweb,他們做了一套叫 Freebase,這些所有的系統都是在說我們怎麼去方便用機器來進行知識的表示,後來 Freebase 被谷歌給買了之後,改成谷歌知識圖譜,這是2012年的事情。
第三部分是知識存儲。當我們有了海量的知識以後,如何放在計算機裡面,讓資料庫能夠更好地存儲和表達呢?傳統的資料庫是關係型的資料庫,一張一張的表。現在我們要面臨的不是一個簡單的關係,表的兩列之間可能有關係,表的兩行之間可能還有關係,表的每一個格子和每個格子都可以有關係。所以說它很難用傳統的關係資料庫或EXCEL來表示,所以又興起了一系列的新資料庫。比如圖資料庫,還有像RDF資料庫,根據不同的應用,我們會選擇不同的資料庫。
最後一塊叫知識檢索,從最低層面的大家常見的關鍵詞的檢索,到最高層面的問答系統的檢索,中間有很多不同的環節。這一塊就是在講,我現在有了一大堆的知識在我的資料庫裡頭,怎麼發現它,這一塊基本上是從搜索引擎的研究裡邊分出來的。
大概在2012年前後,這4個領域都都遇到了瓶頸,都發現知識是如此的重要,發現解決方案就是知識的處理,於是融合成新一個領域叫知識圖譜。
數據的遞進
數據的遞進可以大致分為六層。從原始的數據,比如說我們從巨潮網上看到的那些公告數據,或者是我們從客戶那裡拿到的原始的財務報表,到最後我們能夠「變魔術」,中間有一級一級、數據質量不斷提升的過程。這個魔術會根據不同的場景變化。比如說併購,假如一個海外公司委託我們分析國內哪家公司是最值得併購的,我們就能告訴他這個公司的名字,這是魔術。又比如說散戶,他要投資,希望你告訴他哪支股票買了可以漲,這也是魔術。但是不管是人還是機器,現在都沒有辦法通過這些數據立即得出結論。我們需要一步一步分析,每一步的分析背後還要有證據。我們需要一步一步地去發現數據背後的關係,提高數據背後的質量。
其實在沒有這些東西的時候,比如說100年前,那時候也是要做投資的,所有這些數據全都沒有,大家怎麼做?當時也有辦法。人是有直覺的,人是有經驗的,人是有人脈的。我聽說李四說這個股票會漲,這個股票肯定會漲。這是當時的方法。100年前的股市,就是投機分析。後來大家慢慢地變得更加理性了,慢慢地發現我們需要信息披露,慢慢地需要進行審計了,包括這些年隨著信息化的成熟,大數據技術,各種信息的自動化,一級級地把數據質量提升上去,每提升一級數據質量之後,人做判斷的時候,就沒有必要完全依靠非數字的物理世界的經驗和人脈來做。我們每多一些數據,都可以加快我們的分析的速度、效率。
分析的遞進
分析技術也分為六層來討論。
第一層在我看來就是提高數據的可訪問性問題。現在我們有大量的數據是在每個企業自己的牆裡邊的,在每一個部門,每一個組織,都有一道信息牆。每一個組織內部都有自己的數據的不同的格式,各種處理的流程。很多數據壁壘問題,我們也很難僅僅通過技術的手段就能夠解決,但是還是存在大量的事情我們可以做得更好。比如說那些PDF的數據,在美國的SEC網站(SEC.gov | Home)上,你可以下載到所有的公司結構化的數據,但在中國是沒有的。我們就需要從PDF裡面把這些數據搜索出來,這個事情技術上是可行的,因為我們能做到,這就是在進行數據的可訪問性的探索。包括有一個工具叫 TuShare(TuShare -財經數據介麵包),在座很多人可能也用過,它就做了一件很好的事情,把分散在很多地方的數據變成一個統一的API。大家做量化的,或者做投資的、做分析的,都可以用它那個API來訪問數據,這也是提高數據的可訪問性。
第二層就是數據的可發現性。現在我們有數據了,問題就來了,太多數據怎麼辦?根本找不到。如何提高數據的信噪比,這是數據的可發現性問題。我們有搜索引擎的技術、推薦系統的技術、推送系統的技術,可以解決這些問題。
第三層,深度的關係的發現。現在我已經有數據了,數據背後是什麼?當我發現這個企業有很多問題,我就要想,這個股東是一個有限合伙人,這個有限合夥真實的股東是誰?一直追溯到自然人,這就是一個典型的關係的發現。
第四個層面是在講領域知識的集成。因為在我們進行分析的時候,通常我們是會針對比如說一個垂直行業來做,做行業分析的時候,我們都會看每一個行業,鋰電池有鋰電池的邏輯,珠寶有珠寶的行情。每個領域裡頭都有大量的專有名詞,大量的人的關係、公司的關係,我們把所有的這些關係都稱為領域知識。這塊會有各種知識庫構造的工具方法需要我們去探索。
第五層就是業務知識的集成。比如說我們要進行股票投資的時候,不管是長期的投資,還是短期的投機,其實都是有大量前人已經摸索出來的規律,比如說財務的校驗,哪個公司的財務可能出問題,這是最基本的,有很多很多財務的規律,我們可以去套。比如說像做波段的,或者做短期的,也是有很多前人推導出來的微觀的市場結構的東西,我們可以去推導,這些東西都可以變成軟體。
最後一層就是更籠統了。凡是上面不能夠囊括的東西,我都把它扔在這裡邊了,包括用戶的建模問題,邏輯鏈條的學習,風險、渠道的認證,證據的收集,證據的排序,所有這些東西會產生一個策略,會有幫助。那麼把這些所有的東西做成之後,我們就會有了一種研究系統,通常會包含這6層的東西。
一些實踐
說了太多理論了,下面說一些實踐。這裡具體舉幾個例子,在我們過去大半年的探索中,根據上面說的這些方法,嘗試了很多種不同的生成報告的方式。
這是我們去年7月份做的,行業快報。它主要是針對新三板做的,有哪些公司掛牌了,有哪些公告,成交量怎麼樣,大家很容易想像的一些很基本的東西,做了個圖文並茂的快報。
這個跟上面那個很類似,但是是在微信里分享用的,一個可視化的年報和半年報。去年在半年報季的時候,我們給差不多幾千個新三板公司都自動生成了這樣一個報告,把半年報里最重要的一些信息概括起來,生成大概十幾頁的可視化報告,HTML5格式的。
自動化企業分析報告。這是給一家諮詢公司做的。他們之前找了很多實習生來做這件事情。他們主要是做併購,所以對領域裡的每一個公司都要了解到。這些公司的基本情況大概包括十幾個要素,包括基本面、產品、競爭優勢、銷售模式、實際控制人,還包括有沒有訴訟,實際控制人有沒有負面新聞等等。一般來說,一個實習生進來的時候,第一個月根本幹不了這事,要培訓至少一個月才能做。手快的要一天,手慢的要兩天才能做這樣一份報告。我們看了以後,認為整個報告全部可以自動化,就把它給自動化了,最後我們可以1秒鐘生成這樣一份報告。
這是2016年10月份,跟銀行做的另外一個事情。銀行看了我們的自動化報告以後,覺得可以用在信貸報告上。銀行在做準備工作的時候,信貸報告有大概兩三百個考慮要素。我們做了一個評估,藍色的那些東西是可以自動化的內容,那些紅色的東西是沒有辦法自動化的,黃色的是可以半自動化的,至少是可以提高效率的。我們對幾百項都做了這種評估,我們發現這樣做下來,至少還是可以提高一半的效率。跟那個類似的還做了債券的評級報告,也是差不多的事情。
後來開始做公告摘要。我們評估了一下,在過去的一年裡,A股有36萬份公告,新三板有33萬份公告,去年一年有18萬份的研報,其中5萬份的深度研報。每個分析師平均要跟進20家企業,每天要花一小時時間閱讀公告,可以考慮到其巨大的人力投入。把非常初步的信息跟蹤自動化,就是我們的希望。
現在一些機構在用人工來做這件事情,平均每家都有至少20個人的團隊來做人工摘要的編寫。在去年12月6號的時候,我們看了A股披露的所有公告,當天是1700份,其中有摘要的只有125份,也就是說目前人力的極限,大概是不到10%。我們有沒有什麼辦法可以覆蓋到100%?所以我們先開始做了一些測試,大概從去年12月份開始做。A股一共有99種各種不同的公告,要分別處理。比如說停牌公告,一般是兩頁紙,最核心的是兩件事情,什麼時候停牌,什麼時候復牌。以前是要人來做摘要的。如果我們用機器能夠幫他們做到這一點,我覺得是一個非常有價值的事情。大家至少可以多點時間和家人一起,有時間談戀愛了。
後來我們陸陸續續做了十幾種不同類型的公告。比如擔保公告,擔保額度是多少,標的是什麼,為什麼,與公司的關係是什麼,這些提取都是可以用機器來自動化。還有中標公告,招標方是誰,招標的項目是什麼,招標的金額是多少,都可以用機器處理。
數據提取出來後,就可以生成一個自然語言的公告摘要。生成了這種摘要之後,我們把它集成在一起,我們把它稱為公司歷程。這是一個例子,這個公司過去這段時間發生了很多事情,我們把不重要的都已經過濾掉了,不用每個公告打開看了,裡面最核心的數據點都在這兒,一目了然。
什麼能夠自動化?
我們現在可以回過頭來看,一開始這張表,金融報告能夠自動化嗎?我們分類來討論:
第一類信息披露報告,我們認為這一部分報告主要是寫作,這個是可以部分自動化的。在這之前,我們跟券商掛牌部門,就是通道部門,進行過很多次接觸,裡面相當多的部分是可以自動化的。比如說財務部分,它是跟銀行的業務是一樣的,大量的財務報表,本來企業交上來的時候,就已經是結構化數據,沒有必要人工的再重新搞一遍,這是可以完全自動化的部分。
再說可以半自動化的,提高效率的。比如說在券商做招股書的時候,都會有一個過程,就是反饋意見。股轉系統認為不清楚的地方該如何處理?通常他們的做法是找到以前類似公司的處理方法。然後看案例,這些案例只能在PDF裡面。浩如煙海的PDF幾萬份,之前只有非常熟這件事情才能夠做到。實際上這些反饋意見,其實都在那兒,這是可以提取出來變成案例庫的。把它提取出來變成案例庫以後,就可以大大地節約人力,這是一種半自動化。所以股轉書、公開轉讓說明書,跟銀行的審計報告一樣,存在大量可以自動化的部分。
第二類是研究性的報告,賣方的報告、買方的報告,包括諮詢公司的報告。這些報告單從寫作的層面上來說,我認為現在還是比較難以自動化的。之所以大家要這樣的報告,是因為它的 Insights。18萬份報告裡面,大概5萬份的深度報告是有Insights的,其他13萬份還是一個比較普通的報告,那部分報告是有可能被自動化的,但是深度報告還是很難。這一塊我認為機器能做得最主要的工作就是數據準備。比如說要做一個公司的報告,這個公司的A股上的對標公司是誰,美股上的對標公司是誰,這些公司對應的財務指標是什麼。在這些信息的挖掘上,機器是可以幫大家的。
第三類是日常的報告,這一類基本上是可以自動化的,我認為5年之後,這些東西很可能不會再由人來寫了。
最後一部分就是知識的介紹、觀點分析和八卦等等。我認為目前還是比較難自動化的,所以「金融八卦女」還是一個很好的項目 :)。
分析師如何應對AI
最後再多說一點,在人工智慧的威脅之下,大家該怎麼應對這些事情。人工智慧是紙老虎,它並不可怕,因為它畢竟只是一些演算法。但是如果我們不準備好了,它也可以變成真老虎。
要做什麼樣的準備呢?大家可以聽一個笑話,如果在森林裡頭遇到了老虎怎麼辦?有兩個策略,第一個是跑得比老虎快,第二個是跑得比身邊那個人快。跑得比老虎快是比較難的,但是跑得比旁邊那個人快,還是容易一點點。大家看看旁邊那個人,是不是可以跑得比他快一點。
我們還是有辦法跑贏真老虎的。
第一條是顏值、情商和親和力。為什麼有了這麼多在線房源資料庫之後,還要房地產中介,它起什麼作用?其實它就是心理諮詢。買家和賣家中間的擔心、焦慮、不確定性,這種東西是沒有辦法通過機器消滅掉的。這就是中介永遠會存在的原因。包括醫生很大程度上也是這樣的,醫生至少超過一半的作用是安慰。這一部分機器是肯定幹不了的。
我曾問我司的分析師,到我們公司來以後,你覺得你最想加強的能力是什麼?她給我一個非常令人吃驚的答案,她說PPT。我仔細一想,這蠻有道理的。我原來也在大公司工作,幹活的不如寫PPT的,寫PPT的不如講PPT的,所以如何把信息給表達出來的能力,機器還是做不到的,機器填表那種方式做出來的東西,那種表達力、說服力還是不如人做的東西。
第三個就是信息的抽象能力。機器在紛繁複雜的數據中進行抽象,特別是發現背後的這些關係是不如人的。
第四個是信息源。因為機器所有的分析都建立在比特世界的基礎上面。事物數據化之後機器才可以處理。在這之前,大多數重要的信息,在它之前就已經發生了。這是我們人類的優勢,我們可以找到專家、企業的負責人去聊,這是機器很難做到的事情。
最後一點是長程的邏輯推理鏈條,機器很容易做所謂的短程關係的發言,比如說奧巴馬老婆是誰,這件事情很容易做的。但是長程的,巴西下雨了,什麼樣的農產品會漲價,這是一個長程的關係,機器是比較難以做判斷的。這是跑贏老虎的辦法。
跑贏旁邊那個人怎麼做呢?我們用機器去加強我們自己的能力,編程能力,提高我們效率的能力。
提高效率細分為幾塊,一個是提高我們獲取數據的能力,比如爬蟲。在使用一些金融終端進行分析的時候,很多事情其實是機器可以做的,它可以自動幫你,每天、每周,把你關心的數據爬下來,可以節約你很多很多的時間。要想學會這個事情不難,很快,如果想做的話,一個星期就可以做到。以後一生都可以用這樣的機器,多好。
我們可以用資料庫,可以寫規則。比如在網上有很多現成的規則的工具,其中一個叫IFTTT,如果在新浪微博上發現了一個人在講某一個股票,讓它發個Email給我,可以節約大量時間。
我們去進行信息搜集的工作。凡是一件會讓你煩的事情,那就意味著它可以自動化。
學習機器學習的基本工具,比如說 weka,是有可視化界面的,基本上只要學會怎麼導數據,怎樣一步一步選一個演算法,就可以得到結果,機器學習並沒有大家想像的這麼難以去掌握。
我們只要掌握了工具去進行信息的收集和信息的整理,我們可以比我們身邊的人,或者另外的那個樓的人工作效率更高。
最後一點,我覺得也挺重要,跟第一點一樣重要。現在有太多的人會聲稱人工智慧無所不能,但是真正的從業者知道,它非常局限。在大多數事情上,我們只能推進一點點,而這一點點還是要大量的人工去堆的。「有多少人工就有多少智能」,現在還真是一句真理。我們在工作當中,通常大多數時候並不需要非常高深的人工智慧的知識,就可以極大地提高我們的效率。這一點點,就可以幫助大家跑贏旁邊那個人!
推薦閱讀:
※由蘋果跳去特斯拉,六個月後又去了谷歌,從拉特納看為什麼AI人才流動如此頻繁
※大佬們都偏愛 AI,看搜狗、Facebook 的黑客馬拉松上都有哪些項目
※圖解Keras等8個深度學習庫(下載)
※大數據、人工智慧普及之後 零售、購物的智能化未來