分析師和記者會失業嗎?——金融自動化報告現狀、發展與未來
文|嚴澤徐 本文寫於2016年8月13日
上周六(2016年8月20日)由文因互聯CTO、聯合創始人張強主講智能金融沙龍第10期——「金融自動化報告現狀、發展與未來」。
報告自動化是自然語言生成在金融領域的應用,它涉及的底層技術有知識抽取、自動文本摘要、自動可視化摘要、可視化、知識圖譜等。想知道機器真的能取代人生成報告嗎?分析師和記者會失業嗎?以下是沙龍內容,enjoy
近年,國內在機器人寫作領域出現了一些產品後,引發大家的討論和關注。諸如「機器人寫作會取代人的寫作嗎?」和「分析師和記者會會因此而失業嗎?」的討論有很多,相信大家都有自己的判斷。而我主要是通過本次沙龍給大家梳理一下裡面的邏輯和一些堅定的信念,希望大家都能通過這20多分鐘的presentation,找到自己滿意的答案。
分析師和機器人在做什麼?
首先,既然要討論分析師和記者會失業嗎,我們就先來看看分析師和記者在做什麼。
我在過去的一段時間通過接觸一些新三板行業的分析師,對分析師的日常分析邏輯已經有了一些初步的了解。通常,分析師獲得需要分析企業或者是標的後的第一階段是從各種渠道獲得企業信息和公開數據,對企業形成一個基本面的了解。進入第二個階段就是對標的企業會做一些盡職調查,然後最後一個階段就是通過收集的所有數據來撰寫一個分析報告,其中包括一些公司亮點和投資風險的提示。
這樣一份報告的特點就是它在語言層面上語言流流暢。除此之外,報告里會含有一些公開數據和分析師與企業的溝通後得到的一些內部數據,還有分析師的推理和一些背景知識的結合,所以在內容上也非常豐富。這些就是分析師報告的特點,那麼接下來我們看看目前市面上的機器人寫作產品能達到一個怎樣的狀態。搜狐智能報盤第一個是搜狐最近推出的智能報盤,是根據交易數據來進行一些模板的匹配寫作,然後列舉一些公開領域上的發布。據說智能報盤要比人工編輯快5分鐘,所以特點是速度快、有時間優勢。今日頭條機器人第二個是近期在奧運會的時候今日頭條上線的運用人工智慧機器人張小明。機器人張小明是今日頭條頭條實驗室的研發成果,其「寫稿」模塊是由頭條實驗室與北京大學計算所(萬小軍團隊)聯合研發而成。這是國內第一款可以報道奧運賽事的人工智慧機器人,在結合了最新的自然語言處理、機器學習和視覺圖像處理的技術之後,通過語法合成與排序學習生成新聞。相比國內第一代寫稿機器人——騰訊的「Dreamwriter」和第一財經的「DT 稿王」,張小明的寫稿技術已經進入是第二代寫稿水平。與第一代機器人相比,第二代張小明有著速度快、樣式多、自適應自動配圖的特徵。
儘管這個張小明機器人的寫的稿件仍然具有一些模板的痕迹,但是寫稿機器人可以在6天內生成近200多篇的報道,這對於記者來說是目前無法完成的一個任務,同時也是機器人寫作在速度與時間上的巨大優勢。
Automated Insights的Wordsmith
Automated Insights的主打產品是Wordsmith自動化報告生成平台,主要用戶包括美聯社,yahoo等公司,為他們提供大量的諮詢,報告生成服務。
下面的這個例子我們可以看到,用戶用戶輸入了一個財務數據表格,Wordsmith,根據這段數據生成了財務數據的描述信息,同時還關聯到了Zack Investment Research對這個公司的財務報表的分析。這裡我們可以看到,Wordsmith可以根據用戶輸入,找到關聯數據,從而進一步豐富報告的內容。所以可以說Wordsmith特點就是基於知識庫的數據關聯和聚合。
人的寫作 vs 機器人寫作
人工寫作的優點是語言流暢、內容豐富、豐富Insights。而機器人的優點是生成快、內容相對豐富、簡單分析羅列。從現有產品的對比來看,人能夠寫出具有高質量觀點的文章,而從機器人寫作上看,除了生成速度方面有優勢外,並沒有什麼特別的地方。那我們從技術角度出發,看看短期內機器人寫作有沒有可能獲得巨大發展。
機器人寫作背後的技術
機器人寫作背後有很多技術在支撐,自然語言處理、機器學習、詞法分析、語法分析等等。這裡就不一一展開去描述了,我們主要來介紹一下自然語言理解和自然語言生成這樣兩個技術。
從數據處理流水線我們可以看出,自然語言理解主要的作用是將原各種個樣的始數據轉換成結構化數據,而自然語言生成的作用是將生成好的結果化數據,最終轉換成描述性文章。對於機器人寫作,輸入數據的不同,會導致處理流程稍有不同,如果說輸入已經是結構化數據,那麼自然語言理解這個步驟就可以跳過。
自然語言理解(NLU)
自然語言理解(NLU)是將各式各樣的原始數據轉換成具有一定內部邏輯的結構化數據的這樣一個過程。
首先對各種各樣格式的原始數據進行清洗,通過去除原始文件格式、除去重複數據,對數據排序等一系列操作獲得一個中間版本的乾淨數據。
接下來對乾淨數據進行一系列處理,包括命名實體識別(比如說識別文本中的公司),企業名稱關係發現(比如說公司A投資了公司B,那麼我們就需要在這兩個公司實體之間,建立一個有向的投資關係),實體關聯等一系列操作。
(註:臟數據是指html數據、圖片數據、csv數據等等;乾淨數據是指經過處理的去除外部結構的文本數據、文本段落數據和必要的meta data 元數據。結構化數據是指進行了NER、詞法、語法語義分析後生成的結構化數據,通常以json文件表示)
自然語言生成(NLG):基於模版
這種基於模版的自然語言生成。相對來說比較直接,因為整個敘述性文檔的語法與結構等都是由模版定義好的,然後會根據具體的數據內容再做一些輸出的局部調整。
我們在這裡舉個例子,上面這張圖是Automated Insights公司Wordsmith產品的報告生成示意圖。在生成的這段話中有4個部分是可以根據具體的數據值來變化的,表達「具備,具有」這個含義可以有3個詞來表示,根據屏幕的大小也可以給出不同的形容詞等等。
而基本模版的方法再往前走一步就是引入更多的外部資源來輔助文檔的生成,這樣的話就會演化成為基於知識庫或者知識圖譜的自然語言生成。
自然語言生成(NLG):基於知識圖譜
關於基於知識圖譜的自然語言生成,主要分為兩個階段,數據分析階段和語言表達階段。
在數據分析階段會將結構化數據與領域知識圖譜進行匹配和對比、建立關聯、對結構化數據進行補充,篩選出真正有價值和值得關注的信息。
而在語言表達階段,就是需要將信息自然地、流暢地表達出來。所以來說也是一個相對來說比較複雜的過程,因為其中包括:文檔規劃(決定信息需要以什麼樣的方式和順序來表達);選擇什麼樣的數據可以合併來表示;採用什麼樣的指示代詞來簡化表達;通過領域圖譜和推理規則,發現結構化數據中不同的數據點 比如偏離行業均值比較遠的點。
在這裡我們舉個汽車行業的例子,我們從PDF中解析得出一家公司的主營業務是汽車電泳塗料的生產,聯合全網的數據得到汽車行業的銷售量在下降,再加上推理可以得到公司的主營收入會下降的這樣一個觀點。但是這樣有一個問題就是領域知識庫和推理規則的構建本身是一個非常漫長高成本過程,而且人工智慧在構建過程中起到的作用還很有限,機器能自發產生觀點但是在很長一段時間內無法超越人的觀點。
所以我們回到問題「分析師和記者會失業嗎?」,答案是不,因為分析師和記者優點在於探索和發現觀點洞察,而機器的長處在於數據收集和整理,目前機器還是無法取代分析師和記者。但是在未來很長的一個時間點,隨著人工智慧的新發展和新技術的突破,答案或許會有所改變。
文因自動化報告實踐
接下來我將介紹一下文因互聯在對三板上的從業者進行一輪溝通調研後,在投資研究跟蹤的不同階段自動化報告的實踐。
在對投資者調研的時候,我們發現投資者的需求主要集中在投前行業研究、新在審,新掛牌企業的研究、企業持續跟蹤需求與投後風險提示需求。而在這些需求的背後主要還是亟需將人力從數據收集、整理的繁雜工作和數據過載中解放出來,讓投資者更關注於業務邏輯以及領域模型的構建,在更短的時間內獲得必需的數據,從而提升工作效率。
所以我們根據新三板市場企業多、公告多、領域少、研究少的特點推出了行業動態速遞、H5可視化年報半年報、掛牌企業分析報告。
行業動態速遞
行業動態速遞聚合細分行業的變化信息,主要展示新在審的企業、新掛牌企業、新定增企業的投資機會提示。因為三板市場和早期市場比較類似,所以還有補充早期市場數據這樣跨市場的數據變化,除此之外還有企業亮點的展現。
H5可視化年報半年報
新三板有8000多家企業,很多企業都是只有在掛牌那一天會有人關注一下,然後就徹底從人們的視線中消失了。再加上三板投研機構人力無法覆蓋所有企業,所以需要通過機器來為所有企業生成可視化的報告,這樣就可以更為直觀的讓企業的投資亮點得到展示。讓信息在企業和投資人之間更加順暢的流動起來。
掛牌企業分析報告
文因在對一家新三板上的企業生成了一份這樣的掛牌企業分析報告。大家都知道股轉說明書通常都有200多頁,投資人沒有時間去逐一仔細閱讀。所以我們通過自然語言提取等人工智慧技術從中提取了關鍵的信息如該公司的核心技術、主要客戶變化等。同時再加上投資風險這樣知識圖譜的推理,將200多頁的公開轉讓說明書變成更為簡潔直觀的企業分析報告,從而更好的為投資者節省時間、提升工作效率。
推薦閱讀:
※開復老師的《人工智慧》寫得挺好的
※大神Hinton的Capsule論文終於公開,神經網路迎來新探索
※大話:人工智慧、大數據、物聯網、雲計算
※技術邊界篇1:腦機介面(BCI)
※如何「科學的比較」機器學習模型表現?