交易技術前沿:證券行業文本挖掘技術應用現狀與探討

撲克財經旗下品牌:最值得信任的大宗商品產業和金融服務業智庫。跨界、深度、專註——匯聚業內最值得分享、最有信息濃度的知識。歡迎移步微信公眾平台:puoketrader

原文鏈接:交易技術前沿:證券行業文本挖掘技術應用現狀與探討

導語:證券交易技術領域的乾貨知識。

摘 要:證券行業的海量信息由結構化數據和非結構化數據構成。在當今大數據背景下,越來越多的有價值信息隱藏在海量文本數據中,從而加大了對自動快速的從大規模文本數據中提取信息、發現知識的需求。文本挖掘是自動從文本數據中挖掘潛在的事先未知的新知識的過程,其挖掘演算法的發展與積累為證券行業文本數據分析與信息獲取打下了堅實的技術基礎。基於蘊藏著寶貴信息的大數據,如何結合證券行業的特點和需求,藉助挖掘演算法與模型進行服務創新和交易方式創新,是本文所關注的重點。為此,文本對國內外證券市場的文本數據服務進行了一系列調研,並對我國證券市場基於文本挖掘的應用與服務進行了分析與討論。

關鍵詞:數據挖掘;文本挖掘;情感分析;大數據;創新服務

1 引言

近年來,互聯網在線文本數據的爆炸式增長大大增加了各行各業的相關信息閱讀量,如何從充斥著噪音及各類繁雜信息的數據海洋中自動提取高度相關的有價值的信息已成為企業界與研究界共同關注的熱點。作為一個跨學科交叉領域,文本數據挖掘涉及了多個研究方向,如數據挖掘,自然語言處理,信息檢索,機器學習等等,正越來越多地應用於現實生活中各類應用場景。

證券行業常見的數據包括了股票價格、成交量等等結構化數據,和包含了各類公司信息、新聞等非結構化數據。其中,結構化數據通常以數值形式存放於標準資料庫中,這類數據是各種策略設計、趨勢判斷的基礎。然而結構化數據僅占所有金融信息中的一小部分,金融信息中絕大部分的數據均是以文本形式存在的一種非結構化的數據,如上市公司公告、財報、財經新聞、股吧、微博、社交網路等等。這類海量數據中隱含了很多重要信息,例如大眾對股票的評價和喜好程度,對突發事件的褒貶態度和解讀,都密切影響著未來市場的趨勢。因此,在大數據時代背景下,如何結合證券行業的業務需求,基於人工智慧、數據挖掘、文本挖掘等前沿技術自動分析海量文本數據並從中提取相關有價值信息,給證券行業各層次的企業均提出了挑戰,同時帶來了互聯網商業智能方向的新機遇,促進了一批基於證券行業文本信息服務的創新產業的興起。文本挖掘技術的發展與證券市場信息服務的創新將有助於減小證券市場信息不對稱性,增加信息透明度,加快信息的傳播,促進證券市場長期健康穩定發展。

文本將調研並探討證券行業文本挖掘服務現狀。首先在第二部分對文本挖掘的基本概念、挖掘步驟、常用開源工具和常見的幾類挖掘演算法展開簡要介紹。在第三部分對國內外證券行業文本信息服務進行了調研,將已有的服務分為三大類,分別為投資綜合性社區、文本信息資訊和專業文本挖掘。第四部分討論了我國證券行業文本挖掘的應用現狀和面臨的問題。最後,對全文進行了總結並展望。

2 文本挖掘概述

2.1 文本挖掘簡介

文本挖掘是自動從文本數據中挖掘潛在的事先未知的新信息的過程,與自然語言處理,信息檢索,信息提取,知識發現,數據挖掘,機器學習,統計學等研究領域密切相關[1]。文本數據具有高維、稀疏等特點,可以基於不同層次的表示法展開分析。例如詞袋法(bag-of-words),或詞串法(string of words)。目前大多數文本挖掘方法都基於詞袋法,與基於語義及自然語言處理的詞串法的相比,詞袋法相對較簡單,處理較為方便。

文本挖掘通常可分為兩大步驟,首先是文本數據準備,包括文本獲取,預處理,分詞,詞性標註,文本表示等等;第二步是文本數據挖掘,如文本分類,主題挖掘,情感分析等多種基於各類應用與需求的分析挖掘。近年來,學術界已湧現出很多經典的文本挖掘綜述文章,如A.Hotho等人[1]的《文本挖掘綜述》(A Brief Survey of Text Mining),C.C.Aggarwal等人[2]編輯的書籍《挖掘文本數據》(Mining Text Data),對文本挖掘及其相關方向進行了系統的介紹、總結與綜述。下面對文本挖掘兩大步驟及其常見技術、演算法模型展開簡要介紹。

2.2 文本數據準備

文本數據準備主要進行數據獲取、預處理和分詞,為進一步文本數據挖掘做準備。關於文本數據獲取、中文分詞、自然語言處理等細分方向,已湧現出眾多論文綜述和開源系統。本節從實際應用角度出發,簡要概述文本數據準備的幾個主要步驟和每個步驟目前較為流行的開源工具。

通常來說,文本數據的獲取可以通過選擇若干知名財經門戶網站、股吧網站、微博等作為目標源,搭建網路爬蟲抓取相關文本數據。網頁抓取策略可以分為深度優先、廣度優先和最佳優先三種。常用的開源爬蟲工具有Heritrix,Nutch,Larbin等。Heritrix基於Java語言開發,是一個開源、可擴展的網頁爬蟲框架,支持網頁鏡像保存,適用於Linux系統和Windows系統。在Heritrix的配置頁面,用戶可以進行詳盡的設置,包括網頁抓取範圍,抓取到的信息是以壓縮還是鏡像的方式寫入磁碟,抓取線程個數,抓取間隔時間等等。用戶可以通過配置參數或修改擴充源代碼,面向特定主題搜索數據。

爬蟲工具所抓取的網頁通常包含很多亂碼、鏈接、圖片等噪音,需要進行文本提取,去噪,去重複等操作進行清洗處理。經過清洗後的乾淨的文本文檔,再進行下一步的操作。英文文本的數據預處理通常包括過濾、詞性還原、詞幹提取、關鍵詞提取、句法解析等步驟。由於英文中文語法、文法的差異性,中文文本的預處理並不需要進行詞性還原、詞幹提取等過程,而中文分詞則為文本數據準備中最為關鍵的一個重要步驟。

中文分詞是將中文字元序列切分成一個個單獨的詞的過程,是文本挖掘的基礎。中文分詞的方法有的基於統計,有的基於字元串匹配,有的基於句法語義來進行分詞。中文分詞的學術性中國科學院計算技術研究所研究的漢語詞法分析系統ICTCLAS(Institute of computing Technology, Chinese Lexical Analysis System),可以進行分詞、詞性標註、命名實體識別,且支持用戶自定義詞典,是目前最為熱門的中文分詞系統。ICTCLAS基於C/C++語言開發,後期也推出了支持Java等開發語言的版本。其它的分詞系統還有IKAnalyzer,LibMMSeg等等。

2.3 文本數據挖掘

文本數據挖掘包含了文本分類、文本主題挖掘、文本情感分析、文本聚類、生物文本挖掘等等各種細分研究領域和各類應用場景。通常來說,文本挖掘演算法模型的選擇和設計與具體應用密切相關。例如,若需要調查證券行業在線股評新聞的褒貶態度,以了解和跟蹤市場投資者情緒,則需要用到文本情感分析相關的模型和演算法。下面簡要介紹文本分類和文本情感分析相關概念和常用模型。

2.3.1 文本分類

文本分類的問題定義如下[2]:已知一個訓練數據集 D = { X1,…Xn},其中每條記錄打有一個類標籤,類標籤的值取自由k個不同離散值組成的集合 {1,…,k}。由訓練集構造一個分類模型,用於給新的文本記錄分類,預測相應的類標籤。

文本數據具有高維、稀疏等特點,若直接採用辭彙向量作為特徵進行計算,容易造成維數災難(Curse of Dimensionality)。因此文本分類常常首先進行文本特徵選擇(Feature Selection),以決定哪些是最為相關的、重要的特徵,以提高分類的效率。常見的文本特徵提取方法有基尼係數(Gini Index),信息增益(Information Gain)[3],互信息(Mutual Information)[4],LSI(Latent Semantic Indexing)[5]等等。

然後,選擇分類模型構建文本分類器。決策樹[6],支持向量機(SVM)[7],神經網路,貝葉斯分類等等均為經典的分類演算法,其中SVM模型為近年來較為流行的演算法。

支持向量機(SVM)是90年代中期發展起來的基於統計學習理論的一種機器學習方法,通過尋求結構化風險最小來提高學習機泛化能力,實現經驗風險和置信範圍的最小化。它的基本思想是在樣本輸入空間或特徵空間構造出一個最優超平面,使得超平面到兩類樣本集之間的距離達到最大,從而取得最好的泛化能力。支持向量機在解決小樣本、非線性和高維等問題中表現出了很多特有優勢,且分類準確性較高,穩定性較好,已成為眾多文本分類研究首選的分類模型。

SVM 的分類基本思想如下圖所示,原點與方塊分別代表兩類樣本, H 為劃分超平面,H1, H2分別為過這兩類中距離超平面最近的樣本且平行於超平面的平面, 它們之間的距離叫做分類間隔(margin)。所謂最優超平面就是要求此平面不但能將兩類正確分開,而且使分類間隔最大。支持向量機就是要尋找這個最優超平面,而那些邊緣分類面H1, H2上的點(藍色點)就是支持向量。

圖2.1 SVM 最優超平面

SVM 的最終決策函數只由少數的支持向量所確定,計算的複雜性取決於支持向量的數目,而不是樣本空間的維數,這在某種意義上避免了「維數災難」。少數支持向量決定了最終結果,這不但可以抓住關鍵樣本、「剔除」大量冗餘樣本,且使得該方法不但演算法簡單,並具有較好的魯棒性。

2.3.2情感分析

情感分析(Sentiment Analysis),又稱為觀點挖掘(Opinion Mining),主要研究從文本數據中識別和發現主觀性情感信息,並對情感傾向性進行深入分析。一個觀點可以定義為一個五元組,即 (e[i],a[ij],oo[ijkl],h[k],t[l])[8],其中e[i] 為一個實體(Entity),a[ij] 為e[i] 的一個方面(aspect), oo[ijkl]為針對實體 e[i]的屬性a[ij] 的情感觀點傾向,h[k] 為觀點持有人,t[l] 為觀點發表的時間。其中觀點傾向可以是正面的、負面的或是中性的,還可以伴有不同的情感強度。給定一組含有觀點的文檔集合,情感分析旨在找到集合中所有的觀點五元組。因此,情感分析的任務為,給定一個包含對某一對象情感的評價文章集合,從中抽取每一篇文檔中所評論對象實體及其對應的屬性和組成元素,以及相對應的觀點,提取觀點持有人及發表時間,並判斷觀點是正面的、負面的還是中性的。

情感分析方法根據研究層次的不同,可以大致分為基於語料庫級別、基於文檔級別、基於句子級別、基於屬性級別四大類。其中,語料庫級別情感分析也被稱為整體傾向性挖掘,是以海量文檔數據作為分析對象,對情感傾向性信息進行統一的集成和分析,得到整體傾向性特點。基於文檔級別情感分析假設一篇文檔包含針對某實體的一個觀點[9],以整篇文檔為基本單位進行情感挖掘。基於句子級別情感分析則更為細粒度,以語句作為基本處理單位來判斷其情感傾向性。基於屬性的情感分析針對實體對象的不同屬性(方面)分別進行情感傾向性挖掘,這種級別的分析方法將細至辭彙級的粒度,提取出實體的多種屬性並分別進行傾向性判別[9]。文獻[10]對亞馬遜電子商務上的評論進行了產品屬性提取和情感挖掘。Mei等人[11]提出一個挖掘主題和情感極性的混合模型,可以分別得到針對每一個方面的評價極性。文獻[12]將主題和情感極性的挖掘分成兩個步驟,先尋找主題,再判別極性。

情感分析方法主要可以分為兩大類:基於字典的方法和機器學習方法。基於情感字典的情感分析方法常常首先研究如何建立一個情感詞典,或利用已有語義詞典中的詞語來擴展和構建規模更大的新情感詞典;然後基於情感詞的極性構造若干函數來計算文本的正面或負面的程度。由於本文主要針對中國證券市場,將主要研究中文文本詞典的構造。現有的很多文獻基於董振東的知網(HowNet)進行改進。比如文獻[13]基於HowNet提出了一種中文辭彙情感量化的方法。文獻[14]基於多個情感詞典構造了一個統一的中文情感詞典等等。基於機器學習方法主要研究情感傾向性的判別問題,通常來說,將其看作是一個分類問題,常用的分類方法比如支持向量機模型(SVM),樸素貝葉斯、最大熵等等,參見2.3.1。Pang等人[15]比較了樸素貝葉斯模型,支持向量機,最大熵等分類模型用於給電影評論的情感極性做分類時的效果,其中支持向量機方法取得了相對較好的結果。

情感分析具有較強的領域性特點,即分析的準確性會受到領域不同的影響。這是由於同一個詞,在不同的領域可能代表了不同的情感極性所導致。領域不同,分析模型的性能可能相差甚遠。常見的情感分析應用方向有電子商務領域的消費者產品在線評論的傾向性挖掘,微博或網上社區的輿情分析,股票評論分析與投資者信心預測等等。

3 證券行業文本信息服務

文本信息在證券行業中扮演著尤為重要的角色。專業資訊供應商如彭博、路透、萬得終端在信息的快速搜集和推遞方面依舊保持著他們強大的優勢,而其高昂的服務價格常使得廣大個人投資者望而卻步。傳統的股吧、財經論壇、財經門戶新聞一直以來都是散戶們獲取信息的途徑與交流平台。在信息爆炸的今天,這些傳統論壇簡單的呈現方式使得個人投資者從充斥了大量噪音的文本數據中獲取有價值信息已越來越難;同時,對專業資訊供應商而言,如何更好的利用海量文本數據為高端用戶提供更專業更有效率的文本服務,亦為一項重要的創新與研發方向。

近年來,湧現出一批面向廣大個人投資者的新型投資綜合性社區,這類社區與傳統的股吧相比,在處理海量信息方法和活躍投資者討論方面做了大量的革新,大大增加了人們之間的討論與交流以及相關信息獲取的便捷性。並且,這類投資綜合性社區積累了個人投資者的發布、討論、關注等各種海量行為數據和文本數據,基於此類數據的分析與挖掘將展現出這類交互社區獨有的群體熱點、群體觀點、群體智慧彙集等優勢,這使得投資社交網路逐漸成為行業中尤為重要的一類信息獲取通道。3.1節將首先介紹投資綜合性社區及其代表性企業。

在專業資訊供應商方面,傳統的行業巨頭也在加大信息分析、整合的力度與深度,以求在信息爆炸時代更好的提取有用信息。同時,也出現了基於文本信息整合與分析的細分領域資訊供應商。將在3.2節展開介紹。

在文本數據挖掘服務的細分領域,開始湧現出一批專業性、技術性較強的公司,基於文本挖掘複雜演算法與模型為用戶提供智能文本挖掘服務,將在3.3節進行闡述。

3.1 投資綜合性社區

投資綜合性社區是近幾年來興起的一類專業型社交網路平台。與傳統的股吧、論壇不同,投資社交網路以「投資」這一共同的興趣愛好聚集了大量的用戶群體,專業性較強,並且逐漸建立起人與人之間、人與股票之間、股票與題材之間等等各類較為穩固的聯繫,形成了各種重要消息發布、頻繁互動、思想碰撞的交流平台。

目前最著名的投資綜合性社區為國外的「StockTwits」和國內的「雪球」。這類論壇圍繞「投資」主題,提供了各種便利服務,例如關注股票和話題,訂閱股票基金ETF,收取新聞公告,參與用戶討論實時交流互動等等。投資綜合性社區目前已經聚集了大批投資者和證券行業人士,他們在證券相關主題上發表各類言論,提供專業資訊與見解,並參與話題討論。

投資綜合性社區積累了大量的用戶發文、評論、關注以及各類行為的文本數據,為基於該社區平台的的各種文本挖掘服務提供了穩定的數據源。這些文本數據通常帶有主觀性情感,有較為明確的評論對象,相對其他論壇而言信息含金量較高,這些特點均為細分文本分析服務提供了高質量的原始數據。

隨著這類數據大量累積,投資綜合性社區將拓展開發出越來越豐富的信息服務與個性化服務。如,可以基於積累的大數據做進一步深層次的分析與挖掘,整合社區群體信息提取加工成有價值的情報,進一步提高用戶體驗和用戶粘性。這類面向終端投資者的文本數據挖掘服務,既可以是投資社區自主研發,也可以與第三方IT公司合作基於該平台數據提供更為細分且豐富的服務,從而形成基於投資主題的面向終端用戶的全新的信息服務產業鏈。

3.1.1 StockTwits

美股投資社區StockTwits創辦於2008年,是一個投資行業人士發布和關注金融新聞,並對股票和題材進行討論交流的平台。StockTwits受Twits風格影響,主要以簡短討論為主,為用戶提供資訊服務。由於股票市場與投資者群體的信心和看法關聯較大,股票市場可能受到群體信心、民意的影響;同時股票的走勢以及投資社區上的討論褒貶情況也在一定程度上反應了公眾對經濟、行業的各種預期和信心。StockTwits搜集了投資領域各類用戶的輿情和民意信息,經過分析整合以後,可以反映出金融市場的輿情趨勢。

為了更好的服務投資者,StockTwits對投資相關的各類數據進行整合、分析與展示。以Google股票為例,當用戶選擇關注GOOG後,主頁面將展示所有關於Google的討論,以時間先後排列;頁面右上方展示關注用戶數,以及價格、討論量、情感傾向性的隨時間變化走勢圖,如圖3.1所示。其中第一項為投資者最為熟悉的量價K線圖;第二項為評論熱度統計的時間序列展示,可反映出該股票被關注、評論的隨時間變化的熱烈程度;而第三項$GOOG Sentiment為基於海量文本數據的情感分析(看漲看跌傾向性)變化圖。截至2014年1月26日,約88%的評論看漲,12%的評論看跌,且近幾日來看漲的評論比例處於緩慢增加趨勢。

圖3.1 StockTwits $GOOG數據一覽

除了針對個股的文本統計與分析,StockTwits還有熱點地圖、討論最多的行業、熱門公司等服務。通過這些應用服務,StockTwits將大量經用戶思想碰撞所產生的有價值的信息從海量文本數據中提取挖掘並展示給用戶,這在信息大爆炸的今天尤為重要,因為只有藉助文本挖掘手段自動從海量且包含了各種噪音的大數據中及時發現隱含的有價值的信息,才能大大提高有價值的信息的利用率並加速其流動與傳播。

3.1.2 雪球

雪球社區創立於2011年,為新興的中文投資者社交網路。與StockTwits類似,雪球以「加關注」的方式在人與人之間建立起聯繫,以「@股票」的方式將共同關注某一股票或某題材的用戶聚集起來。雪球的用戶包括業內人士、個人投資者、公司高管等等各種與投資相關的人,致力於幫助用戶快速獲得公司公告,相關新聞,和用戶討論。

雪球社區在成立初期,新用戶須通過老用戶邀請才能註冊。2012年10月,雪球正式對外開放註冊,用戶數穩步增加。目前雪球已覆蓋中、港、美三大市場和股票、債券、基金、信託、理財產品等多個投資品種,以及比特幣等新興熱門產品,用戶可以方便地獲取這些投資產品的價格、數據、資訊和討論。雪球社區經常組織公司代表訪談等活動,方便公司維護投資者關係,有利於投資信息的披露與傳播。

2014年1月,雪球新增社區熱度指標——「雪球指標」,根據關注度及增長率,討論次數及增長率,分享次數及增長率篩選最熱門的股票。這是雪球基於社區論壇積累的海量信息統計分析後的推薦小工具。對個股而言,其評論熱度和評論數可以與股價走勢的時間點相疊加,用戶可以同時瀏覽在某個時間點的量、價和評論,參見圖3.2。該功能有些類似於StockTwits(圖3.1),但相對較初步和簡單,並未將文字中的褒貶語義進行進一步分析與剖析。

3.2 雪球個股(BIDU)討論熱度與內容

3.2 文本信息資訊服務

受Twitter情感分析、熱點地圖等文本挖掘服務獲得廣泛好評及熱議的影響,彭博社、湯姆森路透等傳統金融資訊巨頭近年來也開始啟動基於財經新聞文本挖掘、分類、情感分析等服務,同時加大了對該方向人才的招聘力度。其中,湯姆森路透基於機器可讀新聞(machine readable news)開發出各類傾向性指數、情感追蹤等服務,大大提高了新聞的解讀速度和運作效率。

國內的金融資訊服務商如萬得,也提供新聞與研報的關鍵字搜索服務,並對新聞進行了粗略的主題分類和正面負面分類。在金融文本信息資訊方面,朝陽永續為一家專註於文本數據的搜集與處理的公司,在文本資訊細分領域佔領了部分市場。然而在文本信息利用、文本快速挖掘方面,國內資訊服務商與國外相比尚有較大的差距。

3.2.1 湯姆森路透——機器可讀新聞

機器可讀新聞(Machine Readable News)為電腦自動生成的滿足一定規則的便於給電腦「閱讀」的新聞,在公司發布收益報告或政府發布經濟統計數據的時候自動提取產生,經過處理轉換後直接提供給另外一些根據新聞進行計算或交易的電腦。近年來,路透、彭博(Bloomberg)等資訊供應商對於「機器可讀新聞」的需求量大幅上升。這些新聞以電腦可讀的語言編寫,由一連串的字元和數據組成,沒有傳統新聞中的句子成分。機器可讀新聞使得電腦可在收到信息的毫秒級別時間內則可以根據新聞進行相關處理,把解讀新聞的工作交給了電腦處理,由電腦自動提取出新聞中的重要信息,其速度遠非人類之所能及。

湯姆森路透公司基於機器可讀新聞開發出了一系列產品與服務[16]。例如,基於機器可讀新聞可以將所有與股票和衍生品相關的新聞進行情感正負量化打分,其數值在-1000到+1000之間;在新聞被發布的若干秒時間內快速生成情感正負分數,並在門戶網站或圖表應用程序中繪製展示給用戶;瞬時量化實時新聞的影響,幫助用戶快速進行高概率方向的交易,或是追蹤投資組合的風險。其新聞分析覆蓋了超過5000隻美國股票和1877隻加拿大股票,分析統計多至50000新聞網站和4百萬社交媒體。公司提供三種封裝打包方式:程序化、專業型、移動門戶網站,以符合量化交易員、投資組合管理、市場數據管理等各類用戶的需求。

基於機器可讀新聞的應用服務有例如MRI市場反應指標,SIs情緒指數等等。其中市場反應指標可以實時測量突發新聞在一個特定的證券或指數的價格方向、交易量以及波動率上的的影響;而情感指數可以根據給定的公司、指數或特定主題實時展示出大眾情感是怎樣隨著時間演化的滾動均值,可以通過提供新聞褒貶度來評估突發新聞對股票價格的影響,亦可以作為量化交易中策略參數的輸入值之一。圖3.3展示了EOTPRO湯姆森路透機器可讀新聞門戶網站的一個示例,列出前10位最受關注的各種正面的或負面的新聞事件和話題。 EOTPRO網站可實時展示美國股市的社交媒體情感性和新聞的褒貶性,傳遞大量社交媒體態度和新聞分析,以支持交易,投資和風險管理決策制定。

3.3 EOTPRO湯姆森路透機器可讀新聞門戶網站

3.2.2 朝陽永續——研究報告資料庫

朝陽永續是一家上市公司盈利預測數據提供商,主要收集的文本數據主要有三類:新聞、研究報告和上市公司公告。公司推出了一款「一致預期」資料庫產品,以賣方上市公司研究報告為基礎,形成了一套關於個股、行業、指數的未來三年的預期資料庫產品。這個資料庫包括公告庫,研究報告庫,可以按照事件分類,也支持關鍵字查詢,如圖3.4所示,很大程度上幫助了行業內人士對文本信息的獲取和分析。

公司主要針對分析師研究報告做整理和分析挖掘,具體來說可以分成五個部分:(1)賣方原始預測數據的校對和清洗;(2)一致預期行業基準數據的生成;(3)報告相關衍生品,例如情緒等;(4)事件庫的建設;(5)文本挖掘,如分詞、重點關鍵詞的提取,分類,主題挖掘等。關於深層次的文本數據挖掘,公司的研究團隊尚處於研發階段,目前已完成對海量新聞數據的採集和清理,分詞,預計2014年底可以推出新的數據服務和產品。

圖3.4 朝陽永續研究報告主題篩選頁面

3.3 專業文本挖掘服務

近年來,湧現出一批基於文本挖掘複雜演算法與模型為用戶提供智能文本挖掘服務的互聯網公司。這類公司專註於專業文本挖掘服務這一細分市場,為用戶提供高端文本挖掘服務。其數據源主要來源於互聯網的新聞、博客、微博以及各類社區,也有公司專門基於社交網站的大數據展開深度挖掘與分析,例如SmogFarm。

3.3.1 美股情感分析服務——Stock Sonar

Stock Sonar檢索、讀取和分析來自文章、博客、新聞稿及其它基於對某個文本的意義深入理解的公共信息等廣泛的在線資源,為用戶提供即時的美股文本情感分析服務,用於輔助交易決策。該系統以網路媒體文本為主要數據源,量化其文本情感的正負及幅度,並實時展示給用戶。可以針對個股、指數或者主題板塊進行情感度量和比較,即時發現投資機會,為用戶訂製的投資組合發掘並量化媒體情感,並以可視化方式展示出來。相關的媒體文本將以深色強調顯示以便於用戶快速閱讀。

Stock Sonar旨在為交易商和投資者提供實時而強大的決策支持工具,快速而清晰的展現與投資決策相關聯財經新聞、社交媒體的情感傾向性。正如圖3.5所示,與StockTwits的情感工具相比,Stock Sonar更為細緻專業,展示界面清爽,趨勢一目了然。

圖3.5 Stock Sonar 的Google正負情感曲線

在情感傾向性曲線下方,列有詳細的文章列表和事件列表,以「打分-標題」的方式按照時間先後排列。圖3.6所示為奇虎360股票相關的文章列表,左側的打分條以顏色區別情感傾向正負性,並標以對應情感程度的數字。同時頁面右邊將展示原文出處,重點負面關鍵欄位用紅色標出,正面欄位用綠色標出,幫助人們複查新聞並快速定位到相關段落。

圖3.6 奇虎360股票相關的新聞列表節選

3.3.2 大數據分析——Smog Farm

Smog Farm是一家進行大數據情緒分析的公司。正如其標語「Harvesting the cloud」所示,公司希望基於數據云「收穫」隱藏在海量數據中的價值信息。公司彙集了大數據、語言學、群體心理學等方向的專家,在此交叉領域研究開發各類相關產品與服務。

該公司的首款產品KredStreet——「社交化股票交易員排名」,主要是根據社交投資網站StockTwits的數據進行分析,從而確定交易員整體是看漲或看跌。根據某個時間點某交易員看漲看跌判斷記錄,與股市的真實走勢進行對比,對交易員打分並根據準確率進行排名。

圖3.7 Smog Farm

4 證券行業文本挖掘應用現狀

4.1 相關研究報告

近年來,儘管主流的券商研究策略報告仍然基於傳統的金融工程、統計方法,已可以觀察到越來越多的報告中開始出現數據挖掘、文本挖掘、雲平台、大數據等關鍵詞。涉及的領域有金融工程,投資策略建議等等。

光大證券建立了一個中文雲文本挖掘系統,並撰寫了多份相關研究報告,如2012年的《金融文本挖掘前述—-系統、數據、指標》,《基於深層次文本挖掘的策略研究》等等。該系統將文本挖掘與金融量化相結合,衍生出多種服務產品,包括概念板塊套利,關鍵詞熱度,投資者情緒指標擇時模型,關注度選股模型等等。

國信證券的金融工程研究團隊也就數據挖掘與金融工程交叉領域進行了深入的研究,可搜索到自2010年起便有相關研究報告發表。例如報告《國信投資時鐘之行業關聯網路》藉助複雜網路模型研究版塊輪動。《基於動態時間規整的擇時策略》採用了動態時間規整(Dynamic Time Warping)——一種高靈活性適應性的時間序列相似度度量方法來測量兩條時間序列的相似程度,可以大大降低因相鄰時間的細微不一致而導致的相異度增加,而從大體形態上捕獲時間序列的相似度,進一步聚類以發現模式和規律。《交易性數據挖掘系列報告》等一系列報告也詳細闡述了量化投資者情緒指標,基於動態規劃做預測,均線型技術跟隨等。

此外,海通證券、廣發證券、中信證券、國金證券、國泰君安、宏源證券等也就數據挖掘、商業智能、大數據等相關領域進行研究並發布了研究報告。

4.2 行業應用現狀與問題探討

在中國證券市場,目前針對股票領域的文本挖掘的應用與服務較為少見。其原因主要有兩點,一是挖掘技術以及數據源面臨的難題,二是股票市場自身的複雜性。

股票所涉及的文本種類繁多,例如上市公司公告、行業研究報告、網路新聞、論壇、微博等等。需要對大量文本信息進行加工,分析,識別行業術語,聯繫基本面,探尋其與股價之間的聯繫,以觀察個股是否超預期。這其中,首先需要對歷史文本信息進行收集和積累。目前證券行業內的資料庫大多基於結構化數據進行存儲,非結構化數據方面,朝陽永續的公告庫和研究報告庫目前可以進行簡單的分類和關鍵字查詢,對於業內人士對文本信息的獲取和分析起到一定的幫助。然而由於非結構化數據量大,迫切需要研發自動化挖掘工具和應用輔助業內人士進行信息提取和分析。數據源方面,國外的文本信息量大,且針對個股的文本信息持續性好,歷史信息也積累的較為齊全,針對個股做文本挖掘時有大量素材。而在中國,文本信息存在大量冗餘,經常一個新聞被轉載數十次上百次,且針對個股的文本信息持續性不強,文本積累較少。

信息源的可信程度也是文本挖掘面臨的一大難題。比如,如何判斷來自網站新聞、股吧、微博等等消息的真假,如何降低噪音對真實信息的影響等等。股票信息源的噪音和虛假新聞眾多,難以分辨真偽。信息發布者立場問題也會大大的影響信息的可信度。例如利益相關的新聞發布者發布的信息,將會帶有主觀傾向性和引導性,極力修飾負面信息而放大正面信息。這些都大大增加了信息的理解和辨別難度。

中國股票市場中,判斷信息對於股票的影響是個難題,可因不同個股、板塊、事件、政策、環境等各種因素而異。有時候利好消息不一定會導致股票上漲,尤其在流動性不好的股票中,經常會出現相反的情形,這使得信息與股票之間的規律與聯繫充滿了不確定性。

目前,在量化投資中大量使用的是結構化數據。然而價格一定有不可解釋的部分,很多信息隱藏在非結構化數據中。例如,各種新的「概念」和「熱點」的挖掘。研究報告上的點評的理解、解讀和聯繫,這些都需要對非結構化數據進行分析。有些時候,一些股價動蕩是因為被動的調整,比如2013年12月20日QFII跟蹤指數進行調倉,導致建設銀行、中信銀行、交通銀行等相關股票尾盤異動,這類情形也只能從文本獲得信息進行解釋。

總之,中國證券行業目前基於文本挖掘的應用服務較少,對於這類信息服務有著大量的需求。如何降低各種不利因素的影響,從海量文本數據中自動快速地提取出有價值的真實信息,以更好的推動證券市場信息流動性,促進市場的健康有序發展,仍是一個需要不斷努力的課題。

5 總結與展望

在當今大數據時代,隱含了有價值信息的、與人類行為息息相關的大規模數據將日益成為稀缺資源和寶貴財富。這其中,大量產生於社交媒體,門戶網站,微博等等的互聯網文本數據,近年來發展迅猛。基於互聯網文本數據的分析挖掘與知識發現,已然成為了全球研究界和企業界關注的熱點課題。由於中文文本自身的特性,國外基於英文的文本挖掘方法很多無法通用,這需要我們基於中文特點和具體的應用場景進行持續深入的研究。

目前文本挖掘在證券市場的應用較少,且面臨著各種難題,如文本數據歷史庫的收集與處理目前尚未成熟,文本傾向性與股市走勢時而相背離,文本信息可信度以及發布者利益相關問題等等。然而結構化數據並不能解釋所有證券市場的所有現象,大量的信息隱藏於海量本文數據中。投資者需要從海量文本中獲得準確信息來解釋市場的行為和現象,並輔助投資決策,因而對文本挖掘以及基於文本數據的各種信息服務有著迫切的需求。

中國證券行業文本數據挖掘服務尚處於起步階段,尚面臨著各種機遇和挑戰。可通過借鑒國外成熟應用的例子,廣泛深入調研並結合現實應用場景,加大中文文本挖掘的研發力度,以迎來大數據文本挖掘服務交叉領域產業與服務的騰飛。

參考文獻:

[1]tA. Hotho, A. Nurnberger, and G. Paa. A Brief Survey of Text Mining. in J. for Computational Linguistics and Language Technology, 2005.

[2]tC. C. Aggarwal, C.X. Zhai (Eds.) Mining Text Data. Springer ISBN 978-1-4419-8462-3, 2012.

[3]tYang Y Pedersen JO.A comparative study on feature selection in text categorization.In:Fisher DH,ed Proceedings of the 14th International conference on Machine Learning (ICML97)1997:Nashville:Morgan Kaufmann Publishers;1997.412-420.

[4]tMACRO Zaffalon,MARCUS Hutter.Robust feature selection by mutual information Distributions.In: Proceedings of the 18th international conference on uncertainty in ratification intelligence,UAI,2002,577-584.

[5]tS. Deerwester, S. Dumais, T. Landauer, G. Furnas, R. Harshman. Indexing by Latent Semantic Analysis. JASIS, 41(6), pp. 391–407,1990.

[6]tJ. R. Quinlan, Induction of Decision Trees, Machine Learning,1(1), pp 81–106, 1986.

[7]tC. Cortes, V. Vapnik. Support-vector networks. Machine Learning, 20: pp. 273–297, 1995.

[8]tB.Liu and L.Zhang. A Survey of Opinion Mining and Sentiment Analysis.Book Chapter in Mining Text Data, Ed. C. C. Aggarwal, C.X. Zhai, 2012.

[9]tRonen Feldman. Techniques and Applications for Sentiment Analysis. Communications of the ACM, Vol. 56 No. 4, Pages 82-89.

[10]t馮小翼. 在線評論的產品屬性提取與情感分析研究. 華中科技大學碩士學位論文, 2011.

[11]tQiaozhu Mei, Xu Ling, Matthew Wondra, Hang Su, and Chengxiang Zhai. Topic sentiment mixture: Modeling facets and opinions in weblogs. In Proceedings of WWW, Pages 171-180, New York, NY, USA, 2007.

[12]tKoji Egchi and Chirag Shah. Opinion retrieval experiments using generative models: Experiments for the TREC 2006 blog track. In Proceedings of TREC, 2006.

[13]t柳位平,朱艷輝等.中文基礎情感詞詞典構建方法研究[J].計算機應用,2009,29(10):2875-2877.

[14]t王素格,楊安娜,李德玉.基於漢語情感詞表的句子傾向性分類研究[J].計算機工程與應用,2009,45(24):153-155.

[15]tBo Pang, Lilian Lee, and Shivakumar Vaithyanathan. Thumbs up? Sentiment classification using machine learning techniques. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Pages 79-86, 2002.

[16]tEOTPRO Developments Inc.

撲克財經旗下品牌:最值得信任的大宗商品產業和金融服務業智庫。跨界、深度、專註——匯聚業內最值得分享、最有信息濃度的知識。歡迎移步微信公眾平台:puoketrader


推薦閱讀:

調整3240到位,巨量反包,明日破關3301;雄安分化崩跌就在眼前
如約回調3200,後市很亂,操作很難
股市大量蒸發 是不是國家故意的搶劫行為?

TAG:交易 | 证券投资 | 数据挖掘 |