【觀點】利用大數據構建互聯網金融情緒指數

第一作者:王靖一(北京大學國家發展研究院博士研究生,導師黃益平)

第二作者:@Jason Dou is an asian computer scientist interested in power and influence in both academia and real world. A subset of schools he has been educated includes Cornell University, Carnegie Mellon University, University of Colorado Boulder, University of Hong Kong, and Peking University. He is a member of ACM, INFORMS, MAA, IVY, Fung Scholar community, and Equinox.

For more information, please go to jasondou.org and jasondou.com.

歡迎原鏈接轉發,付費轉載請前往 @Jason Dou 的主頁獲取信息,盜版必究。

敬請關注和擴散本專欄及同名公眾號,會邀請全球知名學者陸續發布運籌學、人工智慧中優化理論等相關乾貨、知乎Live及行業動態: 『運籌OR帷幄』大數據人工智慧時代的運籌學--知乎專欄

本文首發於新財網:利用大數據構建互聯網金融情緒指數

過去三年多來,對互聯網金融的關注度一直在上升,雖然最近出現了一些波動。在不同時期對不同業務關注度的更替十分明顯。對互聯網金融的情感度一直在正負之間大幅震蕩,對於P2P業務的情感度的震蕩尤其激烈

從三年前餘額寶上線到近期P2P平台問題頻發,公眾對互聯網金融的情緒也從熱烈的追捧轉向了普遍的質疑。當然,中國互聯網金融的故事還遠未結束,公眾的情緒也並不是簡單的0、1選擇。即便當下公眾對P2P平台的情緒相當負面,平台的資金交易量依然在穩步增長。新興產業的發展歷史,向來是創新與泡沫並存、理性與瘋狂同在。泡沫也不一定就是行業的終點,美國的互聯網泡沫散去之後,留下了一批全球性的行業領導者。關鍵是是不要讓泡沫摧毀創新,不要讓瘋狂替代理性。因此,準確把握行業發展的狀況至關重要。

  最近我們嘗試利用大數據分析的方法,對媒體文章進行提煉和測算,構建了一套「北京大學互聯網金融情緒指數」,詳細地刻畫公眾在不同的時點對互聯網金融及其10個子類業務的關注度與情感度。總體看來,過去三年多來,對互聯網金融的關注度一直在上升,雖然最近出現了一些波動。在不同時期對不同業務關注度的更替十分明顯。對互聯網金融的情感度一直在正負之間大幅震蕩,對於P2P業務的情感度的震蕩尤其激烈。構建這個指數的努力還只是一個很初步的嘗試,但無論從指數結果看還是從測算方法看,這個嘗試都是具有積極意義的。

  按照不同數據源分類,構建情緒指數的方法大概有三類。第一類是直接調查,美國的「密歇根消費者信心指數」就是用的這個方法。它的好處是問題可以很直接,缺點是實施成本相對較高。第二種是直接利用公眾討論平台的數據。它的好處確屬反映公眾的情緒,但尋找和分析數據的難度會增加許多。第三種是以媒體文章作為信息源,最近國際上流傳的「經濟政策不確定指數」就是基於這個方法構建的。它的好處是數據邊界比較容易確定,壞處是新聞所反映的情緒跟公眾的情緒不一定精密吻合。我們構建情緒指數也是用的這個方法,數據源是和訊網自2013年年初以來的1400萬條媒體文章。

  媒體文章是非結構性數據,利用這樣的信息編製指數,需要克服三個關鍵難題,即互聯網金融專業詞典的構建、文章主題的確定和正負情感的量化評分。形象地打個比方,我們分三步訓練了一個程序,第一步讓她了解到互聯網金融的存在,看見「互聯網金融」這幾個字,「腦」中反應的不是金融與互聯網兩個概念,而是這個獨立的領域;第二步讓她獲得從文字中歸納主題的能力,就像人在看到一行行文字的時候,「想」到的卻是這篇文章的主題;第三步則是讓她能夠對文字內容有情感的判斷,一些字眼在她「心」中有了特殊的含義。

  具體的步驟可以概括如下。首先,我們構建一個互聯網金融的專業詞典,因為互聯網金融是一個新生事物,我們對已有詞典做了幾次擴充。第一次擴充是主觀地加入「網貸」、「區塊鏈」這樣的專有名詞以及「紅嶺創投」、「支付寶」、「周世平」這樣的代表性公司、產品和人物。第二次擴充是對書籍《互聯網金融十二講》進行「搜索引擎模式」分詞,並對每個詞的出現次數進行計數,人工篩選出現次數大於10的詞,將其納入詞典。第三次擴充是對已經明確為互聯網金融新聞的文章重複第二次的過程,人工篩選詞頻大於20的詞。在第二次和第三次的人工篩選中,我們還挑選了正向情感詞和負向情感詞。

  其次,我們利用隱含狄利克雷分布(LDA)的主題模型,對全部待選文章進行處理,得到每篇文章最有可能所屬的幾個主題及其概率。簡單地說,就是每一篇文章度包含若干主題,每個主題則包含一系列的關鍵詞;隨著納入訓練的文章數量增加,單個主題所包含的一系列的詞逐漸趨於穩定。這樣,我們便可以將一篇文章歸納至一個或幾個主題及其對應概率,而對於每個主題,我們又可以將他們分別歸納至網路借貸、網路貨幣等十個細分領域。將這些文章對應的細分領域概率按月加總,使用當月新聞總數進行平減,並進行標準化(初期設為100),我們便得到了關注度指數。

  最後,我們進行正負情感度的判別。首先需要確定一組正情感詞和一組負情感詞,這個過程中需要解決得一個問題是,在互聯網金融的語境下出現了一些新的情感詞,比如「雷了」表示P2P網貸平台爆發問題,同時一些詞也發生了情感異化,比如「打破」更可能意味著創新。在第一步手工挑選詞庫時,我們篩選出了正情感詞和負情感詞;繼而我們應用詞向量模型,在第二步獲得的主題為互聯網金融的全部媒體文章上訓練,對這些詞在互聯網金融語境下進行重新定義,並將它們的含義相近程度量化。我們將每個原有情感詞的前20個近意詞人工篩選,納入其中作為情感詞。

  為了衡量情感度指數,我們對每個關鍵詞進行賦分,正向情感詞為正數,負向情感詞為負數,數值的大小為:

  即情感度指數0代表平均的情感,某一情感詞的權重反比於其出現的次數(出現頻繁的大眾詞影響小)。其正負值則代表相較於歷史平均態度是更樂觀還是更悲觀,其絕對值的大小則代表這種情感的強烈程度,不過數值大小並不具有特定的含義。

  需要指出的是,「北京大學互聯網金融情緒指數」還只是很初步的結果,還有很多可以進一步改進的空間。即便如此,這套指數也已經揭示了許多有意義的結果。自2013年1月起,互聯網金融的關注度指數總體不斷向上,關注度第一次顯著上揚從2013年6月餘額寶上線開始,到2014年3月「互聯網金融」被寫進政府工作報告告一段落。第二次上揚伴隨著越來越多的P2P平台在2015年下半年出現各種風險,一直到2015年12月銀監會公布《網路借貸信息中介機構業務活動管理暫行辦法》。中間也發生過幾次反覆,尤其是自2016年年初以來,關注度已經明顯回落(圖一)。

圖一、互聯網金融的關注度指數與情感度指數   相比之下,情感度指數的震蕩更加激烈。這起碼部分是因為兩個指數的定義不一樣,關注度指數是以起點為100,而情感度指數則是以整個時期的平均值為0。在2013-2014年間,除了幾個短暫的時點如2013年7月和2014年9月,情感度指數大多處於負值區間。這也許表明,雖然公眾對互聯網金融的關注度在顯著上升,但對其看法並不樂觀。而在2015年,情感度指數一直處在正值區間,即便在下半年P2P平颱風險頻發,依然如此。倒是在2015年7月,《關於促進互聯網金融健康發展的指導意見》的出台,令情感度指數出現了一個「深V」。從2016年年初,這個指數一直落在負值區間,但最近已經恢復到接近歷史平均的水平。

  比較不同業務子類的關注度指數,也可以發現過去三年多來熱點問題在發生變化。從2013年年末到2014年年初,互聯網貨幣受關注度非常高,這應該跟當時的比特幣熱有關。但隨後包括中國在內的一些國家的政府開始限制比特幣的使用,比特幣的交易價格大幅回落,對互聯網貨幣的關注度也不斷降溫。最近對這個話題的關注度又出現了回升,應該是與最近關於區塊鏈話題的討論有關(圖二)。與此相對比,前幾年對互聯網金融中消費金融業務的關注度處於較低的水平,但一直保持了上升的勢頭,特別是在2015年第四季度直線飆升。但在2015年11月「e租寶」事件爆發之後,P2P平台遭「污名化」,也影響了消費金融得關注度。

圖二、互聯網貨幣和消費金融的關注度指數   情緒指數與業務發展之間有沒有關係?如果我們將之前編製的「北京大學互聯網金融發展指數」中的互聯網投資發展指數與情緒指數中的P2P關注度指數做一比較,似乎可以看到兩者之間的正向關係。從2014年年初開始,兩個指數大致保持了同向變化的態勢,在2015年年初以後,兩個指數分別出現了幾個拐點,但仍然相對同步,比如2015年12月之後的回落和2016年2月之後的回升。當然,在做出進一步的分析之前,我們尚不能確定這樣的同步關係在統計意義上是否顯著以及兩個指數之間是否存在因果關係。

圖一、P2P業務的關注度指數與互聯網投資的發展指數   我們認為這套互聯網金融情緒指數具有一定的開創性意義。在指數的編製中,我們超越了簡單地數關鍵詞的做法,而是利用主題模型提煉、歸納每篇文章所包含的主題,而且還進行情感評分。更重要的是,這可能是全世界第一套反映互聯網金融情緒的量化指標,可以幫助我們準確、及時地把握公眾與媒體對於互聯網金融的關注與情感,對市場參與者、監管部門官員和研究人員,均具有十分重要的參考價值。

 參考資料:王靖一,竇笑添,2016,「中國互聯網金融情緒的量化與指數編製」,北京大學互聯網金融研究中心工作論文。

  作者單位北京大學國家發展研究院、互聯網金融研究中心


如果你是運籌學/人工智慧碩博或在讀,請添加微信號:zf13772441490(備註請務必按照:姓名/昵稱-加群類型-單位/學校-最高/在讀學位-研究方向,否則不會通過),她會拉你進全球運籌或AI學者群(群內學界、業界大佬雲集)。

如果你是運籌學/控制論/隨機優化愛好者,歡迎加qq群:686387574

如果你是人工智慧愛好者,歡迎加qq群: 685839321

敬請關注和擴散本專欄及同名公眾號,會邀請全球知名學者陸續發布運籌學、人工智慧中優化理論等相關乾貨、知乎Live及行業動態。

專欄文章匯總和有獎投稿須知:

『運籌OR帷幄』專欄文章分類匯總+面向學術界/工業界徵稿(含招聘廣告)+專欄編輯/審稿招募


推薦閱讀:

大數據平台中用到的演算法模型
從頭學習大數據培訓課程 數據倉儲工具 hive(七)hive 自定義 UDTF
數據產品經理之道
大數據計數原理1+0=1這你都不會算(七)No.59

TAG:大數據 | 互聯網金融 | P2P金融 |