沒有緋聞的名人,不是名人;沒有「新聞熱度」的票兒,不是網紅票
來自專欄大數據解讀A股4 人贊了文章
首先和大家報告一聲,被全國人民口誅筆伐、新聞曝光率極高的「長生生物」(目前已經被風險警示,名字改為ST長生)目測要開始退市了。上周提到「這樣的股票還是早些退市吧」,其實把握不大,畢竟法律還沒有相應的條文、從歷史上看也沒有先例。
但,歷史從來都是用來被打破的!7月27日晚上,證監會發布《關於修改<關於改革完善並嚴格實施上市公司退市制度的若干意見>的決定》,明確「涉及公眾健康安全領域」的違法行為,可以進行退市處理。特事特辦,此舉算是送長生生物最後一程,退市板上釘釘,拜拜。
過去這一周的長生生物新聞呈現爆炸性傳播,尤其是經過上周末兩天的發酵,周一、周二數據更是「爆表」級別,我們在主要股票社交平台上統計的新聞熱度數據如下:周一周二上千級別的新聞熱度,甩開身後的第二名一倍的數據量,到周五,新聞熱度有所降溫,但仍然是佔據了榜首的位置。
讓我們觀察上面的3張圖,除了長生生物系由於疫苗事件上榜的幾隻股票外,還有幾個股票也一直在榜單上:工商銀行、中信證券、招商銀行、建設銀行、國泰君安。其實不僅僅是這一周,其他的一些時間,這些股票也常年霸佔top10。
嗯,問題來了,要是這麼繼續統計下去,有效信息很低,總是這幾隻股票,還怎麼玩?
最簡單的方法,把這幾個股票去掉不就好了嘛?但這麼干,對這些股票不公平,萬一某一天有相關的勁爆新聞,就看不到,而且去掉這一批,下一批還是持續佔據,怎麼辦?所以正確的姿勢是:用數學利器來對統計結果進行過濾~
我們觀察這一批股票。其實發現很多都是金融行業的公司,那我們就可以設想,是不是可以把行業這個因素去除掉?怎麼去?這裡就要用到一個數學小技巧,用最小二乘求回歸係數:
左邊是新聞熱度數據,右邊是28個行業數據(選取申銀萬國的行業分類),前面的β是待求解的係數,行業呢,只有2個取值(0和1),0代表這個股票不是這個行業,1代表是這個行業,最後一個是殘差項。公式的左邊是新聞熱度數據、右邊是這隻股票是否屬於這個行業,取所有股票的數據,大概3500多隻,求解28個β係數。用最小二乘(Excel、Matlab、Python)都很容易實現,一條命令就可以了。
之後,我們用新聞熱度減去,求得殘差項作為這隻股票新的新聞熱度:這裡的解釋是,這部分殘差就是不能被行業變數解釋的新聞熱度(對新聞熱度數據,做了規一化處理,所以數量變小):
這麼一調整,我們再來看top10,工商銀行被剔除出去,進來了一些新的股票萬科A、分眾傳媒,感覺好一些。但金融類的公司還是比較多。這時候,我們可以考慮是不是和公司大小也有關係,大公司,正常情況下新聞自然比較多,小公司相比就少很多。於是我們把公司大小的變數(總市值 A股到底多有錢?——解讀總市值因子 )引入,上面的公式變為:
這裡依然採用了上面的方法,引入總市值的因子(中間做歸一化、取對數),用殘差代替,看看什麼效果:
這樣一看,感覺好很多,蓮花健康、華塑控股都是最近有漲停的妖股、*金亞涉嫌欺詐發行股票,萬科A的姚老闆最近正在減持股票,美的集團最近正在回購公司股票,都是一些熱點的新聞。Top10的統計內容更加多樣,小股票、不同行業的股票都能入選,這樣才是一個比較合理的統計。
除了上面從橫截面(多隻股票)的角度出發,還有一個方法是從單只股票入手,計算過去N個交易日平均新聞數量、標準差,然後結合當天的新聞數量進行統計。
最後聯想到的一點,這次針對長生生物快速修改法律條文的行為,除了是因為影響範圍廣,還有一點就是目前A股市場需要形成一套完整的退市流程。在之前的一篇文章中提到,
一剪沒:上證指數跌了40%,這裡是底嗎?--- 換個姿勢看股市上證指數相比2015年的高峰跌去了40%,但看總市值,目前大概也就跌去了20%,其中一個重要原因就是過去幾年發新股太多了,但很少有股票退市。一個市場只進不出,良莠不齊,當然沒有辦法進步,只有完成退市的這個最後流程,形成完整的生態,A股才能重振雄風~ 而對於投資者最重要的提醒就是,選股票,可要再長點心哦~
推薦閱讀: