乾貨:一文看懂如何將股票進行分類

相信每一個投資者都明白「不要把雞蛋放在同一個籃子」的投資道理。股市看似「各自為政」,但實際上,看似完全無關的股票是相關的。那麼為了規避風險,將相關性極強的股票加以歸類則十分重要。這次為大家分享一些有關量化研究的前提基礎:股票的分類。

相關性對股票分類有用嗎?

在數學上,最常用的相關性衡量指標有兩種方法: Pearson Correlation和Spearman correlation。相信對量化研究稍微了解的球友都不會陌生。

皮爾森相關係數(Pearson correlation coefficient)也稱皮爾森積矩相關係數(Pearson product-moment correlation coefficient) ,是一種線性相關係數。是用來反映兩個變數線性相關程度的統計量。

兩變數間的相關性可以用許多統計值來測量,最常用的是皮爾森矩相關係數(簡稱相關係數),其定義為量變數的協方差除以各自的標準差。

利用樣本相關係數推斷總體中兩個變數是否相關,可以用t 統計量對總體相關係數為0的原假設進行檢驗。若t 檢驗顯著,則拒絕原假設,即兩個變數是線性相關的;若t 檢驗不顯著,則不能拒絕原假設,即兩個變數不是線性相關的。

spearman相關係數描述的則是變數間的排名相關性。該相關係數用排名而非變數值本身來描述變數信號的大小,可抑制異常值對相關性的影響。其定義為量變數各自排名大小之間的皮爾森相關係數。

然而在實踐中,我們發現這種相關性計算的方法卻不能夠有效反映投資標的間協同變化的聯繫。因為大量的因素都會影響到相關性,包括公司業務的轉變、新增、併購等因素都會增加或者減少相關性;所以這種方法對精確的股票相關性分析不具備實際操作意義。

看到這很多球友也許忍不住吐槽——說了這麼多就是要告訴我這個已經OUT了?你是在逗我么?別著急,真正的大餐在後面。

相關性在股票中的運用

魚群在水裡遊動、鳥群在空中遷徙、螞群在地上爬行,看其中一隻魚、鳥或者螞蟻,其軌跡很可能是雜亂無章的,但看群體整體的運動卻是有序的。股票市場的行為也類似。兩隻股票的相關性可能並不穩定,但同時考慮多隻股票的相關性,或許就能挖掘出整體的有序特徵。這就是基於相關性做股票分類的出發點。不同的股票分類表徵著不同的有序特徵。

在這裡向各位推薦一種基於相關性複雜網路的分類方法。

複雜網路是指那些由大規模節點和連邊組成且連邊在節點中的分布具有複雜性的圖。 其發展於圖論, 是複雜系統分析的一個實現。 複雜網路的數據分析透過對數據的理解根據分析的目的, 利用數據抽象出系統的對象元素並定義元素的微觀關係, 進而由大量的微觀關係累積成系統的宏觀面貌, 最後再通過宏觀面貌來分析整個系統的宏觀系統性特徵。

由股票的相關性定義股票間的微觀關係。從數千隻美股的相關性集合中過濾出400隻美股股票,這便構成了聯繫最為緊密的核心美股。複雜網路方法不僅能對數據關係進行可視化分析,而且能在自動化地對股票做分類的同時,為股票的重要性做排名。這樣的分類比人工的分類更加精確。

美股整體的網路結構如下圖所示。400隻核心美股整體大致可以分為4個大類。中間最大的聚類因其相關性的特徵又可以進一步分解為3個緊密聯繫的大板塊(圖中不同的顏色代表不同的板塊)。

通過對各個板塊的研究發現,這六個板塊概括起來分別是:大盤股板塊(紅色)、ETF板塊(藍色)、金融業板塊(嫩綠色)、公共事業板塊(橙色)、能源板塊(粉色)、房地產板塊(墨綠色)。細心的球友或許能夠看到,中間大團的左上方有個白色的小團,那其實是軍工板塊。其中字型大小的大小表示股票的重要性,連邊的粗細代表相關性的緊密程度。

金融業是股票市場動力源泉,因此跟大盤、核心ETF結合得很緊密,符合直覺。另外,我們還可以看到,能源、房產、公共事業這三個板塊在美股中佔據了重要的地位,兩兩相關性不強,與大盤相關性也不強。以上特點從相關性的層面上就構成了美股市場的板塊結構。從分散投資、降低風險的目的上考慮,應盡量避免把所有股票投在同一個板塊里。

這些選股小技巧,你get到了嗎?
推薦閱讀:

看好美股上市的中概股----網易這一次的吃雞財報(下篇)
國內想關注美股數據什麼門戶網站比較好用的?
20隻規模最大的分紅股ETF列表,拿走不謝
NewBeeTraders美股年度總結
為什麼 Facebook 8 億限售股解禁之日股價卻大漲 13% ?

TAG:美股 | 美股交易 | 美股行情 |