基於譜聚類方法的海康威視002415日線聚類

摘要:利用濾波演算法簡化日線數據,動態時間規整(DTW)計算日線間的相關係數,得到2016年1月4日至2017年10月20日間交易日日線間的相似矩陣後,利用譜聚類方法對日線數據進行聚類分析。

關鍵字: 海康威視;日線;濾波; 動態時間規整(DTW);譜聚類。

1介紹

常用的描述股票單日行情的數據特徵包括:最高價,最低價,價差,交易量等。這些特徵都屬於日線數據的統計學特徵,並從某一方面反應當日的交易情況。相比這些統計學特徵,當日日線為反應單日交易情況最為直觀的數據。因此對股票日線數據進行聚類亦屬於日線聚類中最為直觀的一種聚類選擇。

直接對股票日線這一時間序列進行聚類存在以下難點:

1.日線時間序列不規整,每個交易日間的交易次數屬於一個波動值,在一個時間範圍內,交易次數在一定的數值間波動,但時間跨度較大的波動均值之間也存在較大的差別.

FIG1 海康威視日交易次數波動圖

2.股票價格走勢存在較多波動雜訊,這些雜訊往往不會引起價格走勢變動但卻大大增加了時間序列的複雜度。

3.價格區間的變化。股票價格隨時間波動,在一定時間段內呈現均值波動,然而均值的波動會導致相同的日線走勢因屬於不同的價格區間劃入不同的類別。

4.不同日線間的相關係數的計算。日線數據的不規整導致無法簡單套用歐式距離來計算相關係數,通過簡單的插值規整會帶來日線失真,且難以獲得較優的規整參數。另外,直接依靠原始的數據來計算相關係數,龐大的維數也是一個需要克服的問題。

針對上述難點,需對日線數據進行濾波和壓縮。濾波可以控制雜訊數據的影響,降低時間序列的複雜度,日線數據壓縮可以將數據維度降低至較為經濟的區間。這樣就難點2解決,同時為難點4提供了更多的選擇途徑。

對於難點4中的相關係數計算,可借鑒聲音信號處理中的動態時間規整演算法(DTW),DTW在兩條待判斷的序列中尋找一條最短的折線路徑,可以處理不同維度的時間序列。其本身屬於動態規劃演算法,演算法計算較為耗時,處理較大維數的時間序列存在一定的性能問題。前述的數據壓縮可以較好地解決這個問題。

對於難點3,解決方法很簡單,將處理後的數據進行全局參數化後。參數化的區間可以任意選定,以不出現導致計算錯誤的奇異點為標準。

FIG2 日線的濾波,壓縮及參數化

處理後的時間序列在值空間上是規整的,但在維度上並不規整,這決定套用kmeans均值聚類這類的方法需要自定義距離計算函數以及聚類中心的計算方法。距離計算尚可通過前述的解決方案處理,但聚類中心的判定並不是特別的直觀。故這裡採用計算待聚類的所有交易日之間的相關係數矩陣來規整維度,維度規整完畢後,大部分的聚類演算法都能獲取聚類結果。這裡選取的譜聚類是最常用的依據相關係數矩陣聚類的一種方法。和均值聚類方法類似,譜聚類也需要制定族類數目,這裡暫定為5類。

2.聚類結果

單個集合數據較多,這裡在每個集合中隨機挑選9個交易日的日線數據作為結果展示。

類別1:

FIG3 類別1的日線走勢

類別2:

FIG4 類別2的日線走勢

類別3:

FIG4 類別3的日線走勢

類別4:

FIG6 類別4的日線走勢

類別5:

FIG7 類別5的日線走勢

總結:

1.該聚類流程較為便捷,使用較小的數據量也能獲得較為理想的聚類結果。

2.聚類族數有待進一步優化,但5類的聚類效果也很出色,根據聚類結果可以看出,前兩個類別代表這股票日線屬於上漲走勢,後三個類別的日線則為下行走勢。

3.根據各類中成員統計結果可以看出,2016年1月4日至2017年10月20日,下跌走勢的日線佔比達到64%(所以股票有風險還是很有道理的)。

FIG8各類別中成員數量的統計圖

(版權所有,轉載請註明出處!)


推薦閱讀:

震蕩市選股技巧
你對2017年有哪些預測?
2.7解盤(科達、濰柴、福安)
對於「周小川:股市調整已大致到位。」應該怎樣分析?
混改最重要的是方向,大海航行靠舵手。

TAG:股票 | 機器學習 | 聚類分析 |