時序數據分析有哪些套路(一)

小編前言:在前面的文章裡面我們翻譯過一篇關於業務異常數據檢測的文章,其實那就是 「時序數據分析」 一個極其經典場景,今天我特別寫下這篇文章希望能夠把我前段時間裡對時序數據分析的一些手段理解做一下套路總結,當然,可以當做筆記看待,祝大家能夠在這裡有所收穫。

概念簡述

先說兩個例子大家體會下:

例1:炒股的人都想預測明天是漲還是跌,實際上我們已經積累了大量的歷史數據,說不定還是可以預測的!某股票已經連續漲了3天,明天會不會再漲呢?某股票連續跌了7天了,明天應該不會再跌了吧?

例2:很多商家會在某些節假日時,重點銷售某些產品,以求可以賣出更多,聖誕節快到了,應該主推什麼產品好呢?實際上各商家的收款系統中,記錄了大量的與時間相關的銷售數據,如果對這些數據做一下時間序列分析,說不定能找到重大商機。

時間序列分析,顧名思義,輸入列都是與時間相關的數據,同時需要考慮季節、歷史、周期、趨勢等因素,通過一些手段來預測未來某個時間點會怎樣。

對於餐飲行業來說,就會經常遇到這樣的問題:由於餐飲行業裡面生產和銷售同時進行,所以銷售預測對於餐廳來說十分重要。如何基於菜品歷史銷售數據,做好餐飲銷售預測,以便減少菜品脫銷現象和避免因為備料不足而造成的生產延誤,從而減少菜品生產等待時間,提供給客戶更優質的服務。

餐飲銷售預測可以看做是基於時間序列的短期數據預測,預測對象為具體菜品的銷售量。

套路

時間序列預處理

拿到一個觀察值序列後,首先要對它的純隨機性平穩性進行檢驗,這兩個檢驗過程稱之為序列的預處理

根據檢驗結果可以將序列分為不同的類型,對於不同類型的序列有不同的分析方法。

如圖所示

從圖中可以看出,白雜訊序列是沒有信息可提取的平穩序列,沒有進行序列分析的必要。

平穩性檢驗

定義:如果時間序列在某一常數附近波動且波動範圍有限,即有常數均值和常數方差,並且延遲k期的序列變數的自協方差和自相關係數是相等的或者說延遲k期的序列變數之間的影響程度是一樣的,則稱該序列為平穩序列。

其實可以這麼理解,平穩即代表沒有明顯趨勢且波動範圍有限

檢驗方法:

  1. 時序圖檢驗:根據平穩時間序列的均值和方差都為常數的性質,平穩序列的時序圖顯示該序列值始終在一個常數附近隨機波動,而且波動的範圍有界;如果有明顯的趨勢性或者周期性,那它通常不是平穩序列

  2. 自相關圖檢驗:平穩序列具有短期相關性,這個性質表明對平穩序列而言通常只有近期的序列值對現時值得影響比較明顯,間隔越遠的過去值對現時值得影響越小。隨著延遲期數k的增加,平穩序列的自相關係數會比較快的衰減趨向於零,並在零附近隨機波動,而非平穩序列的自相關係數衰減的速度比較慢。

  3. 單位根檢驗。指的是是否存在單位根,如果存在單位根,即為非平穩時間序列

目前最常用的方法是單位根檢驗

純隨機性檢驗

若某個序列是純隨機序列,那麼它的序列值之間便沒有任何關係,即滿足y(k)= 0,這是一種理想狀況,實際上自相關係數絕對不會為零,但是很接近零,並在零附近隨機波動。

純隨機性檢驗也稱為白雜訊檢驗,一般是構造檢驗統計量來檢驗序列的純隨機性,常用的檢驗統計量有Q統計量、LB統計量,由樣本各延遲期數的自相關係數可以計算得到檢驗統計量,然後計算出對應的p值,如果p值顯著大於顯著性水平a,則表示該序列不能拒絕純隨機的原假設,可以停止對該序列的分析。

點此查看公眾號原文 -> qq.com

題圖來源:點此查看


推薦閱讀:

EGARCH與GARCH的區別?
時間序列的Garch模型怎麼定階?
目前的時間序列預測的state of the art 方法?
時間序列如何分析周期性?
如何判斷時間序列是否是白雜訊?

TAG:时间序列分析 |