如何深入理解時間序列分析中的平穩性?

在引入ARMA模型之前,一般課本都會對時間序列的平穩性作一個描述,但是總感覺沒有描述特別清晰:
1. 通常時間序列模型要求的是協方差平穩,或者弱平穩,而對強平穩介紹很少,能否從數學角度分析比較兩者最大的不同在何處,具體影響哪些性質;
2. 從經濟學含義或者常用的金融學領域看,如何看待經濟學中的均衡與時間序列中的平穩性之間的關係和區別。


聲明:本文中所有引用部分,如非特別說明,皆引自Time Series Analysis with Applications in R.

接觸時間序列分析才半年,儘力回答。如果回答有誤,歡迎指出。

對第一個問題,我們把它拆分成以下兩個問題:

  1. Why stationary?(為何要平穩?)
  2. Why weak stationary?(為何弱平穩?)

Why stationary?(為何要平穩?)
每一個統計學問題,我們都需要對其先做一些基本假設。如在一元線性回歸中(y_{i}=eta _{0}+eta _{1}x_{i}+varepsilon _{i}),我們要假設:①x_{i}不相關且非隨機(是固定值或當做已知)②varepsilon _{i}獨立同分布服從正態分布(均值為0,方差恆定)。

在時間序列分析中,我們考慮了很多合理可以簡化問題的假設。而其中最重要的假設就是平穩。

The basic idea of stationarity is that the probability laws that govern the behavior of the process do not change over time.
平穩的基本思想是:時間序列的行為並不隨時間改變

正因此,我們定義了兩種平穩:

Strict stationarity: A time series {Z_{t}} is said to be strictly stationary if the joint distribution of Z_{t_{1}},Z_{t_{2}}, · · ·,Z_{t_{n}} is the same as that ofZ_{t_{1}-k},Z_{t_{2}-k}, · · · ,Z_{t_{n}-k}for all choices of natural number n, all choices of time points t_{1},t_{2}, · · · , t_{n} and all choices of time lag k.
強平穩過程:對於所有可能的n,所有可能的t_{1},t_{2}, · · · , t_{n}和所有可能的k,當Z_{t_{1}},Z_{t_{2}}, · · ·,Z_{t_{n}}的聯合分布與Z_{t_{1}-k},Z_{t_{2}-k}, · · · ,Z_{t_{n}-k}相同時,我們稱其強平穩。

Weak stationarity: A time series {Z_{t}} is said to be weakly (second-order, or co-variance) stationary if:
① the mean function mu (t) is constant over time, and
② γ(t, t ? k) = γ(0, k) for all times t and lags k.
弱平穩過程:當①均值函數是常數函數且②協方差函數僅與時間差相關,我們才稱其為弱平穩。

此時我們轉到第二個問題:Why weak stationary?(為何弱平穩?)
我們先來說說兩種平穩的差別

  • 兩種平穩過程並沒有包含關係,即弱平穩不一定是強平穩,強平穩也不一定是弱平穩。

一方面,雖然看上去強平穩的要求好像比弱平穩強,但強平穩並不一定是弱平穩,因為其矩不一定存在
例子:{Z_{t}}獨立服從柯西分布。{Z_{t}}是強平穩,但由於柯西分布期望與方差不存在,所以不是弱平穩。(之所以不存在是因為其並非絕對可積。)
另一方面,弱平穩也不一定是強平穩,因為二階矩性質並不能確定分布的性質
例子:Z_{1}sim N(1,1),Z_{2}sim Exp(1),Z_{3}sim Poi(1)互相獨立。這是弱平穩卻不是強平穩。

知道了這些造成差別的根本原因後,我們也可以寫出兩者的一些聯繫

  • 一階矩和二階矩存在時,強平穩過程是弱平穩過程。(條件可簡化為二階矩存在,因為E(X^{2})geq E(left| X 
ight| )^2
  • 當聯合分布服從多元正態分布時,兩平穩過程等價。(多元正態分布的二階矩可確定分布性質)

而為什麼用弱平穩而非強平穩,主要原因是:強平穩條件太強,無論是從理論上還是實際上。
理論上,證明一個時間序列是強平穩的一般很難。正如定義所說,我們要比較,對於所有可能的n,所有可能的t_{1},t_{2}, · · · , t_{n}和所有可能的k,當Z_{t_{1}},Z_{t_{2}}, · · ·,Z_{t_{n}}的聯合分布與Z_{t_{1}-k},Z_{t_{2}-k}, · · · ,Z_{t_{n}-k}相同。當分布很複雜的時候,不僅很難比較所有可能性,也可能很難寫出其聯合分布函數。
實際上,對於數據,我們也只能估算出它們均值和二階矩,我們沒法知道它們的分布。所以我們在以後的模型構建和預測上都是在用ACF,這些性質都和弱項和性質有關。而且,教我時間序列教授說過:"General linear process(weak stationarity, linearity, causality) covers about 10% of the real data." ,如果考慮的是強平穩,我覺得可能連5%都沒有了。

對第二個問題:
教授有天在審本科畢業論文,看到一個寫金融的,用平穩時間序列去估計股票走勢(真不知這老兄怎麼想的)。當時教授就說:「金融領域很多東西之所以難以估計,就是因為其經常突變,根本就不是平穩的。
果不其然,論文最後實踐階段,對於股票選擇的正確率在40%。連期望50%都不到(任意一點以後要麼漲要麼跌)。

暑假裡自己用了一些時間序列的方法企圖開發程序性交易程序。
剛開始收益率還好,越往後就越...後面直接虧損了...(軟體是金字塔,第二列是利潤率)

虧損的圖當時沒截,現在也沒法補了,程序都刪了。
所以應該和平穩沒關係吧,畢竟我的做法也沒假設是平穩的。如果平穩我就不會之後不盈利了。
(吐槽)自己果然不適合做股票、期貨什麼的...太高端理解不能...以上


我是外行,說點我的看法。

平穩不只是對很多實際過程的「簡化」,還是我們的「追求」,是一條時間序列裡面長期穩定不變的某些規律,是基本模型。

當面對不平穩的過程的時候,我們首先會想著去把這樣的過程變換成平穩的,找出裡面相對更不隨時間變化的、更「平穩」的那些東西來,更平穩的序列有更低的 Order of integration 。當然,找出這些不變的(或者相對更平穩的)東西來之後,並不代表就一定可以獲得真正意義上的預測能力。

舉兩個例子:

  1. 股票絕對價格的漲跌顯然不能滿足正態分布,Bachelier (1900) 當時就犯了這樣的錯誤。當序列被 Osborne 處理過之後:frac{S_{t}-S_{t-1}}{S_{t-1}}approx log S_t-log S_{t-1},開始關注相對變化,這個序列才變得更「平穩」了。
  2. 反覆做差分變換 X_t=x_{t+k}-x_t,直到時間序列變得「平穩」為止,做的差分變換的次數即為 Order of integration 。一條時間序列整體隨時間變化的趨勢消除,因而可以關注一些在整體變化之外的那些漲落,序列也因此變得相對更「平穩」。關於差分變換直至「平穩」的一個好例子就是「抑制了房價」「抑制了房價的增長」「抑制了房價增長的勢頭」「抑制了房價過快增長的勢頭」——經過多次差分變換,直到最終「抑制……增長」,得到了一條平穩的時間序列。

關於強平穩和弱平穩的差別:

  • 強平穩是事實上的平穩(同分布);
  • 弱平穩是統計量在觀測意義上的平穩(均值、方差)。

第二個問題,均衡跟穩定沒有關係。

  • 國家規定了某個商品的價格,這情況完全不均衡,但是巨穩定。
  • 一般均衡達到穩定,跟時間序列的穩定性還是兩碼事,例如矩可能不存在;又例如我選擇的時間序列的時間間隔尺度遠小於市場發生響應達到穩定的均衡的時間尺度,得到的序列還是可能是不穩定的。

以前看過一個介紹時間序列平穩性的帖子(跟樓主的問題不符),回憶如下:
假設你看到兩個酒鬼(即兩個隨機遊走序列)四處流浪,醉鬼相互不認識(即他們是獨立的),所以他們的路徑之間沒有任何有意義的關係。但假設這兩個隨機遊走序列是醉鬼與他的狗,這時儘管每個單獨的路徑仍然是一個不可預知的隨機遊走過程,然而醉酒和狗兩者之間的距離是可預見性。例如,如果狗遠離於他的主人,狗會傾向於朝他的方向移動,所以這兩個隨機遊走序列有接近的趨勢)。醉鬼和他的狗組成了一對協整序列。

如果兩個非平穩的時間序列某些線性組合是平穩的,則可以說這兩個序列具有協整關係。然後,我們就可以探索序列之間的長期均衡關係了。


簡單講講我對於時間序列中平穩性的重要性的理解。
(注意,下面的符號中使用下標表示時間,上標表示空間)

首先,平穩性是什麼?無論是嚴平穩還是(弱)平穩,實際上刻畫的都是時間序列的統計性質關於時間平移的不變性。嚴平穩要求比較嚴格,需要所有的統計性質(也就是其有限維分布函數族)都是關於時間平移不變的,而弱平穩只需要一階矩與二階矩(以及協方差)是時間平移不變的。

那麼,為什麼我們需要時間序列的統計性質關於時間平移不變呢?因為我們研究時間序列很重要的一個應用(或者出發點),是希望通過時間序列的歷史數據來得到其未來的一些預測。換句話說,我們希望時間序列在歷史數據上的一些性質,在將來保持不變,這不就是時間平移的不變性么?反過來想,如果時間序列不是平穩的,由歷史數據得到的統計性質對未來毫無意義,那麼研究時間序列還有什麼意義呢?

其次,時間序列裡面還有一個(與平穩性關係密切)很重要的概念:遍歷性。遍歷性對於時間序列的意義類似於大數定理對於一般隨機變數的意義。
什麼是遍歷性呢?我們回顧一下對於一個時間序列{X_t,;t=1,2,cdots}的樣本均值是如何定義的:
mu = frac{1}{T}sum_{t=1}^T x_t------------------------------(1)
其中{x_t}為時間序列{X_t}的一條路徑,不妨設為某個股票的日收益率
類似的還有樣本自相關函數、樣本自相關係數等等。
實際應用中,我們使用樣本均值來代替均值muapprox E(X_t)進行相關的計算。
那麼,仔細想想,這裡有兩個問題:

  1. 為什麼要用樣本均值mu來計算均值E(X_t)
  2. 這樣算對嗎?

我們知道大數定理是說,對於隨機變數X,我們可以通過大量觀察得到一系列觀測值x^1,x^2,cdots,x^n,然後可以使用其均值來估計X的期望,即
E(X) approx frac{1}{n}(x^1+cdots+x^n)-------(2)
對比一下(1)與(2)的不同:(1)式是在時間上取均值,(2)式是在空間上取均值。大數定理保證了(2)式是有意義的,而(1)呢?要知道(1)中的x_1對應的是隨機變數X_1樣本,...,x_t對應的是隨機變數X_t的樣本。但是實際中我們沒得選,只能按照(1)來算,因為對於時間序列你不可能得到多條路徑。畢竟,你無法讓時間一次次倒退重來讓你採樣。
那麼,什麼時候使用(1)計算也是有意義的呢?這就是時間序列的遍歷性。我們可以證明,對於平穩序列,再加上一個條件gamma(h)	o0就可以得到(1)也是成立的。


時間序列的平穩性應該是學習時間序列和隨機過程中最重要的概念。平穩性的基本思想是:決定過程特性的統計規律不隨時間的變化而變化。我們一般習慣於把平穩的隨機過程分為嚴平穩和寬平穩。首先我們來講一下什麼是嚴平穩。如果我們對隨機過程中n 個隨機變數做一個時間上的平移,n個隨機變數的聯合分布函數和平移前的相同,那麼該過程是一個嚴平穩過程。聯合分布函數相同說明統計規律也是相同的。

在使用過程中,我們發現嚴平穩過程很難去驗證,而且條件嚴苛,所以我們定義了寬平穩過程。如果一個隨機過程的二階矩都存在,而且時刻t和時刻s的協方差函數只與t-s時間的間隔有關,那麼這樣一個隨機過程就是寬平穩過程。嚴平穩過程可以推出寬平穩過程,當隨機過程服從高斯分布時,寬平穩過程是可以推出嚴平穩過程的。

證明一個隨機過程是平穩過程需要三步:

  1. 均值函數為常數。

  2. 方差函數為常數且收斂。

  3. 協方差函數只與時間間隔有關,與位置無關。

以金融資產的價格為例:金融資產的價格一般服從有個隨機遊走過程(random walk),或者說它服從一個帶漂移項的布朗運動。
既然提到了隨機遊走,我們就來簡單介紹一下它概念和性質:

其實隨機遊走很簡單,你自己也可以模擬.怎樣模擬呢?你可以買幾瓶二鍋頭兌伏特加喝 ,然後再出去散步,我保證你的路線服從一個隨機遊走過程,除非你的酒量很好!!!

隨機遊走可以模擬很多生活中的現象,比如說股票價格走勢,液體中懸浮顆粒遊動等等。隨機遊走過程也具有著十分優美的數學性質

均值函數為0,方差隨時間線性增長,並且相鄰時點上取值的相關係數接近1,顯然隨機遊走過程 是不滿足弱平穩的。

金融資產的價格是隨機遊走的,這說明我們不能基於金融資產價格進行預測。為了獲得平穩的序列,即統計規律不發生大的變化的序列,我們通常差分求金融資產價格的對數收益率,收益率序列一般是通過平穩性檢驗的,統計特性的規律性較強(比如說尖峰肥尾、負偏、波動集聚(cluster volatility)).。


只知道第一個。

一開始引進平穩,是希望能假設時間序列兩個相鄰點之間的分布相同,由此則可說明序列的性質不隨時間改變。時間序列是隨機過程的特例,兩個相鄰點指的是前後兩個不一定獨立的隨機變數。

這兩個隨機變數的分布相同,最簡單的數學表示就是他們的任意階矩都相同,這就是強平穩。但顯然強平穩沒法驗證,就退而要求前兩階矩平穩,即前後兩個分布均值和方差是一樣的。可以感覺這已經是個若得多的條件了,因為均值方差一樣而分布不同的例子太多了…

那為什麼弱平穩還是應用廣泛呢?因為如果假設前後都是正態分布,那前兩階矩就能確定所有階矩,則弱平穩就相當於強平穩了。

也可以反過來說,因為正態分布的這個性質,所有前兩階矩相等被定義為了弱平穩。


這是一個很有趣的問題。曾經讀時間序列分析時,我曾思考過。所以就來回答你的問題。

依次回答你的問題。


1. 通常時間序列模型要求的是協方差平穩,或者弱平穩,而對強平穩介紹很少,能否從數學角度分析比較兩者最大的不同在何處,具體影響哪些性質;

從數學角度,應該沒什麼好說的。看它數學定義與性質就是。

2. 從經濟學含義或者常用的金融學領域看,如何看待經濟學中的均衡與時間序列中的平穩性之間的關係和區別。

經濟學中的動態市場均衡與時間序列中的平穩性是相同,不同語言說同一個事物而已。

比如隨時間變化的價格供需平衡(市場均衡)與時間序列中的平穩性就是一樣的。

再比如資產定價理論與微觀經濟學的完全競爭市場難道不是同類事物??

如果你有學點微觀經濟再來看資產定價理論與期權定價之類的理論模型,就會有似曾相識的感覺。仔細思考就是同一個事。時間序列是描述資產的價格隨著時間變化過程,假如資產價格有一定程度上遵守資產定價理論,自然其背後的意思就是價格的時間序列要附合資產定價理論的假設,實際上資產定價理論的假設與時間序列假設相似,前面是理論,後面是金融的計量實證。


經濟學中有市場均衡,金融學中有有效市場,時間序列中有平穩性。此三者就是對同一現象的不同描述。

像什麼均值回歸,統計套利,套利定價和時間序列中的平衡性都與經濟學中的市場均衡有關。


實際再細細思考就更有趣,經濟活動中,是要有人來參與的。可以說無人無經濟現像。

人大多時候心情舒暢,平靜,與人合平共處,此時這個人的狀態就像經濟學中的均衡,時間序列的平穩性,這表現在股票價格上就是股票處於盤整狀態。
人有時會失去理智,情緒失控,其行為就是異常行為,此種狀態下的人就是經濟學中的不均衡,時間序列的非平穩性,這表現在股票價格上就是股票處於瘋狂上漲與下跌中。如果情緒極度失控,價格時間序列就會呈現,高波動性與脫離時間序列平衡性的現象。


平穩性可以說是時間序列的內部邏輯性,也就是說每一期的序列值與前幾期之間存在一種一致的結構性變化關係,只有這樣我們才能建立模型去分析並預測。其根本原因在於統計學或者計量經濟學是從數量規律的角度研究事情,如果事物本身的變化毫無規律,這時候還要用統計或計量去分析,那就毫無意義了


平穩性(stationary)是一種種對模型的簡化
看了諸多答案我覺得很少有提到最關鍵的一點在於:對於統計數據,我們需要一定數量(n)的樣本數據來對總體進行統計推斷,但是在時間序列中,每個時間節點的觀測數據只有一個,這種數據的結構是無法進行統計推斷的。只有引入平穩性的簡化假設,並將數據轉化成平穩時間序列,才能用全部時間序列數據去估算總體的參數。


數據是隨機的,但是背後的規律不是隨機的。我的理解:所謂平穩就是隨時間變化的隨機數據背後(不隨時間變化)的規律。


平穩的時間序列你可以理解:價格圍繞價值上下波動的時間變動!


個人感覺,平穩性假設是為了滿足在大樣本分析中,OLS估計量仍然能有良好的性質。平穩性比較常規的解釋是:隨機變數的統計特性(主要是一階,二階)不隨時間改變。進而我們可以用每個時間的樣本點去估計總體均值。


簡單說,強平穩的隨機過程是可以建模的,但模型不確定,強平穩代表系統在有限的時間內多次遍歷了所有可能的平衡態,所有ergodic的過程都是強平衡,你需要的只是花足夠長的時間去觀察


弱平穩是和模型相關的,模型預測的均值與實現值之間的方差穩定說明模型抓住了過程的大部分規律

現實物理世界中,穩定過程是特例,但經過模型之後的residue出現弱穩定還是比較可能的


A stationary process has a mean and variance that do not change over time and process does not have trends.

題主想了解金融方面的時間序列分析,就去學習下GARCH族的各個model。


如果平穩性和遍歷性不滿足的話,我們很難從sample的realiazation來推斷出DGP的性質


各位大神講的都挺好的,但是我還是有一點不明白,(本人剛入門),時間序列的平穩性和模型的平穩到底有什麼區別?為什麼作單位根檢驗不考慮根大於1的情況呢???


前文平穩性的解釋都很不錯,但非平穩時間序列之間的長期均衡關係——協整性,是提供了從非平穩時序設計平穩時序的一種途徑;典型地說,統計就是設計平穩過程的工作,以便研究它們的特性,誰說不是呢?


首先,不知道真的有人去證明strong stationarity或者利用 strong staionarity。。。。
weak stationairty 是可以用公式來算的。。。算的時候一定要記得算residual的 autocovariance。。

經濟學的東西不懂。。。回答不了。。

一階矩和二階矩存在時,強平穩過程是弱平穩過程。(條件可簡化為二階矩存在) 不可以這麼簡化 ...second moment 不能說明first moment 存在。。。比如 1/(x^2)在[0,1] 不存在first moment 但是second moment 存在。。。
first moment exist AND second moment exist。。。。

千萬別學了ARMA,ARIMA,甚至 non-linear的ARCH,GARCH 就去用這個研究stock 走向。。這是很多年前的東西了。。。


一個time series/stochastic process可以看成是從[0,inf)乘以sigma field到R^n的映襯,such that這個映襯是both borel-measurable and sigma -measurable [當然,這個是cont time的,離散的話,[0,inf)換成N就可以了]。簡單的說,一個time series/stochastic process是一個sequence of random variables。當然,random variable by defn是measurable的。

stationarity的含義是,你的這個variable (or some finite subsequence of variable) 是某個data generating mechanism (DGM) (that does not change over time) generate 出來的;也就是說,離開stationarity,你完全沒法分析這個time series是哪個random variable generate出來的,i.e.,你完全沒法分析這個time series/stoc. process. 這也是為什麼做統計的要transform,做計量的要搞cointegration。

如果非要分strong or weak stationarity,以上的stationarity說的是strong stationarity。其實stationarity by defition就應該是strong stationarity。weak stationarity是strong stationarity的first/second order的evidence。所以其實stationarity by defn就是strong stationarity。


先驗均衡何需強平穩;後驗離群何談弱平穩。道可道,非常道!


推薦閱讀:

計量經濟學、時間序列分析和機器學習三者有什麼區別與聯繫?

TAG:金融學 | 統計學 | 時間序列分析 |