同樣是數據分析方法,為什麼時間序列分析沒有數據挖掘或機器學習那麼火?

這個問題有兩個方面:

1. "是不是": 目前時間序列分析真的沒有數據挖掘、機器學習等熱門嗎?

2. 「為什麼」: 如果上述問題結論的原因。

我的理解是因為時間序列數據是數據的一個子集,也就是說研究對象的範圍更加狹窄。


張全說得有道理。

底下有個回答說時間序列只能把時間當成自變數,是完全錯誤的。時間序列也可以有其他自變數,這些自變數也隨時間變化而已。而且時間序列絕不是僅僅研究平穩時間序列,只不過非平穩的做起來比較麻煩。

時間序列和機器學習其實是有相通之處的。時間序列的模型,如果用圖模型畫出來,實際上就是一個Hidden Markov Model。對於此模型,不管時間序列也好,機器學習領域也好,都是用同樣的Forward Filtering Backward Sampling演算法(機器學習里好像有另一個名字)來做inference。這個演算法並不是調一個包那麼簡單,做得好的話分析一個數據集就能發一篇paper了。(例如 http://faculty.chicagobooth.edu/finance/papers/Predictive%20Systems.pdf)。因為要求高,這種分析肯定不至於很火。

我對時間序列還比較有興趣,大家有興趣也可以多多交流。


一個小角度:時間序列用嚴謹的假設和建模驗證了我們首先用肉眼觀察出來的結果(比如昨天和今天相不相關,GDP和你的身高相不相關)。

數據挖掘處理大規模的數據,訓練計算機自動觀察結果 or 發掘肉眼觀察不出來的結果。。


應用面太窄了


基於時間序列的數據分析現在也應用的挺多啊,比如說手寫(手勢)識別、姿態識別,語音識別。基本模型是隱馬爾科夫(HMM)。火與不火應該是相對的吧,或許下一代人機交互系統就會催生對圖想處理,時間序列分析人才的需求量。

#2015-04-02補充

鑒於deep learning + reinforcement learning的模式最近比較流行,那麼此時的序列數據分析-&>decision making又有了一個新的探索方向。至於Application可以異想天開一下:人機交互,推薦系統,driverless,etc.


你可以用數據挖掘或者機器學習去做時間序列分析。


問問題前還是先提高自身姿勢水平比較好。

Time Series Analysis本質是在研究平穩隨機過程及其工具。實際生活中哪兒那麼多平穩隨機過程,哪兒那麼容易轉化成平穩時間序列。

用機器學習和統計方法做非平穩時間序列模型的不少了,只是用著不同的名字你不知道而已;你別特殊化時間本身,它只是一個index set T。另外,搞計量的根本在當今年代時間序列分析根本就沒用。不管時間序列還是其它機器學習、統計學習問題,核心問題都依賴於特徵構造。

所以再回答問題:根本原因是TS analysis的方法太傳統,完全脫節


我覺著吧,這是因為時間序列對數學和統計學基礎要求較強,一般需要專門做計量的人來搞,機器學習就簡單多了,不管是搞計算機的,搞工程的,只要知道怎麼讀入數據,再加上怎麼用現成的函數來做回歸,就敢說自己會機器學習,不火才怪呢。

做個類比吧:知乎統計專題中,回答最多的還是那些泛泛的提問,比如我回答目前這個提問,真正涉及研究生水平統計學的提問題,一來很少,二來這些提問幾乎沒人回答。於是,不懂統計學的人不小心點近了統計專題,於是得出結論:「原來統計學研究的就是這些內容啊,那我應該也挺適合搞統計的,嗯!」


這學期學了點時間序列,談下感受。

限制它發展的最主要原因,是它的模型只把時間當做變數。凡是有點理智的人都知道,這世界複雜就複雜在,對同一件事物,影響的變數太多!就算是某個趨勢從數值上看的確是隨時間變化的,這也是因為真正影響模型的其他隱變數的合力變化暗合了時間的節奏,而不是時間本身!時間序列模型無視世界的本質,簡單地把所有影響因素都抽象成時間,在小範圍內和特定情況下是可以起到估算的作用。一旦推而廣之,自然就不行了。

先天不足,後天彌補就太難了。


時間序列分析是個方法,數據挖掘和機器學習是個領域,前者經常混入後者的應用當中。

就像牛頓力學進入到量子力學一樣,個人覺得除非時間序列分析能擴展一下研究的廣度,比如縱軸不再是具體的數值,而是邏輯關係或某種抽象的東西等等,否則靠ARMA、GARCH、協整這些東西,就像樓上說的,應用面太窄了。


這兩個學科本來就有交叉的地方,機器學習裡面的貝葉斯分析、卡爾曼濾波以及線性回歸模型等等在時間序列分析中都有介紹。可以說時間序列的很多分析方法已經廣泛應用在機器學習領域了,只不過機器學習的浪潮來了,世面上出了很多入門的書籍,隱去了演算法後面的數學證明,方便會寫hello world的程序員擼代碼跑例子而已。而時間序列分析的教材更多是計量統計學科裡面的以理論為主的書籍,就算很接地氣的那本應用R時間序列分析案例的書的門檻也比市面上普遍機器學習需要的背景知識多得多。


實名反對大部分答案,感覺大家對時間序列的平均認知可能在統計系本科生水平以下吧。。。其他的無力吐槽了,單說"時間序列模型大部分建立在平穩條件下所以應用不廣泛",額,各位知道協整么?時間序列模型的確大部分建立在平穩條件下,但是不是說必須原始數據平穩的好伐。。如果變數之間有一種平穩的關係,或者你粗暴做個差分之類的手段達到數據平穩,也是可以做出分析的。

---------------退一萬步,不談前提假設的統計分析都是耍流氓,時間序列要平穩變數就是耍流氓,那最基本降維度的pca演算法也是有條件的你知道么,你們隨手擼的這些例子滿不滿足球形檢驗啊喂!所有統計方法都是有應用前提條件的,你說時間序列前提太苛刻,沒XXX方法好,可能你根本不知道XXX方法的適用條件


因為在時間序列的領域裡很多model是在stationary的條件下建立的,但是現實中比如股市基本不是stationary的,受很多突發事件影響,然而並沒有人能準確預測這些時間的發生,


如果時間序列能火,機器學習領域很可能就會研究它,就像其他的統計模型一樣。

概率圖模型也很複雜,深度學習也很複雜,應用上有前景就會有更多的人參與


推薦閱讀:

如何深入理解時間序列分析中的平穩性?
計量經濟學、時間序列分析和機器學習三者有什麼區別與聯繫?

TAG:數據挖掘 | 數據分析 | 機器學習 | 時間序列分析 | 大數據 |