時間序列預測方法的能力邊界在哪裡？

01-23

1、若歷史樣本小於20，神經網路，機器學習之類的時間序列預測方法相對於指數平滑，回歸，幾乎沒有明顯優勢，對么？因為可供訓練的樣本太少？
2、如果我們不關心明年的銷售額。我們更加關註銷售額增長何時見頂，或銷售額下滑何時觸底。時間序列分析是否能給出高準確率的回答？
3、時間卻序列預測的能力邊界或使用領域的邊界在哪裡？例如：股票指數公認是隨機遊走。時間序列預測股票指數中長期數值，是無能為力的，對么？但如果預測山東省年煤炭消費量，則時間序列分析可以發揮作用。以上看法正確嗎？
4、時間序列預測如何講一些外部干預合理的加入到預測過程中呢？例如未來煤炭消費量不再是gdp增長率周期性變化影響的結果。還有環保從嚴政策影響的結果。如何講這個因素量化，並加入時間序列預測過程呢？

謝邀。很有意思的問題。

暫時太忙不能很詳細的寫答案，先mark一下，之後會慢慢更新。

如果歷史樣本過少，但是模型複雜，是否會產生「過擬合（overfitting）」？計量一般不太擔心過擬合，因為我們只是想解釋歷史，不關心未來，所以過擬合反而更好解釋。另外用ARIMA這種模型還要去掉一個序列的初始階段（比如一個股票開始幾天的股價），因為初始階段是不穩定的。

關於銷售額，我覺得單純的時間序列應該不行，雖然 quantitative marketing 應該也有人在用時間序列或者神經網路在做預測，參考「Handbook of Marketing Decision Models」。也有基於微觀的demand models。

計量里的時間序列模型多是基於「平穩性（stationarity）」的，也就是某個時間序列的概率分布不隨時間變化，這樣才能預測未來的序列。但是一旦數據生成過程有變化，比如國家政策變了，用以前的數據得到的模型就沒用了。股票具有馬爾可夫性，也就是在已知條件下，過去和未來是獨立的，也就是不平穩的。非平穩序列可以用「協整（cointegration）」，但是協整的本質也是平穩性，變成了幾個時間序列的線性組合是平穩的。股票似乎是可以用協整方法的？山東省年煤炭消費量應該用去掉季節性或者趨勢用ARIMA這種應該可以？

不太清楚。時間序列分析都是從歷史數據出發，如果歷史上多次發生也許可以考慮用個啞變數表示？如果只是發生一次，應該是可以檢驗的「tests for structural breaks」：Structural break

基本的時間序列模型大概就是去除趨勢（總體趨勢和/或季節性趨勢）後分析雜訊之間的相關性。那麼問題來了，你怎麼知道你手頭的數據所呈現的趨勢是否是大趨勢下的一個小局部？或者未來會出現一些目前為止都沒出現過的因素？或者雜訊之間完全沒相關性怎麼辦？還有最大的一個邊界問題也許是：做預測的時候，一般頂多預測未來一兩個時間點，越往後預測值越趨向於總體期望，沒什麼卵用。

大家都回答了很多，也挺好，筆者從理論角度簡單講一下。

「時間序列預測」適用於哪些場景？如果細細說來，那太多了，先來分分類吧。

加分項：

a，有較長歷史數據的。

b，數據中具有顯著或暗藏的周期性。

c，單個樣本的數據量佔總數據量的比例越小越好。

d，與時間關聯較大的數據。

e，沒有突發因素對數據造成大幅度影響。

那麼我們來看幾個典型例子。

1，銷售預測。

ToC公司做「時間序列預測銷量」更好，ToB公司由於業務模式原因，單個客戶的訂單對整體銷量的影響較大，不滿足上面c、e兩點。不過ToB公司可以通過預測，發現客戶在時間周期上的需求變化，比如一年中成單的旺季（有經驗的銷售都知道）。ToC公司由於終端消費者多，市場廣度大，不太受突發因素影響，預測出來的數據會更准，但是歷史數據量至少要好幾年的，將歷史數據與某些公開數據放到一起做分析（比如經濟增長量，CPI指數，公司渠道規模等等），得到時間數據間的關聯邏輯。

銷售頂部，銷售底部，這種預測需要找到「頂部」與「底部」的依賴數據，比如「頂部」以市場佔有率和渠道密度而定，「底部」除了之前兩個因素再加上投訴數。當然，實際中的模型肯定會更複雜。

2，預測股票

股票不滿足d、e兩個條件。如果想準確預測就很難，但是因為股市中確實有小的周期，以及特殊的時間點，比如特殊時間的開盤。以及其他指標與股市的關聯性，比如黃金，債券，美元對不同股票的影響，這些都可以作為預測條件放入預測模型。如果是純粹的股票按照時間順序的走勢，就不太可能預測準確了。

3，煤炭用量

如果沒有環保政策收緊，煤炭供給管控的話，煤炭用量是滿足時間序列分析的基本條件的，但是環保政策屬於上面的 e 因素，就會在數據線上產生斷崖下跌，在沒有獲得政策信息前，這個斷崖是肯定無法預測的。這也是預測最難的地方。

所以說，時間序列的預測想要做的準確，推薦短期預測，放入更多額外的相關數據，加入應對可能出現突發情況的應變（比如政策變化，預測結果就跟著變化）等，這樣才能盡量擴寬時間序列預測的應用範圍。

最後，未知是美妙的，如果人人都可以預測的這麼准，生活還有什麼意義。

喜歡請關注，筆者最近將開關於人工智慧的live

話說為啥我研究的時間序列分析都他媽是nphard問題，kleene closure檢測這類的。

哪來什麼神經網路，機器學習(?_?)

1、若歷史樣本小於20，神經網路，機器學習之類的時間序列預測方法相對於指數平滑，回歸，幾乎沒有明顯優勢，對么？因為可供訓練的樣本太少？

樣本小於40你連最簡單的線性回歸都做不了，直接讓老師傅估一下得了。一般你用的模型會通過假設檢驗報告你一個置信度，置信度太低說明統計上沒意義。樣本太少很難有高置信度。就算置信度高，樣本少也是有爭議的。

2、如果我們不關心明年的銷售額。我們更加關註銷售額增長何時見頂，或銷售額下滑何時觸底。時間序列分析是否能給出高準確率的回答？

見頂和觸底的發生受什麼因素影響？這些因素的信息在歷年的銷售額中么？統計不是鍊金術，只能提取信息，而不能創造信息。

3、時間卻序列預測的能力邊界或使用領域的邊界在哪裡？例如：股票指數公認是隨機遊走。時間序列預測股票指數中長期數值，是無能為力的，對么？但如果預測山東省年煤炭消費量，則時間序列分析可以發揮作用。以上看法正確嗎？

做事情不能教條。股票預測的困難性在於股票價格行為的混沌性，預測會影響行為，行為會影響價格，所以預測需要根據行為修正，這會導致預測無比複雜，事實上沒法做。但是煤炭消費的量幾乎不受預測影響。你要是預測的東西沒有混沌性，那用線性模型短時間肯定問題不大，長時間也許問題不大。

4、時間序列預測如何講一些外部干預合理的加入到預測過程中呢？例如未來煤炭消費量不再是gdp增長率周期性變化影響的結果。還有環保從嚴政策影響的結果。如何講這個因素量化，並加入時間序列預測過程呢？

你可以從還原論的角度出發：煤炭為什麼和GDP增長相關？環保政策怎樣影響這樣的相關關係？你也可以從整體論出發：歷史上的產業政策或外部環境因素是怎樣影響煤炭消費量的？和這次的環保政策最像的是什麼？

當然「合理」主要靠老師傅把握。

我覺得對3000w的研究很適合你去參考。

謝邀最近忙佔個坑先

各種預測技術，其實都是算命，技術可能比天橋上練攤的算命先生高明點，用了一些「數學」技術，但是準確度未必比算命先生高多少。

一門算命技術，哪來的什麼邊界，信了就用，不信也很容易找到足夠的理由去否定的。

股票嗎？價值投資很靠譜啊，可以算是線性回歸方法。

商品期貨嗎？期現回歸很靠譜啊，也是線性回歸方法。

還有周期性分析，比如天氣預報、太陽黑子活動等。

1，直接用層次貝葉斯模型解決。2，可以。3，正確。4，人工添加虛擬變數。

分布是個麻煩的事。

我來問你，臉是什麼分布，臉的每個像素是個什麼分布，臉的像素聯合起來是個什麼分布。

時間序列分析的基礎理論就是從某個分布出發，但是分布真的能刻畫時間序列么。

還有，時間序列的斷面怎麼斷，時間等距斷是不是合理?

瀉藥，

我猜應該是數據結構的穩定性吧，或者使用者對於數據理解能力是模型預測能力的邊界吧。

往往界面數據分析或者事後分析可能最多是考慮的不周全，分析的有偏或者其他問題。但是時間序列包括結合界面數據的預測，都需要一個假設是未來數據關係和之前樣本內模型相對一致，但是萬一變了呢？

深入分析因果邏輯，得到的數據是生成式的，那麼一般結果可靠性高一些，數據見發現的規律穩定一點。單純基於數據統計性的相關關係，在數據結構不變的情況下你就把她當因果，或者拋去因果不討論就是應用也沒關係。但是，但是變了就變了。

可能不是模型問題，而是使用者對於數據理解能力是模型預測能力的邊界吧。

機器學習的第一個條件是輸入數據和目標之間存在關係，並且輸入數據包含充分的信息，如果不滿足，只有去尋找新的數據或調整目標。

做了兩年時間序列，沒看到邊界。

哪怕只有一期歷史數據，

我也可以依靠它，來預測下一期。

當然，

特定模型的應用是有邊界的，

前不久我就準備，畫一條，

單位根模型跟變結構平穩模型間的邊界。

有用是有用，

但是，

準確率，

不存在的。

我們不能高準確率地預測時間序列，

we invent.