如何利用一批去年的數據,來預測未來三年的數據?
1、這批去年的數據是按月份的,本身肯定會有波動,但相對穩定。
2、預測未來三年的數據是需要具體到月份。 3、請問有什麼統計方法可以做到么?
好吧,這個問題真的是看得我都想用咆哮體寫了,作為統計系的學生,針對你的要求我只能做到用樣本的均值來估計之後三年的數據。
以下長文,對數學恨之入骨的人慎入。說真的,我可能是大言不慚了,但是我要說,你們真的不懂統計。
做一個模型大致思路是這樣的:1、分析數據特徵2、由數據特徵來尋找較為符合的數據模型3、以合適的方法估計出模型的參數值4、檢驗估計出來的模型的優劣以及對未來值進行估計。期間的每一步都要經過嚴格的思考,不要隨意跳步。你的樣本量真的是太小了。不同意@孫文亮 的答案 只是給出一個模型有什麼意義,你的目的是要最好的估計出來以後的數據,模型並不重要,重要的是估計值準不準確。部分同意@趙昕 的答案,但僅推測一個月一樣是不合適的。
問題是出在第2步。
本身的數據太少,特徵沒有什麼代表性。我們在做模型的時候,往往都對數據量的多少有欠考慮。其實數據量的需求是根據你所要估計模型的參數個數來確定的。對於均值,哪個不是用樣本期望來估計的,但為什麼可以這樣,為什麼不是拿中位數,這樣的估計效果如何,偏差大不大,又考慮過么。基本上要對一個參數進行合適的估計,我們至少要有10個數據。對於多個參數的情況下,每個參數不能低於對應5個數據,如果要低於這個數據量,那麼這個模型完全是沒有意義的。對以前的數據擬合的好,說明不了什麼問題。現在許多人太計較R方了,R方從來不是挑選一個模型的標準,只能作為剔除一個模型的參考!你想要模型擬合的好,不如去做CRD好了,12個數據,12個參數,每個都是準的,但沒有任何的意義。為什麼在時間序列分析裡面,人們都傾向於用簡單的模型,而不是複雜的,不是因為麻煩,是因為預測的不準。再說t檢驗,我們在模型里做t檢驗其實都是對參數的均值進行檢驗並在最後以參數的均值作為對參數的估計(許多人都有這個誤區,以為一開始檢驗的就是參數),我們的原假設是參數的均值是0,並認為它服從正態分布。為什麼能認為服從正太分布?因為中心極限定理告訴我們,當樣本量足夠大時,不論什麼分布的均值都服從正太分布。12個數據的樣本?可惡啊,我這個學統計的辦不到。
另外參數越多,你估計的每個參數的精度就越差。為什麼這麼說,其實每次在估計參數時,咱們都是在做解多元方程的遊戲,參數個數就是這些多元方程的變數,你的每一個數據其實就是在列一個與這些參數有關的式子。不論是OLS還是MLE還是Conditional MLE都是如此,你的數據越多,對這些參數的構造就越多,你的參數也就估計的越準確。本身由小量數據來估計的參數不準確,就算你用的是個無偏有效的估計方法,又有什麼意義呢?(一直有人問自由度是什麼,為什麼說參數的個數就是自由度,或者是樣本個數-自由度,聯想到多元方程,是不是有點「自由」與「限制」的感覺了?)
對於使用什麼模型,其實都是要估計參數的,馬爾可夫不是一樣要估計轉移矩陣么。其實估測方法的思想很簡單,要不就是把可能的偏差最小化,要不就是把已發生的現象的可能性最大化,在這些都做不到的情況下,以最小損失去使上述變為可能。但是在你數據不足的情況下,這些都沒有任何意義,做出來的東西也是偏的。
由於樣本量過小,對於多參數來講本身估計的參數值就不正確了,這就是為什麼我不同意趙昕所說的估測之後的1個月還好。在這個角度上來講,一樣的,也不可以。
好吧,那麼我們只能用簡單一元線性回歸了,參數勉強達到標準。(每個參數對應6個數據,參數分別是μ和β。)
那麼在前三步來講還是沒有問題的,但是等到了第4步,情況就又出現了。
學過統計學的人應該知道置信區間這麼一個概念吧,但是知不知道預測區間?預測區間是指當你估計未來值時,這個區間以一定的概率包含你對未來值的正確估計。我們一般把一定的概率取為0.95.
實在是不想列公式,不過預測區間有這麼一個性質,當你估測的x是所有x的均值時,它的區間最窄,可信度最高。當你越偏離x的均值時,你的區間越寬(因為有(xi-mean(x))^2項)。你只有12個月的數據,把x取為1,2,...,12,那麼均值就是6.5。在這種情況下預測之後的一個月是可以的,但是想要較為準確地預測3年的數據?可惡啊,我這個學統計的還是辦不到。
於是乎我只能說用均值來作為估計了,因為Null model只有1個參數(μ)可以較為準確的估計,也沒有一元線性回歸那麼惡劣的估計性質。
可惡啊,這模型太簡單了,老闆看了肯定覺得自己都能做,得把我罵一通。
算了算了,還是隨便挑一個吧,還顯得專業點兒,反正老闆也不懂。。。簡單的傳統的預測方法有:
- 時間序列預測法。包括:簡單序時平均數法、加權序時平均數法、移動平均法、加權移動平均法、趨勢預測法、指數平滑法、季節性趨勢預測法、市場壽命周期預測法等。
- 統計回歸。包括:一元線性回歸、多元線性回歸、正交多項回歸、差值回歸等。
上面的方法大都能由EXCEL的統計分析工具庫完成,具體到月份問題都不大。如果規律清晰,自變數固定,用統計回歸預測到天也是可以的,並且統計回歸可以對結果可靠性驗證,比如R方檢驗、t檢驗。
比較先進複雜一些的有:灰色預測、神經網路預測、模糊預測、馬爾科夫預測等。
還有專門的模型預測,例如自然增長模型去預測人口增長。另外,有不少經濟預測模型和傳染病模型都是經過時間檢驗的,如果預測內容合適,直接套用的話是快捷又準確,缺點是不夠細。 用哪種方法,主要取決於數據特性、預測需求。很多時候都是試出來的,或者根據經驗。除了上面兩個老兄說的之外,我補充一下: 贊同2樓第一條意見,你的數據太少了,如果僅推測下一個月的數據,還好一點,要是推測3年的話,這個數據結果可信度太低了,除非你只是為某個報告的「特定結果」服務。給你3條建議: 1. 儘可能的搜集以往的直接數據,即使是有缺失月份的,因為即使以前某年缺少某幾個月的數據,在一個大的數據環境中可以進行合理推測,相關性分析。 2. 積極尋找二手資料如報刊、雜誌、專業平面及影像數據,尋找行業內相關時間點的【相關】數據,即使是大數據也可以,一方面可以補充缺少的數據量,第二方面尋找出當年某月的運行態勢和全年情況,第三方面對直接數據的補充,從上、下遊行業的數據,這是間接數據,可以推測出本行業的數據當時的數據。 3. 相關統計年鑒,這個是很用的,特別是追述或判斷某個數據上,列出行業內數據的相關因素,比如適用人口、適用工業,在相關年鑒上是可以查到相應的消費量、投資量數據,根據這個是可以推測那個時間點的大概情況,當然可能有一定的誤差,因此建議要多個年鑒交叉使用。最後需要注意一個隱性數據的問題,即潛在消耗數據量和折舊量,這個也可以根據年鑒推斷出來的。 因為不知道你的數據要求是涉及普通消費者,還是工業消費者,以及無更多的信息,因此無法給出更具體的建議了,不過以上3點是可以用得上的。
沒關係我給你介紹一個數據處理工具,BDP個人版 有新出的數據預測功能,可以根據已有的數據進行數據分析得出數據預測的結果,下面上乾貨~
數據預測有什麼價值?
BDP首次開放簡單易用的時間序列預測功能,內部採用ARIMA演算法和系統智能調參,根據歷史數據提供未來的趨勢預期,幫助大家對還未到來的情況進行預判和準備。
如何進行數據預測?
① 數據預測,一鍵操作
將欄位【發貨日期-按月】、【利潤】拖拽至維度和數值欄,點開數值欄【利潤】,選擇【預測】便可看到設置預測屬性的彈窗。
Ps:目前BDP數據預測功能只支持維度為日期的欄位;考慮到預測置信區間的展示效果,目前只支持折線圖。
② 自定義設置,快速預測未來趨勢
在設置界面,自定義設置預測範圍、真實數據範圍(系統默認自動)、和置信區間(一般選擇90%以上,可能性越高,預測的數據真實性更大)。
點擊「確定」,即可一鍵生成數據預測分析圖,如下圖~
根據已有的數據預測億萬數據趨勢的走向,有木有很心動,那就快去試試,BDP預測演算法也會不斷優化的,未來將為大家提供越來越準確的預測結果,快去嘗試BDP個人版 吧!
這麼說吧,無論你想得出三年怎麼樣的預測,都可以從那一年的數據裡面搞個合適的模型來證明你的觀點。
我以前老多客戶擁有無數的資料,歷史股價,,要預測今後股價,好像也沒見他們有多准。不過有好多種學說,比如一個人研究埃及尼羅河水流規律,拿來炒股票,還得了個什麼經濟學獎。
有幾個問題,或許可以引發思考。
一、你的業務是否有周期性、季節性或者特定性。 譬如說春運 相對12個月 的數據差異太大;而你的數據樣本是1年,也就是任意12個月都沒有歷年同比數據(理論上3年數據才有一定意義);二、你的業務未來三年是個什麼形態? 如果是多年的傳統行業則關係不大;象新興的產業,以SNS為例,開心網的數據,要是以2009年或2010年的數據去推斷未來三年。呵呵,不再說了,大家都懂的;
三、你的業務本身與客戶關係度,客戶是留存積累型(會員體系)或無存留而靠門店客流導致的銷售,完全是不同的預測模型。 以上三點,自己對比清楚。 大體上很難通過一年的數據 來預測未來三年的, 即使預測了,偏差性也會很大, 只能是給其他人一個前瞻性的參考。建議使用慕達預測平台,給出什麼樣的數據,就能輸出什麼樣的預測結果。不過,價格上恐怕你未必能承受的了。 就預測準確度來說,燃氣的用氣量預測一次性預測年誤差率在1-1.5%,日、周、月、季度預測誤差率在2-3%左右,並且可根據最新的數據自行學習數據規律,降低誤差。
我統計很差,恐怕回答不能讓你滿意,抱歉。
嘗試回答一下,這個問題解決起來可能需要分為如下步驟: 1.根據去年的數據,找到數據本身的每月波動規律(由於可供參考的數據只有12個月,所以很可能由此找到的波動規律相當靠不住)。2.將統計規律應用於未來3年。
具體統計方法恕我無能為力,見諒。推薦閱讀:
※如何評價舒伯樂耳機的做工和質量?
※回歸係數檢驗的問題?
※長尾數據如何進行回歸分析?
※什麼是歸一化,適用場景是什麼?請舉個例子說明歸一化帶來的好處是什麼?