excel分析工具庫
描述統計-常用指標主要有平均數、方差、中位數、眾數、標準差、方差等,提供分析對象數據的集中程度和離散程度。
表現數據集中趨勢-平均值 中位數 眾數
描述數據離散程度-方差 標準差
呈現數據分布形狀-峰度係數 偏度係數
抽樣分析-隨機抽取,樣本估計,適用於數據量大的數據
相關分析
相關關係是指現象之前存在的非嚴格的、不確定的依存關係。這種依存關係的特點是;某一現象在數量上發生的變化會影響另一現象數量上的變化,而且這種變化是隨機的。
相關關係是研究兩個或兩個以上隨機變數之前相互依存關係的方向和密切程度的方法,直線相關用相關係數表示,相關用相關指數表示,多重相關用復相相關係數表示
相關係數反映變數之間線性相關強度的一個度量指標,用r表示,取值範圍是【-1,1】
參數設置
相關分析-回歸函數關係-依存關係可用一個數學表達式表示出來
回歸分析
通過數據變數間的相關性,進一步構建回歸函數關係,即回歸模型,預測數據未來的發展趨勢,主要是通過建立因變數Y和影響它的自變數X之間的回歸模型,來預測因變數Y的發展趨勢
相關分析&回歸分析
聯繫:均為研究及測量兩個或兩個以上變數之前關係的方法。在實際工作中,一般先進行相關分析,計算相關係數,然後擬合回歸模型,進行顯著性檢驗,最後用回歸模型推算或預測。
區別:*相關分析研究的都是隨機變數,並且不分自變數與因變數,回歸分析研究的變數有自變數與因變數之分,並且自變數是確定的普通變數,因變數是隨機變數。
*相關分析主要描述兩個變數之間線性關係的密切程度,回歸分析不僅可以揭示變數X對變數Y的影響大小,還可以由回歸模型進行預測。
線性回歸五步驟:
1.簡單線性回歸
一元線性回歸,回歸模型為Y=a+bX+?(隨機誤差),回歸分析用於預測
2.繪製散點圖
散點圖一種比較直觀地描述變數之間相互關係的圖形,一般在做線性回歸之前,需要先用散點圖查看數據之間是否具有線性分布特徵,只有當數據具有線性分布特徵時,才能採用線性回歸分析方法
添加趨勢線,顯示公式和R平方值,得到擬合曲線模型
需要進一步使用多個統計指標來檢驗模型,如回歸模型的擬合優度檢驗、回歸模型的顯著性檢驗(F檢驗)、回歸係數的顯著性檢驗(t檢驗)等來綜合評估回歸模型的優劣,excel工具庫「回歸」可以實現
參數設置如圖,殘差:指的是觀測值與預測值(擬合值)之間的差,也稱剩餘值;標準殘差:指的是(殘差-殘差的均值)/殘差的標準差,殘差圖:以回歸模型的自變數為橫坐標,以殘差為縱坐標繪製的散點圖,若繪製的點都在以0位橫軸的直線上下隨機散布,則表示擬合結果合理,否則需要重新建模;線性擬合圖:以回歸模型的自變數為橫坐標,以因變數及預測值為縱坐標繪製的散點圖;正態概率圖:以因變數的百分位排名為橫坐標,以因變數作為縱坐標繪製的散點圖。
3.回歸統計表
4.方差分析表
F統計量,用于衡量變數間線性關係是否顯著
P值>0.05,則結果不具有顯著的統計學意義,0.01<P值<=0.05,則結果具有顯著的統計學意義,P值<0.01,則結果具有極其顯著的統計學意義
5.回歸係數表
6.多重線性回歸
多重線性回歸模型指的是包含一個因變數(Y)和多個自變數(X)的回歸模型,多元線性回歸是指包含兩個或兩個以上因變數的回歸模型
時間序列預測
主要包括移動平均法、指數平滑法、趨勢外推法、季節變動法
移動平均
移動平均法是一種改良的算術平均法,它是根據時間序列逐期推移,依次計算包含一定期數的平均值,形成平均值時間序列,以反映事物發展趨勢的一種預測方法
指數平滑
指數平滑法是一種改良的加權平均法,在不捨棄歷史數據的前提下,對離預測值較近的歷史數據給予較大的權數,權數由近到遠按指數規律遞減
推薦閱讀:
※醫院銷售數據分析(數據分析第4關)
※大數據有哪些工作崗位,日常工作內容是什麼,需要掌握哪些工具和技能
※【手撕版】MXNet應用之線性回歸
※IMDB Movie :Python數據分析報告
※Kaggle模式可以複製嗎?
TAG:數據分析 |