雨沐田:Excel數據分析-直方圖是神馬東東?
上回(雨沐田:Excel數據分析工具庫進行描述分析)重點說了說Excel數據分析工具庫的載入及如何進行描述分析。
雖然我想盡量少提、晚提難懂的統計學概念,但沒辦法,要玩好數據分析,這些是繞不過的,但我也不建議死磕,目前沒有必要全部搞明白,這些山頭要慢慢攻,急不來,以後的文章中,會化整為零逐個分解。
今兒個我就重點說說直方圖!
神馬是直方圖?
直方圖也是一種描述性分析手段,反映的是數據在特定分組下的分布情況。
繼續以昨天的用戶消費金額數據為例說明,我們要知道用戶消費金額的分布情況,要用直方圖分析展現,第一步要做的就是要建立分組。
如何分組呢?
這就要用到昨天的描述分析結果,看看最大值和最小值:
根據最大值最小值,我們劃定每組按1000遞增(組距1000),那麼最小應該從2000開始,最大應該是10000,所以,在Excel空白區域建立如下分組:
分組建立後,用Excel分析工具庫操作步驟如下:
1、點擊Excel數據分析菜單,打開數據分析工具庫:
2、選擇直方圖,彈出設置窗口,錄入相關參數如下:
輸入區域:選擇消費金額數據,不要選擇標題
接收區域:選擇分組數據,一定要同時選擇標題和數據
輸出區域:選擇結果輸出的位置,選空白處任一單元格
其他按圖所示選擇,然後點擊確定,生成直方圖如下:
左側表格,右側直方圖。
頻率:就是這個分組下出現的數據個數
累積百分比:將本組和之前所有組的數據全部相加,再除以全部數據之和的結果;如:4000 分組的累積為23.23%,意思是將4000 分組、3000分組、2000分組下的所有數據相加 ,再除以全部數據之和的結果,累積百分比的最後結果肯定是1。
右側直方圖,能更直觀的反映數據分布和累積百分比。
頻率說明神馬?
這個比較好理解,從頻率看,5000分組( 消費金額大於4000,小於等於5000),7000分組,9000分組為重點消費金額所在區域,可深入再分析,並重點關注和加強。
累積說明神馬?
可以理解偉範圍佔比的分布,比如6000分組的累積為51.52,%,就說明金額在6000及以下消費佔了全部消費的一半還多,可以一定程度上反映出平台的整體消費水平和範圍。
但這麼看總是有些彆扭,能不能把數據按頻率高低排序呢?
沒問題,這個可以有!
創建新的直方圖,參數如下:
相比剛才多選擇了一個「柏拉圖」,得到結果直方圖如下:
表格數據在原始數據的基礎上,多了按頻率降序排列的部分。直方圖則按新的降序數據繪製,看上去就很清楚了。
柏拉圖就是將數按次序排列,目的是將一堆數據重組,排列成更有意義的圖表。
這裡有點小問題:
Excel數據分析工具庫生成的直方圖看上去和條形圖一樣,但其實直方圖和條形圖是不同的,這算是Excel直方圖的一個小缺陷吧!
直方圖是數據的分布圖,是一種較為精確的圖形表示方式,而且最最最最關鍵的是分組之間是連續的、不重疊的,分組必須相鄰,而且通常是相等的大小(寬度)。
而條形圖每個數據條之間是可以有間隙的,分組之間沒必要時連續的和相鄰。
說了這麼多,到底啥意思呢,看圖就知道了,嚴謹的直方圖應該是這個樣子的:
真是一圖勝千言哪,說的我累死了,還是看圖來的快。
如何調整呢,滑鼠雙擊直方圖任一條形,在Excel右側格式設置區,修改參數如下:
修改間隔為0 ,就可以了。
至此,我們對用戶消費數據的簡單直方圖分析就完成了。
有童鞋就覺得直方圖好像也沒啥特別嘛,不就是和數據分組很相似嘛!
可千萬不能這裡理解,直方圖的使用場景很多,用途非常廣泛,除了經常用在於數據分布分析外,專業攝影也是要用到直方圖的。
直方圖反映的是數據分布情況,通過數據的分布能發現很多問題,數據分布是否合理、是否符合預期,通過一堆看似無規律的數據生成直方圖就能看到數據背後的隱藏的問題。
而數據分布是否合理、是否符合預期,要在特定的業務場景下去說,沒有統一的標準,可以是學習成績分布圖、也可以是產品質量分布圖、還可以使故障問題分布圖....
不同的業務場景對直方圖有不同的應用和解釋。而數據的分布常見的歸納有正態分布、正偏態分布、負偏態分布等。
而這些特定業務場景下的應用在遇到特定問題時再具體研究即可。沒必要著急現在就要都搞明白.
今天的任務就是學習在Excel中如何生成直方圖。你搞明白了嗎?
本文的數據案例資源,可以關注公眾<大數據分析獅>,回復<直方圖>免費獲取!
推薦閱讀:
※2016年貴州省旅遊數據分析報告
※【翻譯】《利用Python進行數據分析·第2版》第4章(中)NumPy基礎:數組和矢量計算
※帆軟2017百城巡展啟動在即,力掀數據化管理之風
※恭喜你!成功由遊樂場模式升級為荒野求生模式
※數據分析社群第二關作業——遲遲未交出的作業
TAG:數據分析 |