數據分析入門之概率思維助我一臂之力
其實早在概率論課程上就學習過平均值、方差、標準差、期望等概念及計算方式,但老師並沒有詳細解釋其中的道理,也沒有把理論與實際相結合,致使學過的知識因為過於抽象而被遺忘。在猴子老師的課堂中,對描述統計分析中涉及的幾個重要概念進行了學習,如下所示:
- 平均值
- 中位數
- 四分位數
- 箱線圖
- Tukeys test
- 標準差
- 標準分
1 平均值
:總量/總個數
用於大致表示數據集的集中範圍
缺點:對異常值不敏感
eg. 數組1 : 1,3,5,7,9——平均數=(1+3+5+7+9)/5=5
數組2:1,3,5,7,30——平均數=(1+3+5+7+30)/5=9.2
可以看出兩個數組前四位數相同,但數組2中最後一位數「30」導致該組的平均值較高,但「平均值」無法具體顯示出是哪一位數導致這樣的結果,也無法判斷出現這樣的值差異是否就是錯誤的,所以平均值只能作為大致的估計參數,其參考性較低,需要配合其他關鍵量對數據進行分析才能得到更準確的結果。
2 中位數
:一組數由小到大排列,位於中間的數即中位數(如中間是兩位數,則取這兩位數的平均值)
3 四分位數
:一組數由小到大排列,位於第25%位置的數為下四分位數,位於第75%位置的數為上四分位數
四分位數配合箱線圖可以進行不同類別數據分布的比較,配合Tukeys test方法可以識別出一組數中的異常值
3.1 箱線圖
箱線圖其實就是根據已知數據繪製出的用作顯示一組數據分散情況資料的統計圖,因其 上下四分位數之間的繪製形如箱子而得名。箱線圖可以清楚地看出數據的分散情況,配合Tukeys test方法識別出異常值。根據圖中中位數及四分位數的分布可以判斷數據偏態。
3.2 Tukeys test
Tukey test方法用於識別數據集中可能的異常值。
令:上四分位數=Q3,下四分位數=Q1,中位數=Q2
根據需要分別令k=1.5 or k=3.0,其中k=1.5時可以識別出中度異常的值,k=3.0時用於識別極度異常值
計算:最大值估計=Q3+k(Q3-Q1)
最小值估計=Q1-k(Q3-Q1)
計算出異常值後可選擇以下三種方法對異常值進行處理:
① 錯誤標記的值——提前修正
②被錯誤包含在集中的值——刪除
③反常的數據值——保留
4 標準差
:波動大小=離散程度=變異性——表示數據集之間偏離平均值的程度
標註差的兩個問題:
(1)標準差的單位:與計數數值的單位相同
(2)標準差大一點好還是小一點好?視情況而定
5 標準分
:距離平均值多少個標準差(可通俗理解為「排名」)
學習了描述統計分析中幾個重要的指標後,跟隨猴子老師的課程又對概率思維進行了了解。
概率:用數值表示事件發生的可能性,其值一定是在0到1之間。
我們的生活中經常使用到概率,但大家並不會意識到,這是因為很多人沒有概率思維,認為許多事情都是「天註定」,或是「一直不發生的事情接下來肯定會發生」,這種想法在賭徒身上尤其多。
賭徒們傾向於相信之前的下注對當前下注有影響,於是在許多次都不中獎後,他們相信下一次開獎時幸運之神就會眷顧自己,然而事實並不是這樣。
1 獨立事件與相關事件
以搖色子為例:一場猜色子遊戲有10局,賭徒A前9局下注都為大,很不幸他都選擇了錯誤的答案,於是在第10局下注時他選擇下注為小,因為在他看來「小」已經出現了9次,接下來很有可能繼續出現「小」。結果,第10局為「大」。這是因為搖色子後出現各種點數本身就是一個獨立事件,搖出了「1」並不會影響之後一次的結果,因為色子是一個均勻的正6面體,每一面向上的概率都是相等的,即:各種結果的出現不受之前結果的影響。
與獨立事件相對應的是相關事件:相關事件則受過去事件的影響,如:現在成績好是因為過去努力學習;以後能夠掙到錢是因為現在選擇學習數據分析。
2 大數定律
2.1 小數定律
:如果統計數據很少,那麼事件就表現為各種極端事件,而這些情況都是偶然事件,跟它的期望值一點關係都沒有,即:收集到的情況很少,不能真正代表數據的分布情況。
2.2 大數定律
:如果統計數據量足夠大,那麼事物出現的頻率就能無限接近他的期望數值,期望=預期值。
熟練掌握以上統計量及概念並加以熟用,才能真正將概率思維應用在生活中。
推薦閱讀:
※8. 數據分析師團隊的分工與合作
※當excel不夠用時,如何利用Access進行數據分析?
※人生苦短,我用python(基礎篇)
※大數據精準營銷三部曲
※【BI】 BI項目的介紹 Part 2:項目的實現