4把武器,讓你看懂數據

4把武器,讓你看懂數據

來自專欄數據分析(初級)

一大堆數據,從何入手?今天給你4把武器,讓你輕鬆看懂數據。

四把武器分別是:

1)平均值 2)四分位數 3)標準差 4)標準分。

1.1 平均值

平均值是數據集中所有數據相加的總和除於數據的個數所得的值。

缺點:對異常數據不敏感,當數據集中有異常值時,用平均值來描述該數據集是不準確的。

1.2 四分位數

四分位數,將整個數據集分為4份,每一份的數據個數佔總數據集個數的25%;四分位數包括:下界Min、上四分位數Q1、中位數Q2、下四分位數Q3、上界Max。四分位數能從整體上描述數據的狀態,但無法描述數據的波動性。

1.2.1 四分位數的應用:

1)比較不同類別的數據:

圖源:猴子學數據分析--統計概率思維:描述統計學

2)識別出可能的異常值:

  • Turkeys Test:

圖源:猴子學數據分析--統計概率思維:描述統計學

  • 對異常值的處理方法: a. 當異常值是一個被錯誤標記的異常值——修改異常值

b. 當異常值為錯誤包含在數據集中——刪除異常值

c. 當異常值為反常異常值,但被正確記錄了——保留異常值

1.3、標準差——離散程度、變異性、波動大小:

  • 方差,用於描述數據的離散程度
  • 標準差,用於某個數據相對於平均值的波動大小,偏離平均值的幅度。

圖源:猴子學數據分析--統計概率思維:描述統計學

標準差的單位為數據的單位

  • 標準差大好還是小好?具體案例具體分析(ex:nba球員得分的標準差越小越好,代表其發揮穩定;大公司薪資的標準差越大越好,說明薪資範圍廣。)

1.4、標準分——Z-Score:

標準分,表示某個數值距離平均值多少個標準差。

圖源:猴子學數據分析--統計概率思維:描述統計學

標準分公式如下圖所示:

圖源:猴子學數據分析--統計概率思維:描述統計學

總結

這四把武器,你掌握了嗎?


推薦閱讀:

肝炎,病菌與大數據
大數據時代普通人也要懂得,否則錢掉頭上只知道痛而不知道撿
繼深度學習後,下一個熱點技術是遷移學習
『蘋果獲得全球智能手機行業91%利潤份額』今日數據行業日報
「大數據殺熟」事件發酵,誰來為數據運用洗白

TAG:數據分析 | 大數據 |