4把武器,讓你看懂數據
06-08
4把武器,讓你看懂數據
推薦閱讀:
來自專欄數據分析(初級)
一大堆數據,從何入手?今天給你4把武器,讓你輕鬆看懂數據。
四把武器分別是:
1)平均值 2)四分位數 3)標準差 4)標準分。
1.1 平均值
平均值是數據集中所有數據相加的總和除於數據的個數所得的值。
缺點:對異常數據不敏感,當數據集中有異常值時,用平均值來描述該數據集是不準確的。
1.2 四分位數
四分位數,將整個數據集分為4份,每一份的數據個數佔總數據集個數的25%;四分位數包括:下界Min、上四分位數Q1、中位數Q2、下四分位數Q3、上界Max。四分位數能從整體上描述數據的狀態,但無法描述數據的波動性。
1.2.1 四分位數的應用:
1)比較不同類別的數據:
2)識別出可能的異常值:
- Turkeys Test:
- 對異常值的處理方法: a. 當異常值是一個被錯誤標記的異常值——修改異常值
b. 當異常值為錯誤包含在數據集中——刪除異常值
c. 當異常值為反常異常值,但被正確記錄了——保留異常值
1.3、標準差——離散程度、變異性、波動大小:
- 方差,用於描述數據的離散程度
- 標準差,用於某個數據相對於平均值的波動大小,偏離平均值的幅度。
標準差的單位為數據的單位
- 標準差大好還是小好?具體案例具體分析(ex:nba球員得分的標準差越小越好,代表其發揮穩定;大公司薪資的標準差越大越好,說明薪資範圍廣。)
1.4、標準分——Z-Score:
標準分,表示某個數值距離平均值多少個標準差。
標準分公式如下圖所示:
總結
這四把武器,你掌握了嗎?
推薦閱讀:
※肝炎,病菌與大數據
※大數據時代普通人也要懂得,否則錢掉頭上只知道痛而不知道撿
※繼深度學習後,下一個熱點技術是遷移學習
※『蘋果獲得全球智能手機行業91%利潤份額』今日數據行業日報
※「大數據殺熟」事件發酵,誰來為數據運用洗白