用數據講故事
02-26
互聯網的時代,我們生活中每天要面對海量的數據。要想通過這些種類繁多,浩如煙海的數據提取到有價值的信息,傳統的手工做法實在是不可取。甚至有些類型數據我們根本不能處理。然而,通過python中的numpy和pandas庫為我們指了一條明路。
這兩個庫對數據採集,提取,統計計算都做了詳細的封裝來供我們調用,讓人大快朵頤。
Numpy:
使用array函數創建數組
根據索引,切片查詢提取數據,類似於一個多維數組。
pandas:
類似於R語言的數據框,可以有效的存儲清理數據。Python Data Analysis Library
相對於numpy,pandas的功能更強大,對於每一個列表,他可以存儲不同類型的列表
一個案例分析
1.讀取數據
2.處理缺失值,改變列名
這是一個6578行,7列的數據框
創建一個字典存儲要改變的列,使用rename函數將列傳入,inplace=True
刪除任何一行銷售時間,社保卡號為空的行
將其轉成float類型
3.數據清洗,構建模型
設置一個函數,將銷售時間提取出來
按照時間大小順序排列並建立索引
查看該數據集
後面還有一些求每月銷售額什麼的
歐了歐了,學習數據分析,要進行一些很細微的操作,所以要熟悉數據框的一些用法,利用pandas里的一些函數,可以幫助我們高效的實現數據的採集,清理。特別地,像處理空值,缺失值的時候要很小心。而這些函數如spilt,sub,sep可以解決很多問題。要熟練地處理數據,還得腳踏實地多實踐。
推薦閱讀:
※SQL初級數據分析(基於Microsoft Access)
※數據分析驅動業績增長
※用戶畫像學習
※2018年一定要收藏的20款免費預測分析軟體!
※清單|小白轉行數據分析
TAG:數據分析 |