標籤:

用數據講故事

互聯網的時代,我們生活中每天要面對海量的數據。要想通過這些種類繁多,浩如煙海的數據提取到有價值的信息,傳統的手工做法實在是不可取。甚至有些類型數據我們根本不能處理。然而,通過python中的numpy和pandas庫為我們指了一條明路。

這兩個庫對數據採集,提取,統計計算都做了詳細的封裝來供我們調用,讓人大快朵頤。

Numpy:

使用array函數創建數組

根據索引,切片查詢提取數據,類似於一個多維數組。

pandas:

類似於R語言的數據框,可以有效的存儲清理數據。Python Data Analysis Library

相對於numpy,pandas的功能更強大,對於每一個列表,他可以存儲不同類型的列表

一個案例分析

1.讀取數據

2.處理缺失值,改變列名

這是一個6578行,7列的數據框

創建一個字典存儲要改變的列,使用rename函數將列傳入,inplace=True

刪除任何一行銷售時間,社保卡號為空的行

將其轉成float類型

3.數據清洗,構建模型

設置一個函數,將銷售時間提取出來

按照時間大小順序排列並建立索引

查看該數據集

後面還有一些求每月銷售額什麼的

歐了歐了,學習數據分析,要進行一些很細微的操作,所以要熟悉數據框的一些用法,利用pandas里的一些函數,可以幫助我們高效的實現數據的採集,清理。特別地,像處理空值,缺失值的時候要很小心。而這些函數如spilt,sub,sep可以解決很多問題。要熟練地處理數據,還得腳踏實地多實踐。


推薦閱讀:

SQL初級數據分析(基於Microsoft Access)
數據分析驅動業績增長
用戶畫像學習
2018年一定要收藏的20款免費預測分析軟體!
清單|小白轉行數據分析

TAG:數據分析 |