pandas實戰3--分析酒類消費數據與美國犯罪數據
來自專欄 daacheng的Python學習總結
pandas分析酒精類消費數據(數據分組)
酒精類消費數據集地址https://github.com/daacheng/PythonBasic/blob/master/dataset/drinks.csv
代碼
import pandas as pd# pandas數據分組# 讀取數據集"酒精類消費數據"drinks = pd.read_csv(drinks.csv)drinks.head()# 查看數據集的列# Index([country, beer_servings, spirit_servings, wine_servings,total_litres_of_pure_alcohol, continent],dtype=object)drinks.columns# 查看各個大陸(continent)啤酒平均消費量drinks.groupby(continent).beer_servings.mean()# 查看每個大陸的紅酒消費統計信息 (樣本個數,均值,標準差,最大值,最小值)drinks.groupby(continent).wine_servings.describe()# 查看每個大陸每種酒類消費品的平均酒精消耗量 mean()drinks.groupby(continent).mean()# 查看每個大陸每種酒精類消費品的酒精消耗量中位數 median()drinks.groupby(continent).median()# 查看每個大陸對白酒和紅酒消耗量的平均值,最大值和最小值drinks.groupby(continent)[[spirit_servings,wine_servings]].agg([mean,max,min])
pandas分析美國犯罪數據(應用函數)
美國犯罪數據集地址https://github.com/daacheng/PythonBasic/blob/master/dataset/US_Crime_Rates_1960_2014.csv
代碼
import pandas as pd# 應用函數:pd.to_datetime set_index del resample idxmax# 讀取數據集"美國犯罪數據"crime = pd.read_csv(US_Crime_Rates_1960_2014.csv)crime.head()# 查看數據集的列# Index([Unnamed: 0, Year, Population, Total, Violent, Property,Murder, Forcible_Rape, Robbery, Aggravated_assault,# Burglary, Larceny_Theft, Vehicle_Theft],dtype=object)#Violent:暴力 Property:財產 Murder:謀殺 Forcible_Rape:強姦 Robbery:搶劫 Aggravated_assault:嚴重襲擊 Burglary:竊案# Vehicle_Theft:車輛盜竊crime.columns# 查看year的數據類型 dtype(int64)crime.Year.dtype# 把Year類型從int轉換為datatimecrime.Year = pd.to_datetime(crime.Year,format = %Y)# 再次查看類型 dtype(<M8[ns])crime.Year.dtype# 把Year列變為數據集的索引 drop=True表示把Year欄位刪除掉,作為索引列。默認是Falsecrime = crime.set_index(Year,drop=True)crime# 刪除Total列del crime[Total]crime# Pandas中的resample,重新採樣,是對原樣本重新處理的一個方法,是一個對常規時間序列數據重新採樣和頻率轉換的便捷的方法。# 參數表示採樣的規則 常見時間頻率 :A year M month W week D day H hour T minute S second# 按照每十年為一組進行採樣統計crime.resample(10AS).sum()# 查看每個欄位 最大值 對應的索引 idxmax函數crime.idxmax(0)
推薦閱讀:
※初識Bokeh | 互動式數據可視化在Python中的實現
※(02)Python密碼庫Cryptography探究學習---深入理解Fernet
※Python數據處理 II:數據的清洗(預處理)
※新學python,編寫helloword.py提示無效語法。?
※Numpy的軸,pandas的行和列