pandas實戰3--分析酒類消費數據與美國犯罪數據

07-21

來自專欄 daacheng的Python學習總結

pandas分析酒精類消費數據（數據分組）

酒精類消費數據集地址https://github.com/daacheng/PythonBasic/blob/master/dataset/drinks.csv

代碼

import pandas as pd# pandas數據分組# 讀取數據集"酒精類消費數據"drinks = pd.read_csv(drinks.csv)drinks.head()# 查看數據集的列# Index([country, beer_servings, spirit_servings, wine_servings,total_litres_of_pure_alcohol, continent],dtype=object)drinks.columns# 查看各個大陸(continent)啤酒平均消費量drinks.groupby(continent).beer_servings.mean()# 查看每個大陸的紅酒消費統計信息 (樣本個數，均值，標準差，最大值，最小值)drinks.groupby(continent).wine_servings.describe()# 查看每個大陸每種酒類消費品的平均酒精消耗量 mean()drinks.groupby(continent).mean()# 查看每個大陸每種酒精類消費品的酒精消耗量中位數 median()drinks.groupby(continent).median()# 查看每個大陸對白酒和紅酒消耗量的平均值，最大值和最小值drinks.groupby(continent)[[spirit_servings,wine_servings]].agg([mean,max,min])

pandas分析美國犯罪數據(應用函數)

美國犯罪數據集地址https://github.com/daacheng/PythonBasic/blob/master/dataset/US_Crime_Rates_1960_2014.csv

代碼

import pandas as pd# 應用函數：pd.to_datetime set_index del resample idxmax# 讀取數據集"美國犯罪數據"crime = pd.read_csv(US_Crime_Rates_1960_2014.csv)crime.head()# 查看數據集的列# Index([Unnamed: 0, Year, Population, Total, Violent, Property,Murder, Forcible_Rape, Robbery, Aggravated_assault,# Burglary, Larceny_Theft, Vehicle_Theft],dtype=object)#Violent:暴力 Property：財產 Murder：謀殺 Forcible_Rape：強姦 Robbery：搶劫 Aggravated_assault：嚴重襲擊 Burglary：竊案# Vehicle_Theft：車輛盜竊crime.columns# 查看year的數據類型 dtype(int64)crime.Year.dtype# 把Year類型從int轉換為datatimecrime.Year = pd.to_datetime(crime.Year,format = %Y)# 再次查看類型 dtype(<M8[ns])crime.Year.dtype# 把Year列變為數據集的索引 drop=True表示把Year欄位刪除掉，作為索引列。默認是Falsecrime = crime.set_index(Year,drop=True)crime# 刪除Total列del crime[Total]crime# Pandas中的resample，重新採樣，是對原樣本重新處理的一個方法，是一個對常規時間序列數據重新採樣和頻率轉換的便捷的方法。# 參數表示採樣的規則常見時間頻率：A year M month W week D day H hour T minute S second# 按照每十年為一組進行採樣統計crime.resample(10AS).sum()# 查看每個欄位最大值對應的索引 idxmax函數crime.idxmax(0)