紐約時報廣告數據分析(二)
來自專欄數據分析路
本篇是廣告分析的第二篇 是針對一個月整個數據集進行時間序列分析
集合數據
#動態生成對應的數據框 for i,s in enumerate(path,start=1): locals()[df+str(i)] = pd.read_csv(s) #對每個數據框建立對應日期欄位for i in range(1,31): locals()[df+str(i)][date] = i #所有數據框合併成一個result = df1for i in range(2,31): result = result.append(locals()[df+str(i)])
然後對其簡單的EDA
集合之後,有1446W行數據。。。。
時間序列分析
result.query(Impressions != 0).groupby(date).Impressions.count().sort_values()
發現 20號 27號 6號 13號 這四天的廣告投放量極其之高。
result.query(Clicks != 0).groupby(date).Impressions.count().plot(figsize=(10,10))
result.query(Clicks != 0).groupby(date).Clicks.count().plot(figsize=(10,10))
clic = result1.pivot_table(index=date,values=[Impressions,Clicks],aggfunc={Impressions:sum,Clicks: sum})clic[rate] = clic[Clicks]/clic[Impressions]clic.rate.plot(figsize=(10,10))
14號之後 廣告點擊轉化率提高了10%
用戶行為時間分析
result2 = result.query((Impressions != 0)& (Signed_In != 0))gourp_od = result1.pivot_table(index=[date,Age_group],values=[Impressions,Clicks],aggfunc={Impressions:sum,Clicks: sum}).reset_index()gourp_od[rate] = gourp_od[Clicks]/gourp_od[Impressions]gourp_od.groupby(Age_group).rate.plot(figsize=(10,10))plt.legend(loc = upper right)
fff = result2.pivot_table(index=[date,Gender],values=[Impressions,Clicks],aggfunc={Impressions:sum,Clicks: sum}).reset_index()fff[rate] = fff[Clicks]/fff[Impressions]fff.groupby(Gender).rate.plot()plt.legend(loc = upper right)
後感
本篇自己也覺得是忙忙碌碌做的,這幾天到處奔波,好不容易消停了,想著把這廣告分析快點完工。所以做的時候覺得比較迷茫沒什麼目的,不像第一篇比較有目的性,目標清晰很多,而且今次聚合了30天的數據,1446W條數據,跑起來幾次卡機,可能做得不怎麼爽。不過今次也沒去想去規劃好分析的目標,就遇上了大型數據,做起來好吃力。
下次做分析,一定要理清數據情況,明確清晰分析的目標,不然又像這篇做得比較馬虎。
推薦閱讀:
※雨沐田:小微商也要玩轉Excel數據分析
※運用numpy和pandas 進行數據分析的知識點
※頻率解析度 時間解析度 空間解析度
※Python數據分析學習六--字元串操作
※談談線性代數這門課程有什麼用
TAG:數據分析 |