標籤:

紐約時報廣告數據分析(二)

紐約時報廣告數據分析(二)

來自專欄數據分析路

本篇是廣告分析的第二篇 是針對一個月整個數據集進行時間序列分析


集合數據

#動態生成對應的數據框 for i,s in enumerate(path,start=1): locals()[df+str(i)] = pd.read_csv(s) #對每個數據框建立對應日期欄位for i in range(1,31): locals()[df+str(i)][date] = i #所有數據框合併成一個result = df1for i in range(2,31): result = result.append(locals()[df+str(i)])

然後對其簡單的EDA

result.info()

集合之後,有1446W行數據。。。。

result.describe()


時間序列分析

result.query(Impressions != 0).groupby(date).Impressions.count().sort_values()

發現 20號 27號 6號 13號 這四天的廣告投放量極其之高。

result.query(Clicks != 0).groupby(date).Impressions.count().plot(figsize=(10,10))

result.query(Clicks != 0).groupby(date).Clicks.count().plot(figsize=(10,10))

clic = result1.pivot_table(index=date,values=[Impressions,Clicks],aggfunc={Impressions:sum,Clicks: sum})clic[rate] = clic[Clicks]/clic[Impressions]clic.rate.plot(figsize=(10,10))

14號之後 廣告點擊轉化率提高了10%


用戶行為時間分析

result2 = result.query((Impressions != 0)& (Signed_In != 0))gourp_od = result1.pivot_table(index=[date,Age_group],values=[Impressions,Clicks],aggfunc={Impressions:sum,Clicks: sum}).reset_index()gourp_od[rate] = gourp_od[Clicks]/gourp_od[Impressions]gourp_od.groupby(Age_group).rate.plot(figsize=(10,10))plt.legend(loc = upper right)

看來的確是未成年人和中青年點擊廣告比較多啊

fff = result2.pivot_table(index=[date,Gender],values=[Impressions,Clicks],aggfunc={Impressions:sum,Clicks: sum}).reset_index()fff[rate] = fff[Clicks]/fff[Impressions]fff.groupby(Gender).rate.plot()plt.legend(loc = upper right)

女性的點擊率在這一個月內普遍比男性高


後感

本篇自己也覺得是忙忙碌碌做的,這幾天到處奔波,好不容易消停了,想著把這廣告分析快點完工。所以做的時候覺得比較迷茫沒什麼目的,不像第一篇比較有目的性,目標清晰很多,而且今次聚合了30天的數據,1446W條數據,跑起來幾次卡機,可能做得不怎麼爽。不過今次也沒去想去規劃好分析的目標,就遇上了大型數據,做起來好吃力。

下次做分析,一定要理清數據情況,明確清晰分析的目標,不然又像這篇做得比較馬虎。

推薦閱讀:

雨沐田:小微商也要玩轉Excel數據分析
運用numpy和pandas 進行數據分析的知識點
頻率解析度 時間解析度 空間解析度
Python數據分析學習六--字元串操作
談談線性代數這門課程有什麼用

TAG:數據分析 |