3個思路處理電影數據及其優缺點
Kaggle項目地址:https://www.kaggle.com/tmdb/tmdb-movie-metadata
目標
從投資角度出發,解決電影行業投資的相關問題:
- 不同電影風格的投資熱度(投資額佔比)如何?哪些比較高?
- 不同電影風格的市場佔有率如何?哪些比較高?
- 不同電影風格的投資回報率(利潤/投資額)如何?哪些比較高?
- 不同電影風格的投資回報率近20年的變遷?
- Universal Pictures 和 Paramount Pictures 之間的對比情況如何?近二十年的公司收入變化?
- 改編電影和原創電影的對比情況如何?(通過keywords變數中的based on novel欄位來判斷)對比投資、利潤、投資回報率。近40年來收益變化如何?
思路一 計算每部電影的回報率
【錯誤示範】雖然是錯誤的,但是有參考價值,可以看到這種錯誤的思路導致的結果差別有多大,因此還是總結一下。
我打算先用自己現有的知識去嘗試分析這個項目,解答問題,再去對照別人優秀的案例,這樣更能從區別里看到自己的知識掌握程度,知識理解誤區。
我的思路是計算每個風格的電影回報率,先計算每個電影的回報率,再合併每個風格的電影的回報率取平均值。
df_reduced[rate_of_return]=(df_reduced.loc[:,revenue]-df_reduced.loc[:,budget])/df_reduced.loc[:,budget]
df_reduced.describe()
可以看到,rate_of_return回報率的平均值mean、最大值max是inf即無窮大,數據中必然存在異常值,有可能是作為分母的投資額為0導致。Std為nan空值也是這個原因。
採取dropna()丟棄投資額為0的行。
replace_budget_revenue=df_reduced[[budget]].replace(0,np.nan)
del df_reduced[budget]
df_reduced_replace=pd.concat([df_reduced,replace_budget_revenue],axis=1)
df_reduced_replace.dropna(axis=0, how=any, subset=[budget], inplace=True)
df_reduced_replace.describe()
查看沒有問題
但是看看dropna()刪除的數據
print(刪除的行數,df_reduced.shape[0]-df_reduced_replace.shape[0])
問題非常大,因為投資額為0的問題,刪除了幾乎四分之一的數據。
正好同期我在閱讀《大數據時代》這本書,裡面講到大數據時代不是樣本時代,應該儘可能的利用全部的數據,寧可捨棄一點點的精確性。
因此解題到這裡我感覺到思路是有錯的。不過暫時繼續分析下去,看看差別會多大。
可以看到,有非常明顯的異常值。說明顯是因為,比其他數據明顯大很多。其次,超出常規認知。如果有某個電影類型回報率如此高,那麼整個投資市場都幾乎會集中到這個風格,其他風格幾乎沒有存活的可能。
思路二 計算不同風格的平均投資、平均收益,進而得出平均回報率
參考kaggle的案例代碼。
對比看看思路一和思路二得出的回報率結果差別有多大。。。相差一千倍。。。
思路二的第二個特點是,用整個表來處理數據。
思路二的第三個特點是,用手工方法來處理json。
解答問題
- 不同電影風格的投資熱度(投資額佔比)如何?哪些比較高?
結論:投資熱度分布比較懸殊,呈階梯式遞減,投資熱度排名前五的電影風格分別為Action-14%、Adventure-13%、Drama-12%、Comedy-11%、Thriller-10%。
- 不同電影風格的市場佔有率如何?哪些比較高?
結論:市場佔有率分布比較懸殊,呈階梯式遞減,市場佔有率排名前五的電影風格分別為Adventure-14%、Action-14%、Comedy-11%、Drama-10%、Thriller-9%。另外,市場佔有率排名前五與投資熱度排名前五不考慮排名先後的情況下,是相同的五個電影風格。
- 不同電影風格的投資回報率(利潤/投資額)如何?哪些比較高?
結論:投資回報率分布比較懸殊,呈階梯式遞減,投資回報率排名前五的電影風格分別為Documentary、Animation、Family、Adventure、Music。可以看出,投資熱度高的電影風格不一定投資回報率高。只有Adventure風格是投資熱度高、市場佔有率高的同時,投資回報率也高的。可以說Adventure是一個比較優質和風險小的可投資電影風格。而Documentary和Music風格在投資熱度和市場佔有率墊底的情況下,投資回報率卻比較高。可以說Documentary和Music是比較冷門但投資回報不錯,風險較大的電影風格,投資需謹慎。
- 不同電影風格的投資回報率近20年的變遷?
結論: 2000年之前,不同風格電影投資回報率比較平均。2000年到2011年十二年間,投資回報率較高的電影風格集中在Music、Animation、Family、Fantasy、Documentary這幾個類型。2012年不同電影風格除了Foreign、TV Movie外,其他都投資回報率分布比較平均,並且都比較高。2012年後近五年來,Horror、Comedy、Animation、Adverture、Action、Family、Science Fiction的投資回報率都比較高,呈增長態勢。近二十年來Animation、Family的投資回報率都比較高。
- Universal Pictures 和 Paramount Pictures 之間的對比情況如何?近二十年的公司收入變化?
提取兩家公司的平均電影市場、評分、預算、收入、利潤、回報率均差別不大。
從投資角度查看兩家公司的收入近二十年的增長情況
可以看出,兩家公司的年收入均呈現增長狀態。Paramount Pictures在2000到2010年期間年收入波動較小。近5年來兩家公司的年收入波動均比較大。
- 改編電影和原創電影的對比情況如何?(通過keywords變數中的based on novel欄位來判斷)對比投資、利潤、投資回報率。近40年來收益變化如何?
結論:原創電影的平均投資和平均利潤都比非原創電影要高。
結論:原創電影的投資回報率比非原創電影要高。
結論:原創電影的起源比較早,在1977年前就已經產生。非原創電影在1983年才開始出現。在非原創電影剛出現的幾年,原創電影在1987年、1989年、1993年出現沒有收入、但第二年收入飆升的狀況。整體來看,原創電影的收入呈波動增長的狀態。非原創電影的收入增長比較平緩,在1987到1989剛出現的時期增長較快,其後近30年基本上增長持平,相比起來原創電影1980s收入比非原創低,之後原創電影的收入都大大高於非原創電影。
思路三 以多表格的方式分析不同的問題
參考猴子學員案例
推薦閱讀:
※黃小龍第三講:簡單的數據處理筆記
※別人都配了這些鏡頭,你不來一個嗎?——圖蟲EXIF分析之一
※「有層次、可發展」的門店數字化管理,是通往新零售的必經之路
※淺談群組分析(Cohort Analysis)之於產品運營的價值
※年輕用戶加速離網營銷建議