標籤:

探索電影大數據

從商業角度出發,一部電影的製作通常以票房為主要導向,票房是衡量電影成功與否的關鍵因素,本次分析以電影利潤為關鍵指標,探秘電影大數據。

電影數據來源Kaggle:TMDB 5000 Movie Dataset

研究問題:

1、電影類型數量隨時間的變化

2、電影類型利潤對比

3、原創電影與非原創電影對比

4、產生電影利潤較高的導演

5、電影口碑與利潤雙豐收的導演

6、電影流行度、預算及評分與電影利潤之間的關係

1、導入數據

2、數據簡單處理

合併數據集

提取關鍵列,增加profit列

問題研究

1、電影類型隨時間變化

genres列格式化,建立包含所有genre類型的列表

填充release_date缺失值

僅保留日期中的年份

建立包含年份與電影類型數量的關係的數據框

數據可視化

電影數量於1995 年開始均呈現出增長的趨勢,其中Drama及Comedy類型電影數量增長最為迅速。

2、電影類型利潤對比

Animation、Adventure、Fantasy、Family、Science Fiction、Action這六類的電影類型產生的利潤明顯高於其他電影類型。

3、原創電影與非原創電影對比

雖然改編電影預算略大於原創電影,但其票房及利潤遠高於原創電影,可能改編電影具備一定的影迷基礎。

4、哪些導演所執導的電影帶來較高利潤

5、口碑與利潤雙豐收的導演

6、電影流行度(popularity)、預算(budget)、平均評分(vote_average)對利潤的影響

電影流行度(popularity)及預算(budget)分別與電影利潤(profit)呈現出一定的線性相關,而電影評分(vote_average)與利潤(profit)之間的線性關係並不顯著


推薦閱讀:

人人都是數據科學家?Airbnb數據大學開課了
第一次製作數據報告
2018年一定要收藏的20款免費預測分析軟體!
數據分析、數據挖掘和機器學習共享
Python學習(一)

TAG:數據分析 |