探索電影大數據
從商業角度出發,一部電影的製作通常以票房為主要導向,票房是衡量電影成功與否的關鍵因素,本次分析以電影利潤為關鍵指標,探秘電影大數據。
電影數據來源Kaggle:TMDB 5000 Movie Dataset
研究問題:
1、電影類型數量隨時間的變化
2、電影類型利潤對比
3、原創電影與非原創電影對比
4、產生電影利潤較高的導演
5、電影口碑與利潤雙豐收的導演
6、電影流行度、預算及評分與電影利潤之間的關係
1、導入數據
2、數據簡單處理
合併數據集
提取關鍵列,增加profit列
問題研究
1、電影類型隨時間變化
genres列格式化,建立包含所有genre類型的列表
填充release_date缺失值
僅保留日期中的年份
建立包含年份與電影類型數量的關係的數據框
數據可視化
電影數量於1995 年開始均呈現出增長的趨勢,其中Drama及Comedy類型電影數量增長最為迅速。
2、電影類型利潤對比
Animation、Adventure、Fantasy、Family、Science Fiction、Action這六類的電影類型產生的利潤明顯高於其他電影類型。
3、原創電影與非原創電影對比
雖然改編電影預算略大於原創電影,但其票房及利潤遠高於原創電影,可能改編電影具備一定的影迷基礎。
4、哪些導演所執導的電影帶來較高利潤
5、口碑與利潤雙豐收的導演
6、電影流行度(popularity)、預算(budget)、平均評分(vote_average)對利潤的影響
電影流行度(popularity)及預算(budget)分別與電影利潤(profit)呈現出一定的線性相關,而電影評分(vote_average)與利潤(profit)之間的線性關係並不顯著
推薦閱讀:
※人人都是數據科學家?Airbnb數據大學開課了
※第一次製作數據報告
※2018年一定要收藏的20款免費預測分析軟體!
※數據分析、數據挖掘和機器學習共享
※Python學習(一)
TAG:數據分析 |