像製作人一樣思考——電影數據分析
電影數據來源於kaggle上的TMDB 5000 Movie Dataset數據集,當製作一部電影時,應考慮哪些因素才能使電影獲得成功?本次數據分析報告主要探討電影數據的可視化,圍繞以下幾點:
- 電影類型隨時間的變化
- 哪些類型的電影出現最多
- 利潤最高的電影類型
- 評分和受歡迎程度與電影類型的關係
- 哪些導演的平均票房較高
- 哪些導演的平均預算比較高
- 哪些導演的電影平均票房和評分都很高
- 預算和票房之間的關係
- 關鍵字詞雲
1、電影類型隨時間的變化
可以發現從1995-2015年電影數量總體在波動中增加,戲劇(Drama)增長最快,其次是喜劇(Comedy)和驚悚電影(Thriller);恐怖片(Horror)、犯罪片(Crime)、家庭影片(Family)和科幻電影(Science Fiction)則增長較平緩。
2、哪些類型的電影出現最多
3、利潤最高的電影類型
從上圖可以看出動漫(Animation)利潤最高,而數量最多的戲劇(Drama)和喜劇(Comedy)的利潤相對較少。
4、評分和受歡迎程度與電影類型的關係
從上圖發現外國電影(Foreign)的評分和受歡迎程度程度都比較低,音樂電影(Music)平均評分最高但受歡迎程度程度較低,最受歡迎的電影類型為動漫(Animation),科幻電影(Science Fiction)、動作片(Action)、魔幻電影(Fantasy)、冒險電影(Adventure)的評分和受歡迎程度程度都較高,電影評分和受歡迎程度程度是否存在某種關係:
上圖顯示有很多離群值,評分和受歡迎程度程度之間的線性關係並不是很顯著,通過計算兩者之間的相關係數也可以看出。
5、哪些導演的平均票房較高
6、哪些導演的平均預算比較高
7、哪些導演的電影平均票房和評分都很高
8、預算和票房之間的關係
可以看出預算和票房之間基本上成線性關係
各變數間的相關關係:
發現預算和票房、受歡迎程度和票房收入、評分次數和受歡迎程度、評分次數和票房收入之間有比較強的線性關係。
9、關鍵字詞雲
從詞雲中發現出現次數較多的詞是女性導演,獨立電影、音樂、謀殺等。
數據處理和可視化是用Python和excel交替進行,主要代碼鏈接:https://pan.baidu.com/s/1ggKFJvP 密碼:qbl0
wordcloud模塊沒安裝成功,詞雲是用WordArt製作的
參考文章:
TMDB Means per genre
TMDB_Movie dataset
Whats my Score??
推薦閱讀:
※Matplotlib中關於坐標軸的控制
※Matplotlib中將兩條不同曲線共軸
※運動軌跡熱力圖中的台灣導彈基地安全隱患