像製作人一樣思考——電影數據分析

電影數據來源於kaggle上的TMDB 5000 Movie Dataset數據集,當製作一部電影時,應考慮哪些因素才能使電影獲得成功?本次數據分析報告主要探討電影數據的可視化,圍繞以下幾點:

  • 電影類型隨時間的變化
  • 哪些類型的電影出現最多
  • 利潤最高的電影類型
  • 評分和受歡迎程度與電影類型的關係
  • 哪些導演的平均票房較高
  • 哪些導演的平均預算比較高
  • 哪些導演的電影平均票房和評分都很高
  • 預算和票房之間的關係
  • 關鍵字詞雲

1、電影類型隨時間的變化

可以發現從1995-2015年電影數量總體在波動中增加,戲劇(Drama)增長最快,其次是喜劇(Comedy)和驚悚電影(Thriller);恐怖片(Horror)、犯罪片(Crime)、家庭影片(Family)和科幻電影(Science Fiction)則增長較平緩。

2、哪些類型的電影出現最多

3、利潤最高的電影類型

從上圖可以看出動漫(Animation)利潤最高,而數量最多的戲劇(Drama)和喜劇(Comedy)的利潤相對較少。

4、評分和受歡迎程度與電影類型的關係

從上圖發現外國電影(Foreign)的評分和受歡迎程度程度都比較低,音樂電影(Music)平均評分最高但受歡迎程度程度較低,最受歡迎的電影類型為動漫(Animation),科幻電影(Science Fiction)、動作片(Action)、魔幻電影(Fantasy)、冒險電影(Adventure)的評分和受歡迎程度程度都較高,電影評分和受歡迎程度程度是否存在某種關係:

上圖顯示有很多離群值,評分和受歡迎程度程度之間的線性關係並不是很顯著,通過計算兩者之間的相關係數也可以看出。

5、哪些導演的平均票房較高

6、哪些導演的平均預算比較高

7、哪些導演的電影平均票房和評分都很高

評分>=8

8、預算和票房之間的關係

可以看出預算和票房之間基本上成線性關係

各變數間的相關關係:

發現預算和票房、受歡迎程度和票房收入、評分次數和受歡迎程度、評分次數和票房收入之間有比較強的線性關係。

9、關鍵字詞雲

從詞雲中發現出現次數較多的詞是女性導演,獨立電影、音樂、謀殺等。

數據處理和可視化是用Python和excel交替進行,主要代碼鏈接:pan.baidu.com/s/1ggKFJv 密碼:qbl0

wordcloud模塊沒安裝成功,詞雲是用WordArt製作的

參考文章:

TMDB Means per genre

TMDB_Movie dataset

Whats my Score??


推薦閱讀:

Matplotlib中關於坐標軸的控制
Matplotlib中將兩條不同曲線共軸
運動軌跡熱力圖中的台灣導彈基地安全隱患

TAG:數據分析 | 數據可視化 |