IMDB——python數據分析報告

03-28

1.提出問題

在一部電影上映之前，我們如何知道這部電影會取得成功，受到人們喜歡？如果我們可以預測結果，這將幫助電影製作人做出正確的決策。根據客戶提供的數據，首先確定我們的分析問題，本次項目分析主要針對以下問題進行數據分析:

2.採集數據

https://nycdatascience.com/blog/student-works/web-scraping/movie-rating-prediction/?

nycdatascience.com

TMDB 5000 Movie Dataset?

www.kaggle.com

3.數據欄位

首先，對數據中變數的含義進行梳理：

梳理如下：電影數據中有20個變數，演員名單中有4個變數，變數如下：

1、budget 預算 2、genres 電影風格 3、homepage 電影首頁的URL

4、id:標識號 5、keywords 關鍵字 6、original_language: 電影語言

7、original_title: 電影名稱8、overview：劇情概要

9、popularity：在Movie Database 上的相對頁面查看次數，受歡迎度

10、production_companies:製作公司 11、prodacution_countries: 製作國家

12、release_date：上映時間 13、revenue：收入 14、runtime：電影時長

15、spoken_languages 口語 16、status：狀態 17、tagline: 電影的標語

18、title: 主題 19、vote_average：平均評分 20、vote_count:評分次數

21、title:電影名稱 22、 movie_id 電影編號 23、cast 演員信息 24、crew 劇組演員信息

初步信息觀察，發現兩個重複數據：電影編號，電影名稱，因共有22個變數

代碼參考：

宣雁鴻：IMDB 5000+ Movie Dataset 分析?

zhuanlan.zhihu.com
推薦閱讀：