標籤:

IMDB——python數據分析報告

1.提出問題

在一部電影上映之前,我們如何知道這部電影會取得成功,受到人們喜歡?如果我們可以預測結果,這將幫助電影製作人做出正確的決策。根據客戶提供的數據,首先確定我們的分析問題,本次項目分析主要針對以下問題進行數據分析:

  1. 電影類型是如何隨著時間的推移發生變化?
  2. 某兩家電影製作公司之間的對比情況如何?
  3. 改編電影和原創電影的對比情況如何?
  4. IMDB電影庫關鍵詞雲

2.採集數據

  • 方法一: 從互聯網電影資料庫IMDB利用Python爬蟲框架Scrapy進行電影信息爬蟲,將提取的信息保存到.csv文件中,如何爬蟲參考該篇文章,

https://nycdatascience.com/blog/student-works/web-scraping/movie-rating-prediction/?

nycdatascience.com

  • 方法二: kaggleIMBD電影項目下載數據:

TMDB 5000 Movie Dataset?

www.kaggle.com

3.數據欄位

首先,對數據中變數的含義進行梳理:

梳理如下:電影數據中有20個變數,演員名單中有4個變數,變數如下:

1、budget 預算 2、genres 電影風格 3、homepage 電影首頁的URL

4、id:標識號 5、keywords 關鍵字 6、original_language: 電影語言

7、original_title: 電影名稱8、overview:劇情概要

9、popularity:在Movie Database 上的相對頁面查看次數,受歡迎度

10、production_companies:製作公司 11、prodacution_countries: 製作國家

12、release_date: 上映時間 13、revenue: 收入 14、runtime: 電影時長

15、spoken_languages 口語 16、status:狀態 17、tagline: 電影的標語

18、title: 主題 19、vote_average: 平均評分 20、vote_count:評分次數

21、title:電影名稱 22、 movie_id 電影編號 23、cast 演員信息 24、crew 劇組演員信息

初步信息觀察,發現兩個重複數據:電影編號,電影名稱,因共有22個變數

代碼參考:

宣雁鴻:IMDB 5000+ Movie Dataset 分析?

zhuanlan.zhihu.com圖標
推薦閱讀:

不同需求下可視化圖形選擇(翻譯)
mysql查詢初級 50道練習題(語句親測無錯)
Python 數據分析學習路線
數據篇(1):數據分析
如何用Python來EDA數據分析

TAG:數據分析 |