Python進行電影數據分析及可視化

一、提出問題

作為一名業務分析師顧問,客戶是一個電影製作新公司,他們將製作一部新電影。客戶想確保電影能成功,從而使新公司立足市場。他們希望我能幫助他們了解電影市場趨勢,使他們能做出正確的決策。他們提供了指導,希望我能研究以下三大領域:

  • 問題 1:電影類型是如何隨著時間的推移發生變化的?
  • 問題 2: Universal Pictures 和 Paramount Pictures 之間的對比情況如何?
  • 問題 3: 改編電影和原創電影的對比情況如何?(通過keywords變數中的based on novel欄位來判斷)

更重要的是,客戶請我根據提供的數據,額外回答第四個問題。

二、理解數據

1)獲取數據

本次項目選用Movie Database,一個可以公開使用的電影數據。

TMDB 5000 Movie Datasetwww.kaggle.com

2)導入數據

3)理解數據

moviedf數據集中,有20個欄位,以下是每個欄位的含義介紹:

● id:標識號

● imdb_id:IMDB 標識號

● popularity:在 Movie Database 上的相對頁面查看次數

● budget:預算(美元)

● revenue:收入(美元)

● original_title:電影名稱

● cast:演員列表,按 | 分隔,最多 5 名演員

● homepage:電影首頁的 URL

● director:導演列表,按 | 分隔,最多 5 名導演

● tagline:電影的標語

● keywords:與電影相關的關鍵字,按 | 分隔,最多 5 個關鍵字

● overview:劇情摘要

● runtime:電影時長

● genres:風格列表,按 | 分隔,最多 5 種風格

● production_companies:製作公司列表,按 | 分隔,最多 5 家公司

● release_date:首次上映日期

● vote_count:評分次數

● vote_average:平均評分

● release_year:發行年份

● budget_adj:根據通貨膨脹調整的預算(2010 年,美元)

● revenue_adj:根據通貨膨脹調整的收入(2010 年,美元)

3)數據清洗

3.1選擇子集

3.2缺失數據處理

3.3數據類型轉換

3.4數據格式轉換

4)數據分析及可視化

問題 一:電影類型是如何隨著時間的推移發生變化的?

解決思路:

1、取出所有的電影類型

2、對電影涉及到的電影類型進行ONE-HOT編碼,並生成按年份匯總的電影類型數據,同時匯總歷年來各電影類型的總量並作圖

3、對前5的電影類型數量進行時間走勢分析

問題 二: Universal Pictures 和 Paramount Pictures 之間的對比情況如何?

解決思路

1、查看兩家公司電影發行總數並做圖分析

2、查看兩家公司歷年的電影發行數量,並比較分析

問題 三: 改編電影和原創電影的對比情況如何?

解決思路

1、查看改編和原創的電影數量

5)總結

5.1從歷史數據來看,拍攝的電影風格類型最多的五種為:Drama、Comedy、Thriller、Action、Romance

5.2 Action、Comedy、Drama、Horror 和 Thriller 等五種類型的電影由少變多,1990年以後電影發行數量增長迅速。

5.3Universal Pictures 和 Paramount Pictures 兩家公司在電影的發行數量分別為314,285,超出10%。

5.4從公司電影發行量時間走勢上看,2005年以後Universal Pictures公司 一直比 Paramount Pictures公司發行的數量多,處於競爭優勢。

5.5原創電影很少,僅占整個電影市場4%的份額。

6)不足之處

時間有限,分析的欄位比較少,後續會把更多的欄位加入,進行更全面的分析。

推薦閱讀:

python 類中__new__ 和 __init__方法區別
11月贈書,總共10本Python書
【Python3網路爬蟲開發實戰】3.1-使用urllib
【Python3網路爬蟲開發實戰】2.5-代理的基本原理
Python 網路爬蟲入門(四)— 破解pexels高清原圖 (附源碼)

TAG:Python | 數據分析 |