Python進行電影數據分析及可視化
一、提出問題
作為一名業務分析師顧問,客戶是一個電影製作新公司,他們將製作一部新電影。客戶想確保電影能成功,從而使新公司立足市場。他們希望我能幫助他們了解電影市場趨勢,使他們能做出正確的決策。他們提供了指導,希望我能研究以下三大領域:
- 問題 1:電影類型是如何隨著時間的推移發生變化的?
- 問題 2: Universal Pictures 和 Paramount Pictures 之間的對比情況如何?
- 問題 3: 改編電影和原創電影的對比情況如何?(通過keywords變數中的based on novel欄位來判斷)
更重要的是,客戶請我根據提供的數據,額外回答第四個問題。
二、理解數據
1)獲取數據
本次項目選用Movie Database,一個可以公開使用的電影數據。
TMDB 5000 Movie Dataset2)導入數據
3)理解數據
moviedf數據集中,有20個欄位,以下是每個欄位的含義介紹:
● id:標識號
● imdb_id:IMDB 標識號
● popularity:在 Movie Database 上的相對頁面查看次數
● budget:預算(美元)
● revenue:收入(美元)
● original_title:電影名稱
● cast:演員列表,按 | 分隔,最多 5 名演員
● homepage:電影首頁的 URL
● director:導演列表,按 | 分隔,最多 5 名導演
● tagline:電影的標語
● keywords:與電影相關的關鍵字,按 | 分隔,最多 5 個關鍵字
● overview:劇情摘要
● runtime:電影時長
● genres:風格列表,按 | 分隔,最多 5 種風格
● production_companies:製作公司列表,按 | 分隔,最多 5 家公司
● release_date:首次上映日期
● vote_count:評分次數
● vote_average:平均評分
● release_year:發行年份
● budget_adj:根據通貨膨脹調整的預算(2010 年,美元)
● revenue_adj:根據通貨膨脹調整的收入(2010 年,美元)
3)數據清洗
3.1選擇子集
3.2缺失數據處理
3.3數據類型轉換
3.4數據格式轉換
4)數據分析及可視化
問題 一:電影類型是如何隨著時間的推移發生變化的?
解決思路:
1、取出所有的電影類型
2、對電影涉及到的電影類型進行ONE-HOT編碼,並生成按年份匯總的電影類型數據,同時匯總歷年來各電影類型的總量並作圖
3、對前5的電影類型數量進行時間走勢分析
問題 二: Universal Pictures 和 Paramount Pictures 之間的對比情況如何?
解決思路
1、查看兩家公司電影發行總數並做圖分析
2、查看兩家公司歷年的電影發行數量,並比較分析
問題 三: 改編電影和原創電影的對比情況如何?
解決思路
1、查看改編和原創的電影數量
5)總結
5.1從歷史數據來看,拍攝的電影風格類型最多的五種為:Drama、Comedy、Thriller、Action、Romance
5.2 Action、Comedy、Drama、Horror 和 Thriller 等五種類型的電影由少變多,1990年以後電影發行數量增長迅速。
5.3Universal Pictures 和 Paramount Pictures 兩家公司在電影的發行數量分別為314,285,超出10%。
5.4從公司電影發行量時間走勢上看,2005年以後Universal Pictures公司 一直比 Paramount Pictures公司發行的數量多,處於競爭優勢。
5.5原創電影很少,僅占整個電影市場4%的份額。
6)不足之處
時間有限,分析的欄位比較少,後續會把更多的欄位加入,進行更全面的分析。
推薦閱讀:
※python 類中__new__ 和 __init__方法區別
※11月贈書,總共10本Python書
※【Python3網路爬蟲開發實戰】3.1-使用urllib
※【Python3網路爬蟲開發實戰】2.5-代理的基本原理
※Python 網路爬蟲入門(四)— 破解pexels高清原圖 (附源碼)