IMDB——python數據分析報告
1.提出問題
在一部電影上映之前,我們如何知道這部電影會取得成功,受到人們喜歡?如果我們可以預測結果,這將幫助電影製作人做出正確的決策。根據客戶提供的數據,首先確定我們的分析問題,本次項目分析主要針對以下問題進行數據分析:
- 電影類型是如何隨著時間的推移發生變化?
- 某兩家電影製作公司之間的對比情況如何?
- 改編電影和原創電影的對比情況如何?
- IMDB電影庫關鍵詞雲
2.採集數據
- 方法一: 從互聯網電影資料庫IMDB利用Python爬蟲框架Scrapy進行電影信息爬蟲,將提取的信息保存到.csv文件中,如何爬蟲參考該篇文章,
https://nycdatascience.com/blog/student-works/web-scraping/movie-rating-prediction/
- 方法二: kaggleIMBD電影項目下載數據:
TMDB 5000 Movie Dataset
3.數據欄位
首先,對數據中變數的含義進行梳理:
梳理如下:電影數據中有20個變數,演員名單中有4個變數,變數如下:
1、budget 預算 2、genres 電影風格 3、homepage 電影首頁的URL
4、id:標識號 5、keywords 關鍵字 6、original_language: 電影語言
7、original_title: 電影名稱8、overview:劇情概要
9、popularity:在Movie Database 上的相對頁面查看次數,受歡迎度
10、production_companies:製作公司 11、prodacution_countries: 製作國家
12、release_date: 上映時間 13、revenue: 收入 14、runtime: 電影時長
15、spoken_languages 口語 16、status:狀態 17、tagline: 電影的標語
18、title: 主題 19、vote_average: 平均評分 20、vote_count:評分次數
21、title:電影名稱 22、 movie_id 電影編號 23、cast 演員信息 24、crew 劇組演員信息
初步信息觀察,發現兩個重複數據:電影編號,電影名稱,因共有22個變數
代碼參考:
宣雁鴻:IMDB 5000+ Movie Dataset 分析推薦閱讀:
※不同需求下可視化圖形選擇(翻譯)
※mysql查詢初級 50道練習題(語句親測無錯)
※Python 數據分析學習路線
※數據篇(1):數據分析
※如何用Python來EDA數據分析
TAG:數據分析 |