標籤:

下一部電影

時下,電影行業火爆,票房記錄不斷被刷。故本次的實踐作業從kaggle:IMDB 5000 Movie Dataset下載數據,對電影行業做一次淺顯的分析。

數據說明:數據是kaggle上的作者從IMDB上面爬取的,故本次的分析並不能準確說明國內電影市場情況。

實踐心得

在這一次的實踐過程中,發現有些包未能安裝上,後來在Ling學姐的提示下,才知道是鏡像出現了問題。因為之前截取的圖片已過期,所以這裡不能提供圖片。平時安裝包都是: install.packages("ggplot2"),如果裝不了則更改鏡像即: install.packages("ggplot2", repos="mirror.bjtu.edu.cn/ ")。

電影行業火爆,並不表示每一部電影都能取得成功,那如何才能拍出一部票房與口碑兼收的電影呢?藉此問題,提出以下幾個思路:

1 當前電影市場情況如何?

a 載入相關的包,並查看數據

對數據進行處理,查看每一年上映電影數量的變化。

由上圖可知,電影的數量總體上程現出遞增的趨勢,特別是在上年世紀末,出現了爆炸式增長。

b 查看每一年的收益情況

由上圖可以看出,年收益分析受到個別極值的影響(2008年的金融危機),故需對數據進一步處理。

由上圖可知,年收益情況雖然出現較大的波動,但總體還是程現上升的趨勢。故盈利的可能性較大,可以進行拍攝投資。

c 對電影口碑分析

由上圖可知,雖然每年拍攝電影的數量在不斷地增加,但電影的評分卻有著下降的趨勢,可能是過多地追求商業利益所致,想必這也是很多人喜歡上個世紀90年代電影的原因。

2 拍出好電影的導演有哪些?

對數據進行處理,提取評分前10名的導演。

3 受人們喜歡的演員有哪些?

處理數據,提取出在facebook上最受喜歡的前10名主角。

說明:數據上面並沒有分男女演員,故這裡只對主角進行分析。

4 哪種類型電影容易受人喜歡?

提取數據繪製箱形圖

基本上讀不出什麼信息,受極值影響太大,故需進一步處理。

這裡有必要對美國的電影分級進行說明一下:美國電影分級制度,從中位數上來看,PD-13級的電影最容易受到人們的需愛,但R級和PG級的電影有較多的異常值,故此類電影部分影片受人們的歡迎程度更高。

5 哪種類型電影收益高?

由上圖可知,拍攝數量較多的電影為G級,PG級和PD-13級,其中PG極的電影收益相比於其他兩類更高一些,但PG-13級有一些高收益的影片。

6 綜合受歡迎程度與收益情況兩因素進行分析

由一圖可知,高收益的電影不一定受人喜歡,同樣,受人喜歡的電影也不一定能獲得較高的收益,對於二者是否存在著怎樣的線性關係,之後對統計學進行學習再做進一步分析。

7 全美票房排名前10的電影

總結

1 每年電影拍攝數量增加,總體收益也不斷遞增,故可以考慮進行拍攝或者投資。

2 導演選擇可以是:John Blanchard、Cary Bell、Mitchell Altieri、Sadyk Sher-Niyaz、Charles Chaplin、Mike Mayhall。

3 演員人選可以是:Darcy Donavan、Matthew Ziff、Krista Allen、Andrew Fiscella、Jimmy Bennett、Michael Joiner。

4電影類型的選取建議是:PG級和PG-13級。

推薦閱讀:

如何構建『金字塔式』用戶運營體系?
運營做數據分析都會犯的幾個錯
惠眾在線行業情報|互聯網改變下的傳統節日
用簡單線性回歸分析學習時間與考試分數間的相關性
5機器學習入門:Kaggle和泰坦尼克號預測

TAG:數據分析 |