下一部電影
數據說明:數據是kaggle上的作者從IMDB上面爬取的,故本次的分析並不能準確說明國內電影市場情況。
實踐心得
在這一次的實踐過程中,發現有些包未能安裝上,後來在Ling學姐的提示下,才知道是鏡像出現了問題。因為之前截取的圖片已過期,所以這裡不能提供圖片。平時安裝包都是: install.packages("ggplot2"),如果裝不了則更改鏡像即: install.packages("ggplot2", repos="http://mirror.bjtu.edu.cn/ ")。
電影行業火爆,並不表示每一部電影都能取得成功,那如何才能拍出一部票房與口碑兼收的電影呢?藉此問題,提出以下幾個思路:
1 當前電影市場情況如何?
a 載入相關的包,並查看數據
對數據進行處理,查看每一年上映電影數量的變化。由上圖可知,電影的數量總體上程現出遞增的趨勢,特別是在上年世紀末,出現了爆炸式增長。b 查看每一年的收益情況
由上圖可以看出,年收益分析受到個別極值的影響(2008年的金融危機),故需對數據進一步處理。由上圖可知,年收益情況雖然出現較大的波動,但總體還是程現上升的趨勢。故盈利的可能性較大,可以進行拍攝投資。c 對電影口碑分析
2 拍出好電影的導演有哪些?
對數據進行處理,提取評分前10名的導演。
3 受人們喜歡的演員有哪些?
處理數據,提取出在facebook上最受喜歡的前10名主角。
說明:數據上面並沒有分男女演員,故這裡只對主角進行分析。
4 哪種類型電影容易受人喜歡?
提取數據繪製箱形圖
基本上讀不出什麼信息,受極值影響太大,故需進一步處理。這裡有必要對美國的電影分級進行說明一下:美國電影分級制度,從中位數上來看,PD-13級的電影最容易受到人們的需愛,但R級和PG級的電影有較多的異常值,故此類電影部分影片受人們的歡迎程度更高。5 哪種類型電影收益高?
由上圖可知,拍攝數量較多的電影為G級,PG級和PD-13級,其中PG極的電影收益相比於其他兩類更高一些,但PG-13級有一些高收益的影片。
6 綜合受歡迎程度與收益情況兩因素進行分析
由一圖可知,高收益的電影不一定受人喜歡,同樣,受人喜歡的電影也不一定能獲得較高的收益,對於二者是否存在著怎樣的線性關係,之後對統計學進行學習再做進一步分析。7 全美票房排名前10的電影
總結1 每年電影拍攝數量增加,總體收益也不斷遞增,故可以考慮進行拍攝或者投資。
2 導演選擇可以是:John Blanchard、Cary Bell、Mitchell Altieri、Sadyk Sher-Niyaz、Charles Chaplin、Mike Mayhall。
3 演員人選可以是:Darcy Donavan、Matthew Ziff、Krista Allen、Andrew Fiscella、Jimmy Bennett、Michael Joiner。
4電影類型的選取建議是:PG級和PG-13級。
推薦閱讀:
※如何構建『金字塔式』用戶運營體系?
※運營做數據分析都會犯的幾個錯
※惠眾在線行業情報|互聯網改變下的傳統節日
※用簡單線性回歸分析學習時間與考試分數間的相關性
※5機器學習入門:Kaggle和泰坦尼克號預測
TAG:數據分析 |