豆瓣電影 數據分析

豆瓣電影 數據分析

來自專欄大數據前沿139 人贊了文章

一. 前言

之前看知乎上有一個問題,豆瓣上一共收錄了多少部電影?

我也比較好奇豆瓣上到底有多少部電影,然後我就試著抓取了豆瓣上我能找到的全部的電影,數據量大概是5.6W+的樣子,和知乎上別人的答案也比較相似(別人的回答大概4W-5W,到2017年數據),我是獲取到目前2018年最新的全部數據,也做了數據去重,數據量大概就是這個樣子(當然也有些人得回答說有10W+的,我看下面的評論也說了,每個人對影視理解不同,那些10W+,甚至數據量更多的,是把電視劇,綜藝等等都算進去了的,我這個數據是電影的數據,不包括電視劇那些)

既然獲取了數據,那肯定要分析一下呀,豆瓣電影的各種詳細的數據,評分,影評等等在國內同類型網站中,算是高質量的,所以進行數據分析也是有價值的。


二. 數據分析及可視化

1. 評分分布情況

可以看出豆瓣電影的評分分布情況基本是符合正態分布的,我計算了一下豆瓣全部電影評分的均值,為6.8分,2000年以後的豆瓣電影評分均值為6.6分(0,10分)。

中國大陸電影評分分布情況

大陸電影全部電影評分的均值,為6.1分,2000年以後的大陸電影評分均值為5.6分(0,10分)。

2. 每年電影數量變化情況

2000年以後的電影數量變化情況

2010年以後,上半年,下半年為區分,電影數量變化情況

豆瓣上收錄的電影,最早的一部是1878年的,一部美國電影(準確說是一部短片)---飛馳中的薩利·加德納,一直到2017年(2018年的數據不全,就沒有將其可視化出來),可以看出來,每年電影的數量整體是很明顯的上升的趨勢,從2016年到2017年的數據來看,又有較明顯的下跌,到2016年,這年的電影數量是一個頂峰值,因為2018年的數據不全,所以不好(預測)判斷電影數量是否會一直下降下去。

3. 豆瓣的各項評分,評論等等參數之間的相關係數關係

這張圖顯示的是兩個變數間的皮爾遜相關係數(兩個變數間協方差和標準差的商),越接近1代表正相關,越靠近-1代表越負相關,0就是代表這兩個變數間增長沒有任何關係,「rates」表示評分(10分滿分),「star」表示豆瓣星級(5星為滿級),「一星,二星,三星,四星,五星」,分別代表其佔比情況,「想看」表示這部電影想看的人數,「看過」表示這部電影看過的人數,「短評數」,「評價數」分別代表這部電影的寫了短評的人數及評價了的人數(打了分就算評價,不用寫評論),「year」表示年份。再看一下每兩個變數之間的具體關係情況。

短評數量和看過人數之間的關係(正相關);

二星佔比和四星佔比之間的關係(負相關)

4. 每年電影評分佔比情況

很多時候,不知道大家會不會有個感覺,現在的爛片是越來越多,好看的電影是一年比一年少,而多年前拍的電影比現在的電影質量好,這個感覺究竟是錯覺,還是真實情況呢,現在從數據的角度來看一下

2000年以後均值以上和均值以下電影佔比變化情況

2000年以後5分以下和5分到6.6分電影,以及6.6分以上的佔比變化情況(6.6分是2000年以後電影評分均值)

熱力圖顯示每年具體數量情況

每年評分分布直方圖

從以上數據中,不難發現,

(1)原來爛片是真的在變多,2000年以後,低於均值6.6分的電影的佔比是逐年遞增;

(2)5分到6.6分的佔比幾乎沒有什麼變化,但是,隨著時間增加(年),5分以下的電影數量佔比卻是一直在增加,而且,其佔比的增長趨勢是越來越明顯;

(3)....(自己看數據分析);

所以,感覺近幾年的電影,越來越難看,爛片越來越多,並不只是個人的主觀意識,而實際就是電影難看,爛片多

而且國產爛片居然承包了豆瓣爛片榜前五名

女媧日記榮獲豆瓣爛片之王,評分倒數第一,前無古人,後.....

很多人都不知道豆瓣最低分是多少,沒錯,就是這部 女媧日記,2.0分

5.每年電影均值變化情況

中國大陸電影評分均值,及按照季度劃分變化情況

圖一

圖二

全部電影評分均值,及按照月份劃分變化情況

圖三

圖四

(1)中國大陸電影沒有和「國際接軌」呀,從評分均值上來看,中國大陸電影在用力拖拽國際平均分呀;

(2)7,8月份和第三季度(7,8,9月)的電影評分均值都相對比較低,不管是全部的數據,還是只看中國大陸的數據;

(3)不管是中國大陸電影評分的數據,還是全部電影的評分數據,感覺都是一路在走低的趨勢,不過到2017年,評分均值都有小幅度的上升,看來是在2016年觸底反彈了;

(4)因為2018年數據不全,只在圖三上放有2018年的均值記錄,僅做參考,不過從趨勢上來看,和2017年比較,電影均分是在增加的;

6. 豆瓣電影評分分布情況

(1)從均分的分布情況來看出來,評分分布最多的區間大概是6.5~7.5分之間,和我們計算的評分均值--6.8分也是不衝突的;

(2)整體來看,大部分電影都是超過5分的,所以說5分以下的電影是爛片一點也不過分。

7. 不同國家的電影總數量分布

米國的電影數量果然多,其次就是中國大陸,日本,不過比較驚訝的是,原來豆瓣上收錄的電影,法,英,德都是超過韓國的(我以為韓國會很多)

8. 不同國家的評分均值情況

這裡我只統計了,豆瓣收錄某個國家或地區的電影,且收錄數量超過500的國家或地區的數據(因為電影數量太少,比較均值意義不大,有些國家就一兩部電影,靠這個來評估數據不準確),比如;

這些是均值排名最前面的10個國家,但是這些國家都只有1-3部電影,數據量太少,不具備廣泛性,以此數據來代表一個國家或者地區的均值情況,統計出來的結果不是很科學。

收錄數量超過500的國家或地區

電影數量500+的國家或地區評分均值,及數量分布情況

電影數量500+的國家或地區評分均值,及數值分布情況

從上圖中可以看出

(1)美國的電影數量最多(之前已經得出過這個結論),中國大陸的電影均分最低;

(2)英國電影的評分均值最高,也就是說相對來講,英國的電影的質量最高,不過從離散值也可以看出來,英國有部分數據的離散值很低,比如:「圍攻唐寧街 」,豆瓣2.4分,但還是沒有國產神劇2.0分低;

(3)豆瓣收錄有500+電影的的國家或者地區,大部分是發達國家,或者是中國,印度這種人口大國,說明電影數量的多少,可能和一個國家或地區的發達程度有一定的關係;

(4)...

9. 豆瓣高分電影的分布情況

豆瓣評分超過9.0的國家或地區的電影

豆瓣評分超過9.5的國家或地區的電影

電影評分9.0及以上的國家或地區(45個)的電影數量

電影評分9.5及以上的國家或地區(18個)的電影數量

(1)圖中一個點代表一個國家,其中英國的9.5以上的電影的數量最多,其次是美國,日本,

說明英國的高分電影確實多,也和之前的結論想吻合--「英國的電影的質量最高」;

(2)9.0以上的電影,美國最多,但因為美國電影的數量基數最大,這個也屬於正常情況,第二名還是英國,說明英國電影果然值得推薦,而且英國的電影數量基數不算特別大,只有美國的1/3不到;

10. 一個國家電影數量與電影評分的關係

圖中一個點表示一個一個國家,比如最右邊偏上的那個點,表示的是美國,因為美國的電影數量最多,通過置信區間來判斷,隨著電影數量的增加,電影評分均值是下降的趨勢,看來拍的電影越多,爛片率也越高,當然爛片也就越多;

我覺得這也可以解釋為什麼2016年的電影數量最多(回過頭去看,上面有分析的圖),但是2016的電影評分均值卻最低(上面也有圖有分析),2017年電影數量有所下降,對應的電影的均分就有所提高;

所以,結論,拍電影越多,爛片率越高,爛片越多

三. 文末

放一點福利吧

統計了下看過人數最多的和評分高的,前20部電影

沒看過這些電影的抽空趕快去補補吧

推薦閱讀:

數據可視化分析軟體:新聞可視化即將登上舞台(一)
利用gganimate可視化R-Ladies發展情況
什麼是決策支持系統
Power BI 圖表庫 五月新增圖表
R學習整理筆記(四)——用wordcloud2包生成文字雲

TAG:數據分析 | 數據可視化 | 豆瓣電影 |