由數據看電影| 描繪豆瓣電影用戶群畫像
作為一個豆瓣電影用戶,我們時常對豆瓣用戶整體的特徵有著自己的觀察,比如我會覺得豆瓣電影中的動畫片類型評分有時高得離譜,紀錄片的評分似乎也很高,而有時候一些我認為優秀的國產片往往不能達到我期望的評分。這些觀察都是基於自身的主觀經驗的,並沒有客觀量化的數據支撐。如果對豆瓣電影用戶的特徵、偏好做一個量化的分析,從而勾勒出豆瓣電影用戶的群體畫像,對於我們日後如何使用和看待豆瓣的評分都是極有幫助的。
*********************************************************************************************************
0. 數據來源,數據預處理
寫了個爬蟲程序,對於豆瓣收錄的所有電影進行了爬取。爬取時間為2016年4月,所以這個時間之後收錄的電影未包含在本次數據中。爬到的電影總數為7.4萬多部,不過相當大的一部分是電視劇;將電視劇類剔除後,剩下的電影條目為4.2萬多部。
由於採集到的數據有很多不規範的,因此將電影類別、上映年月日、國別等非結構化數據進行了結構化處理,使之後的分析更方便。
*********************************************************************************************************
1. 類型偏好
首先對豆瓣電影用戶的類型偏好做一個簡單的梳理。下面這兩張圖給出了豆瓣收錄各類型影片的數量佔比和評分總人次佔比:
首先,很多電影擁有不止一個類別,在擁有多個類別的情況下,該部影片會被重複計算。本文的數據中共有4.2萬多部影片,影片總共有8.7萬多個類別標籤,平均每部電影擁有2.07個類別。
其次,我們可以看到,最大的影片類別就是劇情片了。豆瓣電影收錄的劇情片總數達到1.98萬部有餘,佔到收錄電影總數的46.8%(也就是說豆瓣收錄的電影有近一半都有劇情片這個標籤),佔到總類別標籤數的23%。跟在劇情片之後,喜劇片、愛情片、驚悚片、動作片分列2-5名。這幾類標籤佔據了總的類型標籤數的一半以上。
從評分總人數來看,最大的影片類別仍然是劇情片(總評分人次達到1.3億多)。愛情、動作、犯罪、冒險、科幻、奇幻等類型的佔比相對於收錄電影數的佔比的基線(baseline)而言,有明顯的上升,說明這幾類電影更收豆瓣用戶的關注;而短片、恐怖片、紀錄片等類型的佔比則有所下降,說明這幾類電影受豆瓣用戶的關注的程度相對較低。
收錄電影數的比例可以看做是基線(baseline),評分總人數的比例可以看做是基於基線使用每種電影類別的平均評分人數進行加權之後的情況。因而如果對電影類型和基線/加權兩個變數做卡方檢驗(chi-square test),就可以知道豆瓣電影用戶對於各類電影的關注程度是不是均勻的。經過檢驗,得出X^2(df=29)=182.17,p<0.001,結果證實了豆瓣用戶對於不同類別的影片的關注度是不同的,這種不同在統計上也是顯著的。
如果將不同類別的電影收錄數、平均評分人數和平均評分畫在一張圖上,我們就可以得到:
其中橫坐標為平均評分,顯示豆瓣用戶的偏好;縱坐標為平均評分人數,反映豆瓣用戶對於各類電影的關注程度;圓圈大小代表各個類型被豆瓣收錄的電影總數。
從平均評分人數來看,災難片類別的平均評分人數最高;但考慮到災難片類別的電影數量很少(120部),這個現象有可能是個偶然現象,即這些受關注的電影恰好都有災難片這個標籤,不過也有可能反映真實情況,即豆瓣用戶的確因為災難片的一些特質(例如超越現實性)更關注這類影片。跟在災難片之後的是,冒險/奇幻、武俠/古裝、科幻、動作等類型。受關注程度最低的影片類型為恐怖、黑色電影、紀錄片、短片等。
從平均評分來看,紀錄片、音樂兩種類型最受豆瓣用戶喜愛;尾隨其後的第二梯隊包括傳記、動畫、歌舞、運動、歷史、戰爭、黑色電影等類型。最不受豆瓣用戶喜愛的影片類型為情色和恐怖片,其次為驚悚、動作、古裝、災難片。
*******************************************************************************************************
2.國別偏好
同樣地,我們也可以對豆瓣電影用戶的國別偏好做一個梳理。下圖為豆瓣收錄不同國別的電影以及不同國別的電影的評分總人次的情況:
因為合拍片的存在,很多電影不止一個製作國家。本文數據中的電影總共有5.12個國家標籤,平均每部電影有1.2個製作國家。這部分在本節中會被重複計算。美國作為世界電影第一大國,也當之無愧地成為豆瓣電影收錄數最多的國家。總共有1.45萬餘部美國電影被豆瓣電影收錄,佔到收錄電影總數的34.27%,佔到電影總的國家標籤數的28.4%。繼美國之後,日本、中國大陸、法國、英國、香港位列2-6位。電影產量很高的印度,被豆瓣電影收錄的電影數並不算多,有4000餘部,位列第17位。
從參與評分的總人次來看,美國繼續領跑,評分總人次達到1.15億,佔到所有電影評分總人次的33.3%。可以說,美國電影吸引了豆瓣電影用戶三分之一的關注度。中國大陸、香港、台灣、美國等國家/地區的份額相較於收錄電影份額有所擴大,說明這些地區的電影受豆瓣電影用戶關注程度較高。而日本、法國、義大利等國家的份額有所縮小,說明這些國家平均每部電影的受關注程度較低。
同樣地,以收錄影片總數份額作為基線,總評分人數份額作為對比,做卡方分析。可以得到X^2(df=26)=240.62,p<0.001,證實了豆瓣電影用戶對於各個國別的電影的關注程度的分配是不均勻的。
如果將各個國家的電影收錄總數、平均評分、平均參與評分的人次放在一張圖上,就可以得到:
可以看到,平均評分人次最高的是香港、台灣、中國大陸三地,反映了豆瓣電影用戶對華語電影圈關注度最高;第二梯隊包括美英加澳等英文圈國家,以及韓國、德國、泰國三個非英文圈國家(其中泰國電影收錄數過少,可能存在偏差)。平均評分人次最低的是前蘇聯、捷克斯洛伐克三個前社會主義國家和其他地區。
從平均評分來看,評分最高的是前蘇聯、捷克斯洛伐克、前西德三個前社會主義國家,之後的是包括英國、法國、義大利等一眾歐洲國家,也是傳統意義上的電影強國。平均評分最低的幾個國家/地區包括中國大陸、泰國、韓國、香港等地;令我吃驚的是,傳說中崛起的韓國電影的平均評分並不高,介於中國大陸和香港的平均評分之間。
和類別評分狀況不同的是,對於國別而言,平均評分和平均評分人次有一定程度的負相關(r=-0.69),即平均評分人次越低的國家,其平均評分越高。二者的因果關係無法確定;不過一個可能的解釋是,對於一些冷門國家和地區,只有一些資深影迷會去發掘這些國家的精品電影,因而評分較高;另外一個可能的解釋是,冷門國家的一般電影因為默默無聞而沒有被收錄,而收錄的都是影片質量相對較高的電影。
*********************************************************************************************************
3.年代偏好
為了便於展示,將年份劃分為以十年為單位的年代(分別是1890年代至2010年代共12個年代)。下圖顯示各個年代收錄電影總數和總評分人次的佔比情況:
從收錄電影總數來看,2000年代收錄電影數最多(因為2010年代還沒過完,所以數量略少),達到1.2萬部,佔比28%。1890年代收錄的電影數最少,只有15部,佔比不到0.1%。1990年代、2000年代、2010年代三個年代加起來佔到收錄電影總數的約70%。從總評分人數來看,也是2000年代的電影總評分人次最多,達到9241萬人次。1990年代、2000年代、2010年代的壟斷程度繼續增加,獲取了90%以上的關注度。對此的卡方檢驗也支持不同年代的受關注程度並不均勻(X^2(df=12)=147.69,p<0.001)。
將各個年代的收錄電影總數、平均每部電影的評分、平均每部電影的評分人數畫出來得到:
從平均評分人數來看,2010年代、2000年代、1990年代遙遙領先,構成第一梯隊,平均每部電影的評分人數在6000-8000人之間。之後便是斷崖式下跌,其他年代平均每部電影的評分人數在2000人左右或者以下。
從平均評分來看,1920年代的電影平均評分最高,達到7.76分;尾隨其後的是1950年代、1940年代、1960年代及1930年代在7.5-7.6分之間扎堆。平均評分最低的是2010年代,僅有6.4分,明顯低過其他年代。
和國別類似,對於不同年代,平均評分和平均評分人數有一定的負相關(r=-0.65);即平均評分人數越高,其平均評分也越偏低。同樣,我們不能確定二者的因果聯繫的有無和方向。不過一個可能的解釋是,年代越早,其電影保存也越差,流傳下來並被豆瓣電影收錄的基本上都是有紀念價值、質量較好的影片;所以雖然這些電影至今受關注程度較低,但看過的人基本上都認為這些影片不錯。
*********************************************************************************************************
4. 為豆瓣電影用戶畫個像
有了以上的一些特徵分析,我們就可以為一個典型的豆瓣電影用戶畫個像(persona)了。但很可惜,因為本文的數據是對電影進行抓取,而不是每個具體的用戶的電影評分數據進行抓取,所以我們沒有辦法對豆瓣電影用戶來進行聚類分析(cluster analysis),從而找出更細分的用戶類別,因而這裡只能把豆瓣電影的所有用戶作為群體,來對這個群體畫個像了。另外一個問題是,以上有些指標的極值反映的只是少數用戶的取向,因而不能直接拿來描述豆瓣電影用戶的整體特徵。
如果將我們觀察到的特徵擬人化,我們可以嘗試去描述一個典型的豆瓣電影用戶。
首先給這個擬人化的豆瓣電影用戶群取個名字,不如叫「小豆」。小豆的照片如下:
(圖片來自豆瓣活動:一起來畫豆瓣娘,侵權即刪;本照片的相貌特徵和以下喜好特徵無關)
那麼,小豆對於電影有著這樣的品味:
// 關於電影類型:
╮(╯▽╰)╭ 對冒險、奇幻、科幻、武俠等類別的電影看得較多;
(???*) 對黑色電影、恐怖片、紀錄片等看得較少;
(^o^)/ 很喜歡音樂/歌舞、傳記/歷史、紀錄片,及動畫類電影;
(??ω?)?? 不喜歡情色、恐怖、驚悚、動作類電影。
// 關於電影國別:
╮(╯▽╰)╭ 對華語圈電影的關注度最高,其次是英語圈和韓德;
(???*) 對北歐、東歐以及世界其他地區的電影關注甚少;
(^o^)/ 認為英、法、意等歐洲國家的電影很不錯,美國整體上一般;
(??ω?)?? 認為國產片、香港、韓國等地區的影片整體上不行。
// 關於電影年代
╮(╯▽╰)╭ 看過的片子基本上都是在90年代及之後的電影;
(???*) 對之前年代的電影涉獵甚少;
(^o^)/ 覺得1920年代至1960年代的電影質量真上乘,1970年代至1990年代的電影也不錯;
(??ω?)?? 電影整體質量最差的年代莫過於當下的2010年代。
******************************************************************************************************
同一系列其他文章:
由數據看電影| 1994年到底是不是電影史上最輝煌的一年 -陶鏖的文章 -知乎專欄
由數據看電影| 國產片是不是真的一年比一年更爛了 - 陶鏖的文章 - 知乎專欄
推薦閱讀:
※《夏洛特煩惱》這部電影好看嗎?
※吳宇森經典歸來 《英雄本色》定檔11月17日,真的嗎?
※經典電影中有哪些喜劇值得推薦?
※有哪些懸疑高智商類影視劇值得大力推薦?
※好想再刷一遍唐探2