頒獎烏龍就算了,怎麼還性別歧視,好萊塢電影怎麼了?數據笑而不語

原作者 Amber Thomas

編譯 CDA 編譯團隊 Mika

本文為 CDA 數據分析師原創作品,轉載需授權

頒獎烏龍

第 89 屆奧斯卡頒獎典禮昨日落幕,《愛樂之城》無非是最大的贏家。但原本波瀾不驚未現黑馬的頒獎典禮居然在最後一刻爆出史上最大烏龍:先是宣布《愛樂之城》獲得最佳影片獎,然而劇組獲獎感言都快說完了,又被突然攔住說獎項頒錯了,最佳影片獎應是《月光男孩》。

真是隔著屏幕都能感到尷尬。

無緣影帝,又被假最佳影片叫上台的高司令,還要在台上祝賀《月光男孩》劇組。心疼高司令一秒。

那麼昨天頒獎烏龍對網路熱搜產生了什麼影響呢?頒獎烏龍時約為北京時間 13 點左右,根據谷歌指數此時奧斯卡搜索指數達到最高點。

入圍最佳電影的熱搜變化如下,在頒獎烏龍後,獲得最佳影片的《月光男孩》搜索逐漸趕超《愛樂之城》。

奧斯卡相關搜索可見,關於奧斯卡頒獎烏龍的搜索量特別高。

主辦方解釋頒獎烏龍的原因是因為工作人員錯把「最佳女主角」的備用信封當成了「最佳影片」的信封,給了頒獎嘉賓沃倫·比蒂,而備用信封上寫著「艾瑪·斯通,《愛樂之城》」。

不可否認石頭姐獲得最佳女主角實至名歸,但石頭姐表示這個鍋我不背。

奧斯卡頒獎烏龍,就算把最佳女主角的頒獎卡拿出來當作最佳影片念一遍,也擋不住電影裡面的女性角色戲份越來越少。

好萊塢電影背後的性別歧視

透過數據,我們看到頒獎烏龍帶來的蝴蝶效應。

同樣,通過數據美國有個女程序員 Amber Thomas 發現了好萊塢電影中居然還存在性別歧視。

這一切的起因還要從這張《星球大戰外傳:俠盜一號》(以下簡稱《星戰》)的海報說起。

有這麼一個不成文的定律:

一般在海報中當一個人的照片比其他人大好幾倍時,那這個人多半是主角。

這張海報中可以清楚的看到主角就是 Jyn Erso 。

但容易忽略 Jyn 是這種海報上唯一的女性角色。這也同樣反映到這部電影中,不僅女性角色屈指可數,很多時候Jyn是眾多場景中唯一的女性。

此情此景如 1977 年《星球大戰》中 Princess Leia 的情況如出一轍。

那麼在 39 年後的今天,

好萊塢電影中性別比例失衡的改觀了嗎?

好萊塢電影中女性逐漸掌握話語權了嗎?

帶著這些質疑,Amber 開始了她的數據分析。她根據 the numbers 提供的2016年全球票房前十的影片為研究對象,這十部電影分別是:

美國隊長 3 :內戰

海底總動員 2 :多莉去哪兒

瘋狂動物城

奇幻森林

愛寵大機密

蝙蝠俠大戰超人:正義黎明

星球大戰外傳:俠盜一號

死侍

神奇動物在哪裡

X特遣隊

這些電影中都有許多令人印象深刻的女性角色,那麼從中自然能看到些性別的平等吧?

出於程序員的嚴謹,Amber 決定用數據說話。證明這個觀點,我們需要這幾步:

數據

代碼

數據可視化

數據

現在確定了研究對象,還需要確定數據來源。有些類似的數據分析項目常常根據人物台詞和出鏡時間為判斷的標準。這都是不錯的選擇,但是 Amber 希望更深入的探討電影和角色的關係。

最終她選擇了男女角色的台詞比重這一角度切入。這樣能夠專註於在故事中發揮積極作用的角色,並去除沒有台詞的角色。

有很多粉絲會整理電影中台詞,並且免費分享。對於找不到台詞的電影,Amber 只能對照字幕文件一個個整理。顯然這一過程是費時的,但是結果證明這都是值得的。

分析

一旦有了台詞,只需要把 txt 文件導入 R,然後把角色和台詞分開分析。以《星戰》為例,操作如下:

# Installing Necessary Packages

# For Web Scraping Transcripts

library(rvest)

library(curl)

# For Data Frame Manipulation

library(dplyr)

library(tidyr)

library(stringr)

library(stringi)

# Import Transcript (with formatting)

RO <- readLines("RogueOneTranscript.txt")

# Convert to Data Frame

RO <- as.data.frame(RO)

# Remove empty rows

RO <- RO %>%

filter(!(RO == ""))

# Separating Character from words

RO_full <- RO %>%

separate(col = RO, into = c("Character", "Words"), sep = ":", extra = "merge") %>%

# Eliminate script notes

filter(!is.na(Words)) %>%

# Trim white space and convert Character to factor

mutate(Character = as.factor(str_trim(Character)),

Words = str_trim(Words))

現在我們有了角色和台詞的數據框架,然後需要判定每個角色的性別。

為了保證分類的一致性,制定了以下規則:

1. 儘可能根據指稱角色的代詞來分判定配性別。 如果一個角色被稱為「 he 」或「 him 」,則他被歸類為「男性」。

2. 如果電影該角色沒有代詞指稱,但是角色在 IMDB 上有被標註,則使用演員或女演員的性別。

註:演員的性別根據截止至 2017 年 1 月的公開信息判定。(美帝程序員真是嚴謹)

3. 如果沒有角色代詞指稱,並且角色未標明演員,則參考字幕(有時會表明角色性別)。

4. 如果以上規則都不適用,則根據角色的聲音判定性別。

顯然這些規則存在著缺陷,這裡有一些注意事項:

1. 如果男性角色由女演員配音(反之亦然),且該角色從未用代詞指稱,他可能被判斷錯誤。 (這裡可能性很小,但是不排除。)

2. 電影中若出現不具有實體角色的聲音(例如,電影中電腦的聲音),則根據配音演員的性別分類。

3. 真正判定所以角色的性別有一定,但將儘可能利用所擁有的提示和信息。

所以現在我們只需要計算每個角色的台詞數。 這些通過 dplyr 和 stringipackages 在 R 中就能輕鬆實現。

# Counting words per character

RO_full2 <- RO_full %>%

mutate(count = stri_count(Words, regex = "\S+")) %>%

group_by(Character, Gender) %>%

summarise(Total_Words = sum(count)) %>%

filter(!(Gender == "unknown"))

數據可視化

現在我們得到了數據結果。但是,僅僅顯示台詞數量和角色的表不僅枯燥,而且也不直觀。

哪種形式最利於展現結果呢?

散點圖和條形圖顯然不太合適。

一個簡單的氣泡圖似乎是不錯的選擇,但很看清不同角色的台詞比重。

最終, Amber 決定用 d3.js 來製作互動式圖形。 每個氣泡表示一個角色,並且氣泡的面積等同於該角色的台詞比重。 同時男女台詞的的氣泡可以分開,表現更清晰。下方的條形也清晰的表明了電影中角色性別佔比以及性別台詞佔比的信息。

結論

最終我們得到的結論如下圖:

在 2016 年全球票房前十影片中:

沒有一部影片中(有台詞的)女性角色佔比達到 50% 。

《海底總動員 2 :多莉去哪兒》性別比重最為平等,(有台詞的)女性角色占 43% 。但要完全實現平等的話,起碼還需要 8 個(有台詞的)女性角色。

《星戰》在這點上是最糟糕的,(有台詞的)女性角色僅占 9% 。 且所出現的 10 個女性角色中,有 1 個是電腦的聲音; 1 個在屏幕上出現不足 5 秒;還有 1 個是只說了一個詞的 CGI 角色。

只有一部影片中 50% 的台詞是女性角色所說的。

《海底總動員 2 :多莉去哪兒》中女性台詞比重 53% 。 但是,這些台詞的 76% 都來自多莉這一個角色。

最後一名是《奇幻森林》,女性台詞僅占 10% 。 注意:電影中斯嘉麗·約翰遜作為雄性蛇 Kaa 的配音。(心疼女神一秒)

我們還可以看到:

·《海底總動員 2 :多莉去哪兒》和《瘋狂動物城》是 2016 年全球票房前十中唯一的兩部電影中女性角色台詞最多的。

·《美國隊長 3 :內戰》中的女角色遠遠低於男性角色,僅占 5 分之一。在整個電影中,女性角色只貢獻了 16% 的台詞。

·《蝙蝠俠大戰超人:正義黎明》中蝙蝠俠的台詞比超人多 2.4 倍,比神奇女俠多6倍。

·《星戰》中 78% 的女性台詞都來自 Jyn Erso 。

·雖然小丑女 Harley Quinn 是《X特遣隊》中大力宣傳的角色,但是她的台詞只有威爾史密斯飾演的 Floyd/Deadshot 的 42% 。同時影片中另一個女性角色, Viola Davis 飾演的 boss —— Amanda Waller 僅說了 222 個單詞,僅為Deadshot台詞的 16% 。

開始這個項目時,只是感覺《星戰》中台詞男女分配不均。結果分析完發現 16 年的十大熱門電影中幾乎沒有一部是性別平等的。

好萊塢,我們可以做得更好。

ref:

medium.freecodecamp.com


推薦閱讀:

神劇導演?奧斯卡影后?很多年前有人為她殺了美國總統…
愛德華·諾頓初次上陣拿下奧斯卡提名,用出乎意料的結局詮釋何為「一級恐懼」
百年奧斯卡影后時髦史
《雌雄莫辨》:隱姓埋名、女扮男裝20年、當「冤大頭」追求店花,直到死才揭示的真相卻有些悲涼……
奧斯卡不應該只有「最大贏家」

TAG:奥斯卡颁奖典礼 | 数据分析 | 奥斯卡 |