計算語言學揭示現代英語小說中普遍存在的性別偏見現象

計算語言學揭示現代英語小說中普遍存在的性別偏見現象

來自專欄 DeepTech深科技16 人贊了文章

研究人員對入圍布克獎的小說進行了數據挖掘,發現男性大多被描述為才華橫溢、無情的人,而對女性的描述則是年輕可愛

性別偏見是社會中存在的一個潛在問題,滲透到我們的文化、工作場所、甚至我們的語言當中,通常以我們察覺不到的方式存在著

改變性別偏見的第一步是發現偏見存在的地方,而這正是新興的計算語言學的用武之地。這個相對較新的學科通過使用數據挖掘和機器學習來研究文本。揭示了從維基百科文章到語言本身的各種偏見。

圖|布克獎入圍的小說中與男性和女性術語相關的形容詞。(來源:麻省理工科技評論)

布克獎被提名為世界最高文學獎之一每年被授予給最好的英文原創小說,但在近日,IBM 印度公司的 Nishtha Madaan 和他的同事們使用計算機語言學揭示布克獎的文學作品中存在顯著的性別偏見。

他們所用的方法相對簡單。Madaan 和他的同事考慮了 1969 年至 2017 年間入圍該獎項的所有書籍,總共約 275 部小說。研究小組並沒有分析小說中的文本,而是研究了 GooDreads 網站上關於這些圖書的描述。GooDreads 是亞馬遜的一個社交目錄,可以免費獲取超過 4 億冊圖書的描述、評論和評分。然後他們研究了男性和女性在這些圖書評論中是如何被描述的。Madaan 等人說:「這揭示了書中在職業和與人物言行舉止等方面都普遍存在著性別偏見和刻板印象。」

首先,在這些書中,女性被提及的次數遠遠少於男性,提及女性平均約為 15 次,而男性為 30 次。同時,書中對男性和女性的描述也非常不同。為了說明這一點,Madaan 和他的同事從文本中提取了與男性和女性術語相關的形容詞。然後,他們做了詞雲以顯示在不同的性別中哪些詞語出現的頻率更高。研究小組還通過提取角色的職業分別創造出男性和女性的詞雲來研究刻板印象。男性的高頻職業是:醫生、心理學家、教授、科學家、商界人士、董事等等。相比之下,女性的高頻職業是:教師、講師、護士、妓女、童養媳等等。Madaan 等人說:「我們觀察到,在分析男性和女性的職業時,較高級別的職業被指定給男性而較低級別的職業則被指定給女性。」

然而,性別偏見現象目前也有一些積極的變化跡象。研究小組說,近幾年來,在入圍的書籍中,已經開始有女性扮演核心角色。其中包括 Madeleine Thien 的《Do Not Say We Have Nothing》, Ali Smith 的《How to be Both》和 Karen Joy Fowler 的《We Are All Completely Beside Ourselves》等。

這項研究是一項有趣的工作,但也有一些缺點。其中最重要的問題是,團隊沒法清楚地描述所收集的數據這個資料庫的大小、資料庫中的文本在何時由何人所寫。這些問題使得這項工作難以評估。例如,書中的描述可能不是作者自己寫的,而是 Goodreads 的記者寫的。因此,有些偏見可能來自這位記者,而不是書的作者

當然,這些書籍的作者可能會爭辯說,他們的小說揭露了偏見及其對社會的影響。基於這個原因,小說必須在文本中明確反映這種偏見,例如作者可能要表明,他原本就沒打算創作一部性別平等的小說。

儘管如此,這篇論文顯示了計算機語言學在具有文化意義的作品中探索偏見的潛力。事實上,作家們已經使用這一技術來探索寶萊塢電影劇本中是否偏見,並發現了一些性別方面的陳舊觀念,特別是在職業選擇上。

該小組還在開發一種消除偏見的機制。這種機制對入圍布克獎的小說有多大用處還不清楚,但它無疑突出了一個需要得到更多關注的問題

參考:

Computational linguistics reveals pervasive gender bias in modern English novels?

www.technologyreview.com圖標
推薦閱讀:

TAG:計算語言學 | 語言學 | 理論語言學 |