自然語言處理透析希拉里和特朗普各自的「演講范兒」

作者:Maixent Chenebaux

編者按當地時間10月9日,美國總統大選兩名候選人第二場公開辯論將登場,特朗普和他的對手希拉里·柯林頓將在聖路易華盛頓大學進行第2場大選辯論,時長90分鐘。

不管是演講或辯論,兩位候選人都有自己獨特的「演講范兒」,使用語義分析和自然語言處理分析兩人的演講風格是件有趣的事情。本文通過自然語言處理分析兩人的總統候選人提名演講,發現了他們在用詞和演講節奏上的不同特點。

◆ ◆ ◆

數據科學可以應用到很多領域。從圖像處理到人工智慧,無所不能。其中之語義分析(semantic analysis),在社交媒體監測中非常有用。本文聚焦於政治,而非推特或臉書的評論分析。

今年7月21日,唐納德?特朗普,在俄亥俄州的克利夫蘭舉行的共和黨全國代表大會的最後一天接受了共和黨總統候選人提名。一周之後的28日,希拉里?柯林頓在費城接受了民主黨總統候選人提名。

在家人和成千上萬粉絲的支持下,他們發表了各自的提名演講。本文對此進行了分析,以期更好地理解這份政治通訊背後隱藏的深意。本文集中在三個特徵上:辭彙、風格和節奏。

◆ ◆ ◆

深扒辭彙

評價誰使用的辭彙量最大的方法之一是看演講者用了有多少獨特的詞。為此需要先去除英語中沒有「意義」的那些詞(如「the」,「a」,「of」等)。這些詞也叫停用詞:具體名單可參照此鏈接Stopwords。其次,重複詞只能計算一次。英語中的名詞單複數,動詞不同人稱時態也用Snowball Stemmer演算法做相應處理: 比如Leaders和Leader算一個詞,Am和Are也算一個詞。

註::想更多了解Snowball Stemmer演算法可以參照這裡Snowball: A language for stemming algorithms

我們發現特朗普的演講大概13%的辭彙是獨特的(全文7460個單詞中有965個不同的主幹詞)。平均每個詞重複7.7次。而希拉里有17%的獨特詞,每個詞平均重複約6次。區別很明顯:特朗普的演講之80%只需要480個詞,而希拉里需要665個詞!多出來38%,意味著我們開始得到一些結果了。

構成候選人演講搞80%的辭彙量

演講的效率部分依賴於演講者的風格。本文試圖找出兩名候選人最心愛的詞。尋找「特朗普范兒」或者「希拉里范兒」的詞,即找出一個候選人中使用最頻繁而在其競爭對手那使用最少的詞。比如,「really」這個詞,在特朗普的演講中出現了15次,在希拉里的演講中僅出現1次。計算的方法之一是計算每個詞的「比值比(odds ratio)」。公式如下:

分子是某個詞在特朗普辭彙表中出現的概率,分母為同樣的詞在希拉里文中出現的概率。取對數使得我們可以高效的進行排序:當二者旗鼓相當時,對數值為0。否則要麼為負(希拉里范兒)或為正(特朗普范兒)。結果如下:

我們注意到的第一件事是,特朗普喜歡用短而常見的詞,反覆使用:真的(really),很好(nice),非常好(great),問題(problem)。還有一點,我們可以感覺到這位共和黨候選人的某種成見:墨西哥,中國,伊朗。總體而言,特朗普關注的似乎更偏向於國際問題。大部分他所提及的外務,旨在煽動恐懼,尋找替罪羊。

而希拉里一方,辭彙的範圍更廣。「希拉里范兒」的詞傾向於較為罕見的詞。希拉里?柯林頓提到「美國」的次數大大多於特朗普:27:5。「希拉里范兒」的詞表提示,希拉里的演講更加著眼於國內事物。她典型的詞包括:一起(together),運動(campaign)和努力(hard)。唐納德?特朗普的名字也多次出現在她的演講中。

認真的讀者會發現,「特朗普」這個詞並沒有出現在「希拉里范兒」的詞表中,這是因為特朗普在他的演講中,多次提到他自己的名字(10次),因此把比值比拉下來了。作為對比,希拉里的名字只提到了2次:一次在希拉里自己的演講中(提到她的丈夫比爾?柯林頓),一次被特朗普提到。並且,「希拉里范兒」的詞「想要(wants)」出現在批評她的對手時(「他想要分裂我們…」,「他想要我們懼怕未來,懼怕彼此」)顯然,希拉里談論了特朗普,而特朗普談論的是…他自己!

所有人都在談論特朗普

我們也可以來看看雙方都在用的詞。它們代表了二者的共識。不出意料,它們是「工作(jobs)」、「國家(country)」、「思考(thinking)」。他們都說了很多次「謝謝」,但方式不同:希拉里特別感謝了一些人,而特朗普主要是在觀眾鼓掌的時候致謝。

◆ ◆ ◆

演講節奏

由於背景的不同,兩位候選人都有自己的節奏。評價語言的內在節奏,一個好的開端是:把演講分割為很多句子,句子再分割成單詞。我們發現,特朗普的演講較長:有625個句子和7460個單詞。而希拉里只用到405個句子和6088個單詞。就是說,特朗普比他的對手,多用了54%的句子,長了23%。

特朗普的平均句子長度是12個單詞,希拉里的句子稍長,平均每句15個詞。大部分特朗普的句子都很短:演講21%由5-6個單子的短句組成。希拉里的句子長度更均勻,12個單詞的是最常見的。

奧巴馬的句子長度是特朗普和希拉里之和

我們看到了特朗普和希拉里的一個明顯區別:特朗普演講簡單明快,而希拉里更加多樣、冷靜。但是等等!她並不是非同尋常:奧巴馬在他的第一次提名演講中,平均每句話用到25.7個單詞,幾乎是希拉里和特朗普之和。奧巴馬的重複用詞也比希拉里少了24%,比特朗普少了42%。我想,這說明,雖然希拉里的節奏要慢一點兒,句子結構要複雜點兒,她的演講風格與對手仍然非常接近。

◆ ◆ ◆

寫在最後

自然語言處理不是一門精確的科學。只能給我們一些線索和元件,據此來理解演講。語料庫也很短,需要更多的分析來提取更精確的特徵。但是從本文的分析,我們發現了什麼?

1. 特朗普談論所有的事情是「真的」,「很好」,「非常好」,而希拉里談論的是如何「為美國」「一起」「工作」。

2. 特朗普談論的是他自己,希拉里談論的是特朗普。雖然希拉里用到了更大的辭彙表,更複雜的句子結構,看起來她或多或少採用了特朗普的說話方式。

3. 奧巴馬的提名演講(兩次均是)採用了更大的辭彙表,複雜得多的句子結構,表明特朗普顛覆性地簡化了這樣國家級的演講。

End.


推薦閱讀:

人工智慧學習筆記(四):對n元字元模型更詳細的數學模型描述
AI+互聯網金融--入職半年總結
爬取bilibili彈幕製作詞雲
NLP選題:6大研究方向助你開啟科研之路
自然語言處理入門學習<七>HMM模型解析

TAG:自然語言處理 |