傳統民調和大數據方法的pk:特朗普當選尷尬了誰?

導語

2016年美國總統大選中特朗普的意外當選讓傳統民意調查陷入尷尬境地。在社交媒體盛行的時代,大數據方法對了解民意尤其是網路輿情似乎有著天然的優勢,但是否因此可以認為民意調查的傳統方法已經過時?

本文從2016年美國大選出發,基於對傳統民意調查方法和大數據分析優劣勢的比較分析,認為在分析社會輿情時,一方面應該加快發展大數據方法以把握網民心態,另一方面也應借鑒傳統民意調查方法的邏輯和抽樣原則,以回應網路輿情無法囊括的群體及相關問題等。

2016年美國總統大選和特朗普當選引起了全球高度關注,大選過程中傳統民調的預測失誤更是引發了眾多討論。

在大數據方興未艾的背景下,對傳統民調的反思和批評顯得頗為意味深長。究竟是二者各有優缺點還是大數據更優於傳統民調方法?美國民意調查的發展經驗及面臨問題對中國有何啟示?

本文認為,一方面,美國大選中傳統民調預測出現偏差並不能說明傳統民調的抽樣方法和研究邏輯失去了用武之地;另一方面,大數據方法的作用不宜過分誇大,但它對準確把握社交媒體時代的輿情具有越來越重要的作用。

因此,我國在研究和應對網路輿情時,應將傳統民調方法與大數據方法結合起來,從而準確把握社會心態,提高輿情應對的科學性。

01美國大選中的傳統民調與大數據方法

2016年美國總統大選的結果讓不少民意研究學者們感到意外,因為事先絕大多數傳統民意調查、主流媒體並不看好的特朗普,卻一舉擊敗希拉里當選美國下一任新總統。

在本次美國大選中,諸如微軟必應團隊、矽谷Unanimous AI、UNO系統、Greg、Nate Silver等均預測希拉里當選。自上世紀30年代以來,以蓋洛普創辦的美國輿論研究所為代表,傳統民調因其抽樣方法的科學性、調查結果預測的準確性而廣受青睞。

然而,從英國脫歐公投到這次美國大選,傳統民意調查為什麼會相繼失准,其背後的複雜原因值得探討。從民意調查的角度講,以下因素大體對美國大選輿情預測的失誤造成了影響。

1大選中的傳統民調: 樣本系統性偏差不可忽視

傳統民調是基於統計推斷的思維,即從樣本推斷總體。所以,樣本的代表性則成為民調準確的基礎。在本次大選中,樣本代表性不足造成的系統性偏差是造成民調預測失准不可忽視的因素。

一方面,民調拒訪率逐年增高,受訪率不斷降低。根據皮尤中心的報告,美國民調回復率1997年為36%,2000年為28%,2006年15%,2013年9%,2015年只有7%。

通常而言,受訪率在30%左右時民調相對有效的,而2016年大選民調拒訪率普遍在90%左右。換言之,如何將「沉默的大多數」納入到輿情預測的樣本中來,通過提高受訪率來確保調查結果的準確性,成為傳統民意研究面臨的重大挑戰。

另一方面,傳統民調的樣本庫面臨更新受眾問題。目前的民調多採用的是電話調查,60%的是通過固定電話調查,而且在白天進行,受調查者多是退休老年人,或失業者等。

選前民意調查也普遍高估了少數族裔尤其是西裔的投票率,低估了白人尤其是白人藍領的投票熱情。當前,美國傳統民調機構也在不斷調整調查樣本庫,使之更加貼近變革時代、社交媒體時代的特徵,但總體上看其更新目前仍未完成。

同時,考慮美國選舉人制度及各州特徵差異,傳統民意調查對於各州所抽取樣本量及權重並未給予充分的考慮。

此次大選預測過度關注得票率而忽視了選舉人制度,在兩位候選人得票率旗鼓相當的情況下,預測的誤差被選舉人制度放大。其實,兩位總統候選人的得票數非常接近,最終誰當選總統都不奇怪。

此外,「郵件門」等關鍵事件對選舉態勢也可能產生影響,但傳統民調並未實時跟進。維基解密對希拉里團隊選舉內幕的曝光,美國FBI重啟郵件門事件的調查等對選民投票意向的影響,可能在後期民意調查設計中體現不夠。

當然,這不足以說明傳統民調無法了解真實民意,因為不同的民調系統有不同的適用範圍。而在當下,當大量青年受眾轉向使用移動互聯網特別是社交媒體的時候,傳統民調系統相比於大數據分析系統就會出現更大的偏差。

2大選中的大數據方法:心理測驗是關鍵

近年來關於大數據的討論話題升溫,而本次大選也確實說明了大數據方法的有效性。當然,這與當前移動互聯網的普及、社交媒體盛行的媒介格局變化密不可分。

美國人移動電子設備使用率不斷升高,社交媒體使用量增多。從電子設備擁有量看,據2015年皮尤中心報告的調查顯示,美國人電腦的擁有量呈下降趨勢,2015年有78%的30歲以下的美國成年人擁有電腦(台式電腦或筆記本),而這一數據在2010年為88%。

相比之下,18歲到29歲的人中,有86%的擁有智能手機。從全國來看,68%的美國成年人擁有智能手機, 45%的美國成年人擁有平板電腦。 同時,社交媒體的使用率也大大增加。大多數美國人通過社交媒體獲取新聞,約一半公眾通過社交媒體了解2016年總統大選信息。

同時,2016年上半年的一項全國調查顯示,68%的美國成年人使用Facebook,美國網民中有79%的人使用Facebook 。當越來越多的受眾轉向移動互聯網,針對社交媒體的大數據分析方法確實比傳統民調更具有說服力。

在選舉結果的預測方面,基於大數據方法的分析已經奏效。2016年10月30日,印度的MogIA (人工智慧)系統,通過搜集Google、Facebook、Twitter、YouTube等兩千萬個數據來源並進行分析,結果預測特朗普將成為最後贏家——這也是MogIA連續四次成功預測美國大選結果。

此外,特朗普競選團隊的數字競選策略,也較多依賴大數據分析技術。本次大選中,特朗普擅長使用更平民化的社交媒體平台來輔助競選,一是放大競爭對手的弱點,二是激發渴望改變的美國人的投票熱情,尤其是鐵鏽區白人藍領的投票熱情。

同時,特朗普在公開場合的各種講話並不一致,這也是一種競選策略。特朗普數字競選團隊,主要基於網路大數據分析,構建網路用戶的人物畫像。

與一般大數據分析不同的是,這並不是一個「外殼」上的人物畫像,而是具有「人格特質」的人物畫像。他們從網路特別是從以Facebook為代表的社交媒體上收集用戶行為數據,並以此來預測用戶心理,構建用戶「人格特徵」,並基於此預測用戶可能的投票傾向。

同時,在這一過程中,針對不同傾向的投票者,發布不同的政治信息。如針對那些可能投票給特朗普的選民,積極發布特朗普相關競選信息和理念,促使他們投票;而對那些可能投票給對手的選民,則發布希拉里「不友好」行為的相關信息,影響他們的投票意向,至少也「說服」那些想投票給希拉里的人「遠離」投票箱。

所以,這裡的關鍵是「心理測驗學」中對人格特性的勾勒,當然這也是基於這樣一個假設和經驗,即某種性格的人更傾向於某種行為。這種對數據的挖掘和分析,在一定程度上更多的是基於大數據精準化預測,而不是傳統的樣本到總體的預測。

從這個角度講,真正具有挑戰性的是數據分析能力,即如何將數據與人的心理、行為聯繫起來。

如果說傳統的問卷調查是基於樣本推斷總體,是一種橫向的、由點到面的推斷,那麼大數據分析可以說是一種縱向的推斷,是變數間相關關係的推斷,從線上行為預測人物性格和心理,進而預測可能的現實行為傾向。

綜上所述,我們可以認為傳統民調的偏差可能是由於系統性偏差導致的樣本代表性問題造成的,這不足以否定整個傳統民意調查行業的方法和價值。這次美國大選傳統民調的失誤,以及此前英國脫歐公投民意預測失誤等,並不能簡單得出「傳統民調已死」的草率結論。

但是,在社交媒體流行、在去全球化、民粹主義觀念甚囂塵上的新時代,傳統民調的確有必要進行改變和更新,尤其在方法論上考慮將大數據理念、工具及手段結合進民意調查中來。

02運用大數據方法分析輿情的價值

一般認為,大數據有四個特點:更大的容量、更複雜的多樣性(包括結構化、半結構化和非結構化數據)、更快的生成速度以及其組合帶來的第四個因素——價值。大數據被學界稱為繼實驗科學、理論科學和計算科學之後的第四種科學研究模式。

大數據對數據分析有新的要求,如數據建模、自然語言處理、分詞技術、情感挖掘技術、可視化技術等。同時,數據分析方法的多樣化和精細化,也為基於大數據的民意和輿情分析提供了重要參考。本質上說,大數據不僅是一種工具,更是一種哲學觀和方法論 ,即如何從數據本身出發進行思考。

1大數據方法可以獲取動態數據,有助於及時或實時了解網路輿情動向

傳統民調更多基於橫截面數據,而大數據方法可以實現實時動態數據處理。社交媒體等的興起產生了大量網民表達和消費數據,使得公眾的觀念和行為等能夠被記錄下來;由此,大數據分析系統可以實時抓取這些行為數據,並進行分析。

例如,在本次大選的初選階段,社交媒體上出現了大量針對特朗普的負面言論,但隨著相關討論越來越多,特朗普最後以不錯的言論形象在初選中勝出。大數據方法對這種數據的動態性把握相對更為及時。

類似的案例其實還有不少。有研究者在對2012年首次總統選舉辯論的分析中,設計了移動APP,並進行大規模全國大學生實時回應調查。該調查充分考慮了辯論中的特殊狀況,並通過APP收集了自然情境下眾多參與群體的實時數據。研究表明,收集實時數據對於推進輿論現象研究具有重要價值。

此外,谷歌利用大數據預測的流感趨勢 ,還有麻省理工大學Devavrat Shah和Stanislav Nikolov發現的新演算法在預測Twitter熱門話題時,準確率在95%以上,而且平均比Twitter官方熱門話題出來的時間早90分鐘,甚至有些熱門話題能夠提前五個小時預測出來。

2大數據方法可以聚焦於特定事件與議題,有助於準確把握網路輿情態勢

網路事件在不同的階段通常有不同的特徵,輿情研判需要把握特定事件在不同階段的信息傳播規律。一般來說,公眾在醞釀期更多是情緒性表達,隨著事件不斷演進,公眾對事件認知的更加深入,情緒化表達逐漸轉為相對理性的表達。

有研究者對2010年「愛的大遊行」活動中社會化媒體用戶的使用動機進行分析,該研究假設:情感是這次活動中網民討論最多的話題;隨著時間推進,社會化媒體中情感表達的程度逐漸減弱。研究發現,社會化媒體不僅僅是一種表達、展示的平台,而且是情緒分享和宣洩的渠道。

有研究者認為情感有助於競爭性的公共空間的形成,空間的形成促進了公共參與和公民輿論的產生。在公共領域,利益衝突和情感正義、社會矛盾都會暴露出來。 對社會化媒體特定事件的大數據分析,有利於把握參與者情感與理性的交融與互變。

同時,對於特定議題,大數據分析方法可以通過設置「標籤」等方式,抓取最為相關的網路信息,並圍繞於此展開後續分析。

在2016年美國大選中,Google搜索趨勢關於特朗普的話題前四位是:「他說了什麼」、「牆」(指其要在美國與墨西哥築牆阻止非法移民的言論)、「ISIS」(反穆斯林言論)以及「經濟」話題;而關於希拉里的則是「特朗普」、「郵件門」、「柯林頓基金」與「2012年Benghazi襲擊案」。 基於這些熱點話題的精準數據分析,或許更有助於把握輿情發展態勢。

需要指出的是,但並非所有的社交媒體和網路大數據都是有用的如何從網路平台中獲取真正有用的數據是開展科學分析的前提。一般來說,對於特定事件和特定議題,可以在社交媒體平台上設置「關鍵詞」和「標籤」,從而找到最為相關的數據。

例如,有研究者以阿拉伯之春為例,基於阿拉伯20個國家和巴勒斯坦政權的政治、媒體、抗議活動數據,分析社會化媒體在抗議活動中的影響。

這項研究搜集了不同階段抗議活動的數量和規模,具體操作步驟是:首先,根據抗議活動的發展情況,找到重要事件節點;其次,按照節點在谷歌搜索里輸入關鍵詞「抗議」「示威」「騷亂」以及日期,從而抽取出較為重要的社會化媒體內容信息。 通過對特定事件或議題的大數據分析,有助於了解不同階段的情緒和觀點表達狀態並在此基礎上把握輿情態勢。

3大數據方法可以獲取社交數據,有助於深度挖掘網路中的信息流動規律

網民在使用社交媒體過程中產生了大量的數據,很多數據是基於個體交互行為而產生的,這些關係數據可以構成一個社會網路。運用社會網路分析法可以考察該網路的網路結構和特徵,如整體網分析、個體網分析、局部派系分析。

其中,整體網分析,可以找到該網路的整體關係緊密程度或聚合程度;個體網的分析可以找到網路中的關鍵節點,關鍵節點代表個體在網路中擁有較大的權力,其行動能夠為自身和網路帶來社會資本。

在輿情事件中,該節點可能是意見領袖,基於此可以分析意見領袖對於輿情事件的影響。當然,也可以分析不同局部派系中個體聚合的動力機制、行為方式。

此外,還可以分析網路中的「結構洞」現象,探查結構洞對於整個網路的影響,以及對信息的阻隔和疏通,由此也考察網路中的信息流通失衡現象。

有研究採用社會網路分析法對「長春隨車被盜嬰兒」進行分析,應用軟體構建並生成微博輿論傳播的複雜網路,從「總體特徵」、「中心性」、「凝聚子群」三個維度計算分析該複雜網路的結構特徵。

研究發現,在該事件中,微博輿論傳播的複雜網路結構趨於穩定,信息渠道通暢但較為分散。隨著轉發層級的增加,網路中心節點的權力權重也逐層下降;輿論發展過程中網路結構也有所變化,中心節點數量不斷增加,節點間鏈路從單一層級向多層級發展。

通過對大數據分析方法在網路平台、社交媒體中作用的分析,有助於我們更為深刻地理解大數據分析方法的核心理念,以及其在民意和輿情研究中的意義。

03運用大數據方法開展輿情分析的啟示

我國大數據的發展經歷了大數據普及、大數據分析時代和人工智慧三個階段,當下已經基本完成了大數據普及,正處於向大數據分析和人工智慧的過渡時期。

目前,大數據的發展趨勢主要三點:

第一,大數據的處理方法越來越側重於對非結構數據和半結構數據的處理,如情感分析和語義分析等。

第二,多元、多源、立體化數據處理越來越重要,應該集合各類網路平台,如搜索引擎、社會化媒體、網站等。

第三,未來大數據的發展潛力在於人工智慧,即一切智能化、數字化、網格化。對應於此,大數據方法運用於網路輿情監測主要有情感分析與語義分析、事例圖譜分析、智能化分析等不同路徑。

1情感分析與語義分析:把握文本涵義背後的社會心態

網路文本包括情感型文本和認知型文本。傳統的文本分析是辨別事實或言論,主要研究對象是關鍵詞;情緒分析需要複雜的演算法和人類語言信號。

廣義上,傳統的情感分析技術包括語義分析和基於路徑的機器學習。語義導向路徑比較容易理解,但是不夠準確。 相反,機器學習路徑則比較準確,但各種複雜演算法很難掌握、運用和理解。

情感分析一般的做法是,從海量文本中抽取有情感指向的詞語和短語,並經過統計整合得出文章、語篇或字句的好惡傾向。同時,也可以通過自然語言處理等技術,對網路文本語言進行語義分析。因為有些情感具有隱性內涵,並不能通過字面意思來理解,在此情況下有必要進一步進行語義分析。

實際上,情感分析背後所洞察的是心理和心態,如Andranik Tumasjan等基於黨派政治情緒的分析中,將政治情緒分為12個維度:如未來導向、過去導向、積極情緒、消極情緒、悲傷、焦慮、生氣、傾向性/意圖性、確定性等。

目前有很多網路流行語、火星文等「變型」語言,一定程度上也能反映民眾心態和心理,有必要對此進行分析,但是還需要將其置於整個社會語境中加以考察。

大數據平台可以抓取用戶實時數據,並進行動態監測,找到公眾情緒走向情緒化的閾值、態度從量變達到質變的閾值,從而更為精準地預測是否某種情緒或者態度會引發輿情危機。

不過,中國的網路輿論場總體上呈現「事件導向」而非「話題導向」,由此更多基於數據的分析只是關於事件的輿情動態,而非關於話題的輿情研究。

2事例圖譜分析:揭示人與物的結構性、動態關係

目前,網路大數據輿情分析基本上靠兩大數據類型:一是用戶自己表達的文字語言;二是社交數據。

除此之外,還要分析第三類數據,即事例數據,要在社交數據的基礎上加入其他更多的行為數據。因為單純社交數據不足以「辨識」用戶/事物特性,特別是在輿情分析中的作用有限。

行為數據的關注客體是「人」和「物」,對於人來說,如移動互聯網上的一系列消費數據 、閱讀數據、交通數據等,將這些數據整合起來,就可以勾勒出用戶的「畫像」。對於物來說,如標誌性指標的分布,就可以勾勒出事件的「趨勢」。如此,可以將不同應用平台的數據基於「人」和「物」的關係結構而聯通起來。

與傳統調查方法側重因果思維不同,大數據分析更加重視相關思維。一定程度上,大數據輿情監測可以不考慮背後的動因,更多考慮抓取輿情態勢演變的一些現象級、標誌性指標的變化,如著名的口紅效應(因經濟蕭條而導致口紅熱賣)、廁所效應(一個城市的文明程度可以從其廁所的衛生程度得出)、以及著名的啤酒與尿布銷售故事等。

通過「人物畫像」和「事件趨勢」,就可以進行事例圖譜分析,即將不同時間和空間中的事例勾連起來,對事件發展做出研判。

大數據分析方法的一個重要應用是對位置信息的分析和使用。位置信息或者地理定位信息,指的是從基於移動互聯網而抓取的包括特定地點、移動路徑、移動距離和時間等的信息。

當然,在特殊環境下,定位信息不能很好地發揮作用,如在室內、高山、窪地等環境下。但一般情況下,地理位置信息可以更好的輔助於數據分析,將現實中的個體與網路中的「行動者」相匹配,形成線上線下共聯繫統。

3智能化分析:提升輿情分析和應對的效率

數據分析時代要靠人把潛在的知識分析出來,而人工智慧時代可以依靠機器來搜集信息。機器學習的原理是,假定人與機器類似,機器可以模擬人的思維邏輯來進行自我學習、解決現實問題,機器可以像人一樣對大數據進行處理,如自然語言處理、信息挖掘等。

大數據分析中,一般需要設置訓練集,通過對部分數據的訓練得到該數據集的「規則」,進而根據這些規則對既定數據進行預測。大數據中海量數據,使得可用於訓練集的數據量激增,這有助於提高大數據分析的效率。

在網路輿情應對中,未來發展會越來越智能化,關鍵在於構建這樣一個智能化系統,使得觸發輿情事件的因素達到某個閾值時,智能化系統會自己通過相關指標作出判斷,從而探索可能發生的事情,並提前做出預警反應。

目前,社交媒體上產生的大量視頻、音頻等多媒體數據,蘊含的內涵更為豐富,這更需要人工智慧系統發揮作用。

如藉助人工智慧系統進行語音識別,圖像識別等活動,更準確和便利地分析網路多媒體文本;也可以應用人臉識別技術等,分析在緊急情況下(如交通事故),個人面部表情的變化,進而設計相關應急預警系統。

不過,大數據分析方法在我國輿情監測和預警應用中還存在一些問題,其中迫切需要解決數據獲取與數據孤島的問題。Facebook、Twitter等社交平台上的許多數據都是向公眾和研究者開放的,這對開展輿情監測提供了極大便利。

目前,我國不少社交平台的數據仍是封閉的,微博提高了第三方抓取門檻,微信是半封閉的、平台與平台之間的數據仍處於孤島狀態,這給利用社交平台數據開展輿情監測設置了障礙。

未來,在保障國家大數據安全的前提下,逐步實現不同平台數據的開放與共享,為多元、多源、立體化輿情數據的處理提供支持,應該是大勢所趨。

我國的網路普及率還不算很高,絕大部分所謂的大數據仍然不是「可得」的全體數據。通常而言,在互聯網上積極表達想法的用戶往往只佔1%,而99%的人傾向於保持「沉默」。另外,數字鴻溝的問題也是存在的。

截至2016年12月,我國互聯網的普及率仍只有53.2%,剩下46.8%的民眾其觀點是無法直接在網路上得以呈現的。

2016年數據顯示,美國與德國互聯網普及率分別為88.5%、84%,所以在美國、德國語境下可能通過大數據進行成功預測的方式方法,未必能夠原樣不動地照搬到中國的語境。

04結語

在這次美國大選中,究竟傳統民調的哪些環節導致了其預測結果與現實結果之間的較大偏差,至今仍無定論,但是不可否認大數據在其中起了非常重要的作用。

伴隨著對大數據分析方法的深入探討,也有許多學者認為在社會科學研究中要結合大數據分析和傳統數據分析 。大數據的優勢在於描述性分析,而傳統數據分析方法在闡釋相關機理等解釋性分析上更具有優勢。

除了印度Mog IA成功預測美國大選外,支持大數據能夠預測大選結果的案例同樣還有Andranik Tumasjan團隊的研究。該研究抓取了德國聯邦政府2009年競選中的十萬條推特帖子,並運用LIWC文本分析軟體對其進行分析。

圖為莫格理(MogAI),是2004年印度人沙吉拉開發的人工智慧系統,名字來源於《奇幻森林》里狼養大的孩子。

研究發現,提到「黨派」的推文數量及排名與選舉結果相一致,從而認為推文數據能夠預測選舉結果。 不過,對該研究的質疑也同樣存在。如Andreas Jungherr等認為,推特數據並不能反映現實政治圖景,也不能預測選舉結果。他認為推特數據與選舉結果之間的關係,是通過其他中介因素作用而形成的,因此有必要考慮作用機制。

可以看出,大數據分析是一種以數據驅動的邏輯,其可以描述某種相關性,但是不能反映作用機制,這也就需要基於理論的傳統數據分析方法。

美國大選民意調查的失准,並不足以否定傳統民意調查行業的根基。認識到這一點對當前我國的輿情研究非常重要。尤其考慮到嚴格意義上的全國性系統民意調查在我國幾乎仍然處於空白。

當前,我國應該首先借鑒美國相對成熟的大選民意調查方法,推動高校及第三方調查公司來開展全國性的、定期的民意調查,以便決策部門對長期的整體性的社會心態進行準確把握,而不是僅僅停留在事件型的、危機型的輿情態勢上。

當然,民意調查方法在其漫長的實踐過程中,操作思路、具體設計及手段等要不斷地與一個國家的政治、文化、社會制度及特徵保持調適狀態。我國對美國民意調查方法的借鑒也需要做出相應的取捨和調整,使其樣本覆蓋到目前大數據無法覆蓋的人群、回應在網路輿情中無法顯現的社會思潮、隱形輿論及另類輿論等。

此外,在本次美國大選民意調查中存在的方法問題,也需要國內學者及業界作出回應,對如何降低拒訪率、提高抽樣科學性進行反思。


推薦閱讀:

產品經理如何培養數據分析能力
今日數據行業日報(2016.7.6)
數據論水滸:108名梁山好漢,真正被逼造反的只佔總數的15%
信數據,得永生(二:人類的數據之路)
中日經濟關係:讓數據說話!

TAG:大數據 | 尷尬 | 數據 | 傳統 | 方法 | 特朗普 | 民調 |