美國大選新聞中的數據迷思

來源:《新聞戰線》日期:2017年4月25日

在2016年美國大選中,由於演算法控制,臉書用戶通常看到的推送信息是與自己想法接近的觀點。這解釋了為什麼很多人在大選結果揭曉時備感突然,毫無準備。網路行動主義者埃利·帕利瑟在其著作《過濾泡泡》中認為「過濾泡泡」的演算法限制,一方面使得數據呈現方式極度個人化,另一方面用戶將很難看到衝突性的觀點。喬治·華盛頓大學的媒介研究學者尼科·萊塞對此也不無擔憂,認為「過濾泡泡」將大眾傳播轉化為大眾化的自我傳播,其數據質量大為可疑。

惱人的民調:大數據,大失誤?

2016年11月8日,美國共和黨總統候選人唐納德·特朗普,從佛羅里達、北卡羅林納、康斯維辛等搖擺州中一一勝出,徑直摘取獲選必需的270張選舉人票,媒體一片嘩然。此前的民意調查則顯示了一個截然不同的輿論場:數據龐大、模型眾多、意見雜糅的各類民調統計數據高度一致地預言了特朗普的最終落選。

特朗普以276:218打敗希拉里贏得2016年美國總統選舉

著名統計學者、數據新聞旗幟人物內特·希爾以單獨計算民調數據的模式推算希拉里的勝率為71.4%,而這幾乎是主要公眾調查中最為保守的估計:《紐約時報》估算希拉里的勝率為85%;赫芬頓調查的數據顯示希拉里有98%的可能性獲勝;而對普林斯頓選舉聯盟而言,希拉里勝出的可能性更高達99%。事實上,除了《洛杉磯時報》與南加州大學、《投資者商業日報》與技術產業市場情報(TIPP)的兩組民意調查,幾乎所有主流媒體、獨立調查公司、民意測量網站以及選情預測專家都明顯看好希拉里的白宮前景。在僅考慮特朗普和希拉里兩位總統候選人勝率的測算模型中,包括《紐約時報》《華爾街日報》《經濟學人》在內的主要媒體均推測,希拉里將以四個或者更高百分點優勢最終勝出。

NBC和華爾街日報聯合公布的最後一次民調,希拉里領先特朗普4個百分點

出人意料的選舉結果,在美國各界激起強烈反響。特朗普的支持者在社交網站上毫不客氣地譏笑主流媒體的民意預測。美國公眾輿論研究聯合會在選舉日第二天的公開聲明中承認「這些調查很顯然是錯了。」美國有線電視網(CNN)新聞主持人安德森·庫珀面對突然翻轉的選情,在節目現場不禁發問:「為什麼每個人都錯了?」而CNN另一主持人傑克·塔珀更加直接而尖銳,他說「這一結果快要讓民意調查和選情預測破了產。」

而在這次預測落空的選情報道刺痛主流新聞界之前,數據新聞卻是不少新聞編輯部內最受歡迎的新聞運作方式之一,政治報道記者對大選數據的青睞更是顯而易見。不論是老牌主流媒體,還是網路傳媒新力量,《紐約時報》、《衛報》、《經濟學人》、CNN、《赫芬頓郵報》對選民輿情數據抓取、篩選、分析、重組以及視覺化處理不遺餘力,最大限度地開掘信息的數據價值,增強新聞互動性及用戶黏性。而一些獨立的新聞機構(如ProPublica.com等)也頻繁利用各種在線統計工具進行數據新聞報道。大選選情的動態比對、數據圖表演示、互動式地圖、視覺化新聞遍布各類媒體與大小網站。從某種意義上說,對數據的深度開發已經深入美國政治新聞記者的集體意識。

迷人的數據:從精確新聞到數據新聞

在 「數據新聞」「數據驅動新聞」「數據可視化」成為新聞界流行話語之前,精確新聞實踐已經在上個世紀六七十年代的美國嶄露頭角。菲利普·邁耶是20世紀60年代最早使用計算機輔助報道的記者之一。他在《精確新聞:記者的社會科學方法引論》一書中指出,「如果能夠適當地使用社會科學家的一些研究工具,我們記者將更少犯錯。」

早期精確新聞就曾通過對數據的深度挖掘揭示出不同於直覺或者偏見的驚人事實,比如運用計算機輔助分析犯罪數據背後隱匿的社會關係和種族問題。《紐約時報》大衛·博納姆1973年使用計算機處理從紐約市警察局獲取的數據,發現當時紐約黑人比白人有高於40倍的機率成為被謀殺的對象。而發表在《亞特蘭特雜誌憲章》上另一篇獲得1989年普利策新聞獎的作品,以計算機輔助分析美國人口統計局和聯邦金融機構檢查委員會的數據,揭示出亞特蘭大地區金融機構政策中存在的種族主義偏見。美國計算機輔助報道研究所在1989年成立之後,全國範圍內的計算機輔助報道比例大幅增加,甚至在一些中小規模的新聞機構中也有嘗試。

自2005年以來,一批具有深厚技術背景的計算機人才,投身新聞行業,進入數據新聞領域,著名的例子有《紐約時報》的阿倫·菲霍爾及《華盛頓郵報》的阿德里安·霍洛瓦提,前者說服紐約時報社成立了「互動新聞技術部」,後者則是Django開源代碼網路框架的聯合創建人之一。數據新聞的深入發展,不僅是新聞業內技術更新的水到渠成,更與具有深遠影響的社會潮流彼此呼應。網路企業家、社會運動家、開源軟體程序員、計算機愛好者與新聞工作者共同推動了「政府開放數據」運動。與此同時,一些基金組織也開始慷慨地資助「程序員-新聞人」展開各自的數據新聞項目。

有學者認為,傳媒業乃至社會對數據新聞寄予厚望,並不僅僅在於它能提供創新的新聞呈現形式,更在於數據公開蘊涵的公正與公平要素。如果考慮到目前最大量的數據依然是由政府部門掌握,數據新聞的深度開發將有助於提升新聞的民主內涵,幫助新聞機構以更為經濟有效的方式進行有深度的調查性報道,敦促政府機構擔負應有的社會責任,並為市民以自身數據參與新聞生產提供豐富可能。正因如此,以大選為代表的政治報道往往成為數據新聞最為活躍的領域。

誘人的陷阱:對工具理性的過度銷售

在美國2016年大選報道中,新聞媒體對民意調查數據不予深究就地取用無疑傷害了社會民眾對於數據新聞實踐理想化的期待。令人遺憾的是,這並非近年來數據新聞聯手民意調查的第一次失利。在英國公投脫歐、以色列大選、蘇格蘭獨立公投幾番重要事件中,媒體報道的民意預測數據與事件演化的實際進程存在明顯誤差。誠然,「數據新聞」作為一種新聞操作方式在提高新聞可視性、互動性和縱深性上大有可為,但是,如果將新聞「內容為王」簡化為「數據為王」,其潛在風險不得不防。

系統性的樣本偏向

對此次大選數據報道中出現的整體偏差,浮出水面的解釋眾多,比如特朗普本人就對主流媒體使用的數據不屑一顧,他在大選日接受《福克斯和朋友》(Fox and Friends)節目採訪時說:「我確實認為很多民意調查是故意出錯。我甚至不認為他們採訪了。我想他們只是用了假數字。」一些數據專家則提出,斷言媒體操作數據也許是不公平的指控,在大數據時代試圖通過數據造假以控制輿論的難度和風險非常之大,因此更為可能的解釋是,各種小概率因素聚合造成的數據偏向超過了數據處理者(及新聞發布者)的主觀預期。

特朗普的勝出可能是布拉德利效應(Bradley Effect)的又一次顯現:人們傾向於在民意調查中拒絕透露或者極力避免可能不受歡迎的真實投票意願。這一效應得名於1982年的加州州長競選,美國非洲裔洛杉磯市長湯姆·布拉德利在民意調查中一路領先,《舊金山紀事報》等媒體甚至提前報道布拉德利勝出的消息,實際選舉中他卻出人意外地落敗。不願給黑人候選人投票的一些選民在民意調查中回答自己的投票立場時稱還沒有確定投給誰或者乾脆說將把選票投給布拉德利。而在2016年美國大選中,也很有可能存在「害羞的特朗普支持者」,他們在受訪時隱蔽了自己的真實投票意願。

另外一些專家探討了數據新聞中使用的數據樣本的代表性。多數民意數據來自於座機電話隨機採訪,忽略了沒有電話座機的受眾群體。電話採訪的低應答率則是另外一個挑戰,有業內人士預測,大選電話採訪的應答率不足10%,而樣本在加權賦值之後完全可能導致選舉中小樣本的獨特性被嚴重放大。《紐約時報》在大選結果揭曉之後發表的《一個19歲的伊利諾伊州男孩是如何扭曲全國民意調查的》認為,由於年輕人參與民意調查訪問的比例小,因此這個決心支持特朗普的黑人男孩個案就可以極大影響全國範圍內的投票預測結果。研究者指出,民意調查數據很可能高估了黑人、女性、拉丁裔等人群實際為希拉里投票的比例。

在所有數據類別中,實時數據的採集和處理尤其具有挑戰性,民意調查對於電話採訪結束之後的突髮狀況很難做出及時回應。在內特·希爾的調查數據中,12%的選民在2016年被調查時表明投票傾向尚未決定,這一比例在2012年時僅僅為3%,這些不確定因素也在一定程度上影響了數據新聞工作者對於自身數據抱有的信心。就在大選日前11天,美國聯邦調查局重啟對希拉里對敏感郵件信息處理方式的調查。數據專家指出,這一類突然狀況對於選情數據的影響無疑是巨大的,而在民意調查中很難捕捉意外事態下的輿情突變。

被操縱的數據呈現

更需要警惕的是,數據本身不等於客觀性。《芝加哥論壇報》的數據新聞記者就曾拒絕直接使用芝加哥警察局發布的犯罪數據。為避免官方數據中可能出現的誤導信息,報社專門指派了一名記者從警方和醫院兩個渠道收集、比對與核實數據。在數據極度豐富、社會透明度顯著增強的今天,對於數據的控制越來越難以實現,但充滿悖論的是,數據控制一旦實現卻也越來越不易為人察覺。不少學者批判的社交媒體「過濾泡泡」就是一種不在明處的數據控制。以臉書為代表的社交媒體是很多選民(尤其是青年受眾)獲取信息的主要渠道。

在2016年大選中,由於臉書的演算法控制,用戶通常看到的推送信息是與自己想法接近的觀點,也就是說,希拉里的支持者很可能看到的都是讚美希拉里的文章,而特朗普的支持者則將有更多機會看到特朗普支持者發出的信息。這也解釋了為什麼很多人在大選結果揭曉時備感突然,毫無準備。網路行動主義者埃利·帕利瑟在其著作《過濾泡泡》中首先使用 「過濾泡泡」這一概念,他認為「過濾泡泡」的演算法限制一方面使得數據呈現方式極度個人化,而另一方面用戶將很難看到衝突性的觀點。喬治·華盛頓大學的媒介研究學者尼科·萊塞對此也不無擔憂,認為「過濾泡泡」將大眾傳播轉化為大眾化的自我傳播。「過濾泡泡」中,一元化的數據、甚至是假信息,布滿這個看來無限開闊的封閉世界,其間傳播的數據質量大為可疑。

有風險的人為干預

除了數據本身的質量需要細加考量,對數據進行選擇、甄別和解釋的干預過程同樣具有出錯風險。即便是最有經驗的數據工作者,也很難保證零失誤率。就在大選前的幾日,內特·希爾已經考慮到希拉里贏得更多民眾選票卻在選舉人團投票中落選的可能性,但是他承認自己犯了一個錯誤,以為既然在15個主要的全國民意調查中,僅有一個表明特朗普比希拉里有更多勝算獲選,而希拉里多出對手三四個百分點的勝出幾率就幾乎可以確保希拉里將能獲得更多的選舉人票。但是內特·希爾和許多數據分析師一樣忽略了一個事實,作為分析源數據的多個民意調查結果有很多相似之處,但是也有可能它們是犯了同樣的錯誤,畢竟在美國中部地區,一些人口統計學特徵相似的州內選民特徵具有數據上的相關性。

隨著數據新聞向縱深發展,即使是機器自動寫作也不能完全避免人為干預。美聯社、《福布斯》雜誌等媒體運用人工智慧開發的自然語言生成平台進行金融或者體育信息的定製化生產,但類似的機器寫作也是受到數據處理者的演算法與規則限制,具有明顯的作者特徵。2016年9月,臉書自動演算法刪除一位挪威用戶貼出的反越戰照片,畫面中的小女孩為逃避炸彈而裸體奔跑。臉書的演算法只涉及海量信息中的兒童色情圖片的數據特徵,但不能透過數據看到人類歷史的災難和情感的創傷。

2016年美國大選報道為新聞界提供了一次對數據迷思進行反思的機會。列維施特勞斯認為,所謂迷思是人們為了應對社會生活中難以解決的衝突而創造出來的東西,比如希臘神話的迷思,它提供了一種對於遙遠歷史的理解。在數據爆炸的時代,傳媒業不可避免地走向了海量數據以尋求對於複雜世界的新的解釋工具和探索路徑。然而,不論數據如何加權賦值,在數據新聞的發展過程中,權重最大的那個,最值得重視的因素,始終應該是人本身。

(作者胡瑛系武漢大學新聞與傳播學院博士生、華中師範大學新聞傳播學院講師; 普拉特(Cornelius B·Pratt)系美國天普大學傳媒與傳播學院教授;陳力峰系湖北日報傳媒集團楚天金報常務副總編輯)

(值班編輯:趙影)


推薦閱讀:

『研究發現網速太慢會導致嚴重疾病』今日數據行業日報(2017.5.22)
綠卡審理時間數據被批不實 美移民局更新查詢系統
婚戀大數據顯示真相:女人單身更快樂,男人結婚更幸福
2015年中國專利運營核心數據解讀
產品經理如何培養數據分析能力

TAG:美國 | 新聞 | 美國大選 | 數據 | 迷思 | 大選 |