如何用科學預測政治劇變,這篇大數據告訴你!

數年來學術界對中東政治劇變發生的原因有多種解釋,這些解釋有助於完善現有的各種政治理論,但並不能告訴我們這類政治劇變大概會在何時發生。對很多國家的政府來說,他們更關心的顯然是政治劇變的預測問題,以及我們是否有可能提前採取措施影響乃至扭轉歷史。研究表明,阿拉伯之春這樣的歷史事件並非完全不可預測,而執政者和觀察家們往往忽略了它的高度可能性。

阿拉伯之春

來源:liberty viral

Leetaru(2011)研究了長達三十年的世界新聞數據後發現,有關埃及、突尼西亞和利比亞等阿拉伯國家的負面新聞在2011年早些時候達到了頂峰,預示著這些國家在2011年左右可能政局不穩。

作者先是選取了美國中情局開放信息中心以及為英國情報機構服務的BBC世界新聞監視小組所搜集和翻譯的1979年到2010年間的當地新聞,包括當地的報紙文章、廣播電視播送內容、會議記錄、期刊和網路新聞。由於這些新聞都被用來給情報機構做「開放情報」(指通過公開信息搜集和分析情報)用途,因此保證了其內容的相對完整性和客觀性。

為做交叉驗證,Leetaru還搜集了1945到2005年間的《紐約時報》上的相關新聞,而且用爬蟲軟體爬取了2006到2011年間英文互聯網上的相關報道。

Leetaru採取了情感挖掘加地理編碼的文本數據挖掘技術對開放信息中心和世界新聞監視小組的新聞內容進行了處理。情感挖掘會根據專用字典里的字眼意義來確定新聞里出現的相關字眼的「語氣」是好是壞,並通過計算相關語氣字眼的總體數量來確定語氣程度。

例如,一篇出現較多「terrible」 、「awful」 、 「horrific」而不是「good」 和 「nice」字眼的新聞稿會比一篇有更多積極字眼的新聞稿其語氣分數更低。這些新聞的分數全部被處理為了Z值(即偏離樣本均值的標準差),因此能夠通過它們偏離樣本均值的幅度得出每年新聞積極或者負面的程度。

Leetaru認為,既有的衝突預警模型的預測效果差強人意,現有的內戰衝突預測模型對90%的內戰案例預測失誤,幾乎沒有一個模型能準確預測發生的衝突。問題也許在於,美國政府所資助研究的預警模型中包含的GDP增長和平均受教育水平等指標並不能預測如埃及這樣的國家發生的事情:事實上,在「1.25」革命發生前埃及的GDP一直在平穩增長,並且恰恰是越來越多受過良好教育的年輕人引領了這次革命。

在這樣的情況下,引入公共輿論指標也許是一種有益的補充:如果有關國家的新聞和過去三十年相比突然變得更為負面,那麼也許預示著該國可能發生重大變故。

將處理成Z值的新聞樣本作圖後可以發現,在三十年的時間裡有關國家新聞總體語氣積極或者負面的趨勢。有關埃及的新聞語氣在2011年1月25日前低於均值三個標準差,只有在1990-1991年的海灣戰爭期間才達到過類似低谷(見圖一)。2011年1月份早些時候有關埃及的負面新聞增多可能是由於亞歷山大的科普特基督教堂炸彈襲擊,這場損失慘重的襲擊動搖了對政府反恐和埃及穩定的信心,因此當地和世界新聞都以批評和譴責方式對此作了負面評價。

圖二顯示了13061篇有關埃及前總統穆巴拉克的新聞的語氣,可以看到在他倒台前的幾個星期里有了更多關於他統治的負面話語。對於一個關心公共輿情的執政者來說,這顯然是一種預警。此外在突尼西亞、利比亞兩國衝突發生前新聞的圖中也可以看到類似的趨勢,即語氣值的顯著負面下滑。

1979年1月至2011年1月間埃及新聞的語氣變化

1979年1月至2011年1月間有關埃及總統穆巴拉克新聞的語氣變化

Leetaru將開放信息中心和世界新聞監視小組的新聞內容數據與《紐約時報》及英文網路上的其他新聞數據做了交叉驗證,發現三者的相關程度顯著(見圖三)。《紐約時報》的相對負面程度比兩者更低,原因在於該報報道的相對中立性;英美情報機構和世界英文互聯網的信息呈現較高相關性,原因在於近些年來相關機構越發注重互聯網新聞信息的獲取。

2006年1月至2011年3月的三者新聞語氣變化

Leetaru的研究引入了新聞輿論指標作為穩定程度的代理變數來預測衝突,這為進一步研究提供了路徑。例如,未來可以引入更多國家的樣本分析,當語氣偏離均值到什麼程度時一個國家可能發生劇變。

Asongu和Nwachukwu(2016)的一項研究根據政治經濟基本面的歷史數據估計了阿拉伯之春發生的時間大概會在2011到2012年之間。新古典主義經濟增長理論認為,在給定技術水平的情況下,人均產出低的國家相對於人均產出高的國家有著更高的人均產出增長率,一個國家的經濟越接近均衡狀態時其增長速度會越慢,直至達到常數的均衡狀態。正如東亞奇蹟所展示的「後發優勢」那樣,初始條件差的窮國可以通過高儲蓄和高資本投入獲得比富國更快的經濟增長,但當這些國家如日本和韓國達到高人均產出水平時這種作用就會減弱,這在經濟學中被稱為「追趕效應」(Catch-up effect)。Asongu和Nwachukwu則將該理論用于衡量治理水平的發展程度。

兩位學者認為,阿拉伯各國的總體政治經濟條件在阿拉伯之春前正在逐漸趨同,在既有的結構性條件下原本治理條件不錯的國家正在變得和那些治理較差的國家一樣糟糕,因此發生動亂的概率也會相近。一旦一國發生了動亂,很可能會傳導到其他條件相近的國家。這項研究的目的就在於確定何時阿拉伯各國的治理水平達到了傳導動亂的均衡水平。

兩位學者首先提取了1996到2007年間世界銀行資料庫里14個中東國家的全球治理指數(包括政治穩定、政府能力、法治程度等指標)的主成分、通脹率和失業率作為政治經濟狀況的代理變數和模型因變數。為了控制經濟條件對治理水平的影響,世界銀行的人類發展指數(包括經濟政治支出、國際收支平衡、人口增長等指標)被用作控制變數。

阿拉伯之春

來源:newmediadev2011

通過對以上數據建立動態面板數據模型,預測各國治理條件收斂到長期均衡的速度。在控制了各國發展水平的情況下,全球治理指數、通脹率和失業率的自回歸係數即為收斂到均衡的「追趕」速度,通過「追趕」速度可推斷出追趕到均衡常數水平所需要的時間。意即隨著時間推移,歷史治理水平對當前的影響逐漸減弱,模型序列的方差和均值都會成為常數。

結果除了通脹率之外的其他模型顯示,平均達到均衡只要4年左右的時間,也就是說在2011年左右阿拉伯各國的治理和失業情況達到了類似水平,因此其中一個國家的示威活動很容易引起其他國家的多米諾骨牌效應。

Asongu和Nwachukwu的研究預測到的只是動亂條件成熟的時機,而動亂髮生的確切時間則受不可測之偶然因素的影響,例如一個小販的自焚。這項研究揭示的是造成中東劇變背後的普遍性歷史規律,提醒相關政府只有通過改革治理水平才能防止類似的歷史性事件發生。

參考資料:

Leetaru,Kalev H..(2011), Forecasting large–scale human behavior using global news media tone in time and space, First Monday, Volume 16, Number 9 - 5 September 2011, available at: journals.uic.edu/ojs/in

Asongu, Simplice A.,Nwachukwu,Jacinta C..(2016), Revolution empirics: predicting the Arab Spring, Empir Econ (2016) 51:439–482.

今日主筆 高駿


推薦閱讀:

四個動畫秒懂 Apache Beam 模型
做產品時想利用用戶行為數據分析的結論來優化用戶體驗,該收集用戶的哪些行為?
機器學習的演算法和普通《演算法導論》里的演算法有什麼本質上的異同?
2017上半年離婚大數據出來了,你最想知道的內容有哪些?
極光大數據:數據時代如何觸達消費者

TAG:阿拉伯之春 | 大数据 |