【研究方法】孟天廣、郭鳳林:大數據政治學——新信息時代的政治現象及其探析路徑

一、大數據時代的政治現象及其方法論革命

面對全球數據量的指數級增長,《科學》雜誌於2008年提出用「大數據」來討論新信息時代(PB時代)的科學研究。2012年《紐約時報》刊文宣告「大數據時代已經到來」。著名信息技術研究機構高德納(Gartner)認為,大數據是指需要新處理模式才能確保更強的決策力、洞察力和流程優化力的海量高速增長和多樣化的信息財富。也有研究認為界定大數據不能簡單地以數據規模為準,而要考慮數據管理和分析的複雜程度。除了數據規模,大數據區別於傳統資料庫的特點還包括:數據形式混合著結構化、非結構化數據;數據存儲於不同的數據生產者;對數據挖掘、機器學習和統計分析等數據分析技術的要求較高,等等。

伴隨著信息技術和互聯網的飛速發展,尤其是Web2.0時代網路數據和社交數據的空前膨脹,傳統的數據存儲、管理和分析能力已經難以順應新信息時代的客觀要求。大數據應運而生,成為信息科學和計算科學的發展前沿。綜合起來,大數據具有如下五大特徵:

(1)超大規模數據。大數據力圖分析全數據,通常指TB級別以上的數據量。

(2)數據類型多樣化。大數據蘊含了文本、圖片、視頻、音頻、郵件、交易信息、社交網路信息等結構化、非結構化數據。

(3)數據流動速度快。大數據善於管理和分析動態變化的數據流。

(4)大數據蘊含了豐富的時空信息。

(5)大數據是貧礦,價值密度低。

大數據時代的來臨首先塑造著新信息時代的政治現象。大數據不僅將政治活動場域擴展到虛擬空間,還改造著政府、公民、政黨等政治行為主體的行為模式及其關係。保羅·德克爾(PaulT.Decker)將大數據視為「顛覆性創新」,認為它帶來了「數據的民主化」,為研究者提供了新機會,有助於推動更高效、更具創新性且更透明的政府建設。為了順應大數據時代國家治理的客觀要求,中國成立了國家安全和信息化領導小組,積極致力於將大數據方法應用於完善國家治理體系和治理能力的建設中,以確保網路繁榮、信息安全和有效治理等戰略目標的實現。

國際社會積極將大數據應用於國際發展、政治穩定和公共治理領域。聯合國於2009年發起全球脈動計劃,通過對網路空間海量數據的數據挖掘和統計分析預測各國的失業率、疾病暴發、政治動亂等現象,以此作為國際組織行為的依據。美國政府於2012年啟動「大數據研究和發展倡議」,通過整合聯邦政府各部門的海量數據和大數據分析技術來維護、分析和共享相關成果以服務美國政府的政治利益。

新信息時代的大數據還成為影響現實政治的關鍵因素。以臉書、推特等為代表的新媒體正成為影響現實政治的重要力量,2010年底的「阿拉伯之春」政治變革正是源於網路社交平台。臉書和推特等新媒體在「阿拉伯之春」的醞釀、組織、爆發、升級等各個環節均發揮了關鍵性作用,在新社會運動中扮演著信息傳播、動員組織、全球呼應等重要角色。以我國為例,大數據時代給輿情治理帶來了嚴重挑戰。互聯網時刻進行著信息更新,尤其是自媒體信息,信息量得到了質的增長。互聯網的交互性極強,突破了地域、空間、身份的限制,社會各階層的觀點、情緒和訴求在網路空間中迅速集聚、碰撞、流傳,信息呈網狀傳播,速度快且傳播範圍廣,容易引發重大輿情危機,使得網路輿情治理更為困難。

大數據一出現即挑戰著傳統的科學研究方法論。圖靈獎得主詹姆斯·格雷(James Gray)認為大數據時代將形成數據密集型科學研究的「第四範式」(the fourth paradigm)。大數據時代的科學研究將不再需要模型和假設,而是利用超級計算直接分析海量數據,發現相關關係,從而獲得新知識。《自然》、《科學》等雜誌分別組織專刊討論了大數據對自然科學和社會科學研究模式的挑戰和創新價值。

大數據正在引發政治學、經濟學等社會科學的一場方法論革命。2009年,David Lazer等在《科學》發文提出「計算社會科學」(computational social science),認為計算社會科學正在興起,人們將在前所未有的深度和廣度上採集和利用數據為社會科學研究服務。Ray M. Chang探討了大數據帶來的社會科學範式的轉換,認為大數據帶來了更便捷的數據收集技術,社會科學與計算科學、網路科學相結合,正在向「計算社會科學」和「網路社會科學」(E-Social Science)的方向轉變。

Philip J. Runkel等人提出了社會科學研究的困境,即「普遍性」generality、「可控性」control和「現實性」reality三大目標難以同時實現。而大數據的數據可獲得性、低廉的成本和設計上的便利,使得一些過去不能做的研究成為可能,研究者過去所注重的控制變數選擇變得更為多元,實驗設計可以設定更多條件,能夠在很大程度上解決上述困境。在大數據推動社會科學範式轉換的過程中,技術進步、學科間融合、新數據分析技術的應用、新的商業和組織環境都會加速這種範式轉換。這種轉換涉及諸多方面:在研究視角上要實現不同學科間研究方法、理論及測量上的整合;在研究方法上,研究者不再需要構建精巧的研究設計來模擬現實,而是可以直接獲取人類行為和互動的基本信息,田野研究和實驗研究間的界線會逐漸模糊;在樣本選擇上,大數據可以突破傳統抽樣調查的樣本限制,觀察性研究也能夠大幅度提高數據的採集頻率。需要注意的是,儘管大數據會對研究方法產生重大影響,但理論的作用並不會因為大數據時代的到來而減弱,仍然在科學研究中佔據核心位置。

二、大數據政治學的研究主題

國內外學術界將大數據方法應用於政治學已經初見端倪,並在涉及公共政策、政治傳播、選舉與投票行為和社會運動的廣泛主題上取得了一系列豐碩的研究成果。本部分將系統梳理政治學領域應用大數據方法開展的研究主題及其成果。

公共政策

大數據在公共政策領域的應用充滿希望,托馬斯·庫克Thomas D. Cook熱情展望了大數據在公共政策領域的應用前景。大數據在提高政策描述和強化政策預測能力方面具有強大潛力:藉助大數據技術,個體、城市、國家層面以及群體數據,尤其是大規模時間序列數據的實時獲取成為可能,會使研究者對公共政策的描述和評估在時間和空間上變得更為豐富。此外,在數量更多、質量更好的數據基礎上,公共政策分析的基礎工具——成本收益分析將更為適用。利用警察局犯罪數據對稀缺警力進行更有效的配置就是一個可以直接運用大數據的公共政策問題。賈斯汀·基恩Justin Keen著重探討了衛生服務信息公開在英國衛生服務領域的前景。衛生服務領域已經具備了大量、完整的信息,這些信息向第三方開放將會帶來巨大收益。

在許多政策領域,單一數據來源已經不足以應付複雜的公共政策問題,有效的公共治理需要平行使用多個大型資料庫。以美國聯邦政府為例,911事件之後,美國各大部門開始建立資料庫,並逐步實現資料庫之間的共享和實時連接。比如,美國海關總署要求航空公司提供乘客所有信息(包括地址、電話、犯罪記錄、身份證號以及駕照號碼等),交通部則建立了將航空預定系統與私人、政府資料庫相連接的智能網路來對乘客進行定位,而地方警局可以與這些資料庫進行實時信息交流。在醫療領域,衛生服務效用資料庫新近被開發出來,用於推進公共支付過程的改革,其存儲的實時支付數據在評估服務績效和描述質量波動時非常有用。在法律實施和公共安全方面,紐約市將其警務責任系統提升到預警層次,對緊急援助、自行車道管理、林木規劃等進行數字化管理,通過在市長辦公室視頻上滾動顯示不同指標的實時結果,使官員和民眾能夠實時掌握各個區域的情況。

政治傳播

很多學者利用大數據技術對互聯網空間的政治傳播進行研究。作為一種虛擬公共空間,互聯網空間存在門戶網站、網路論壇、社交平台等公共空間,充斥著文本、視頻、關係等結構化和非結構化信息,為大數據政治學的發展提供了前所未有的試驗場。現有研究利用大數據方法探討了網路政治傳播的方式、影響及其與傳統政治傳播方式的聯繫。米歇爾·詹森Michael J. Jensen利用推特數據預測了2011年美國共和黨總統提名。他搜集了蓋洛普民意調查數據和2011年實際投票結果,並利用推特應用程序介面搜集了愛荷華州黨內提名會議前的有關競選人姓名的推特留言,得到了195,737位推特用戶的697,065條推特留言,隨後將每位競選人的推特提到率、民意調查支持率與實際提名結果進行比較,發現儘管推特提到率與最終投票結果不完全一致,但推特傳播中存在著一些里程碑式的轉折點,對於競選者有較大影響。

卡琳娜·拿翁Karine Nahon考察了政治競選活動中視頻博客傳播的模式。作者從網路視頻中選擇了「政治、選舉、大眾」三大主題中排名前100的視頻,再由一名教授和三名博士生對300個視頻的內容進行分類,最終獲得了120個與選舉相關的視頻樣本,隨後利用谷歌博客搜索技術尋找與120個視頻鏈接的博客,在清除了重複信息後共獲得9,765個博主發布這些視頻的13,173篇博客。作者根據每個博客日瀏覽量的不同,將博主區分為精英、政治領袖、一般領袖和普通博主四種類型。最後,作者通過多元時間序列模型發現,網路信息傳播並不是單向度的(monolithic),精英和政治領袖是信息傳播的發起者,決定著信息傳播的內容和時間;一般領袖和普通博主是信息接收者和跟隨者,維持著信息傳播的鏈條。

社會運動

大數據使得獲取個體層面數據變得更為可行,不少學者利用大數據方法來預測社會運動。海倫·瑪格斯Helen Margetts指出,由於大數據能夠提供個體行為和意願數據,使得研究者能夠探討一些過去無法研究的問題,比如由網路社交平台引發的阿拉伯之春。托馬斯·沙德福Thomas Chadefaux利用文本分析方法來預測大規模衝突事件,他分析了1990—2013年間166個國家的報紙文章,來驗證同期超過200次的戰爭衝突。運用這些信息,他能夠在85%的置信水平下推斷下一年是否會發生戰爭,成功預測了超過70%的大規模戰爭。

現有研究非常關心網路社交平台對社會運動的影響。奧麗莎·科特佐娃Olessia Koltsova研究了俄羅斯網路社交平台交友網(Live Journal)中大戶(top bloggers)在輿論引領中的角色。他利用計算機模擬了微博大戶的話題結構,發現他們的關注度平均分布在「社會-政治」以及「私人-娛樂」話題上,而俄羅斯2011年的街頭抗議能夠從博客有關政治的內容上得到明顯體現。這種消息最初在某個社會話題小組內部顯現,很大程度上充當了公共輿情的指示計。與此類似,托馬斯·蘭德Thomas Lansdall收集了4億多條社交媒體信息,檢驗了經濟衰退對英國民眾情緒的影響,發現了支出削減聲明與2011年8月騷亂之間的強相關關係。

選舉與投票

大數據在選舉研究中得到了廣泛應用。基於谷歌搜索記錄數據,莎娜·萊莉Shauna Reilly探究了2008年總統選舉前一周谷歌上投票法案名稱(或主題)的搜索次數與實際投票率的關係。他選用投票流失率(roll-off)作為因變數,以谷歌上153個投票法案的名稱搜索率和主題搜索率作為自變數。相關分析發現名稱搜索率和主題搜索率對投票流失率有負向影響,即谷歌上對投票法案的搜索率越高,選民放棄投票的可能性就越低。

布魯斯·賓伯Bruce Bimber介紹了大數據在奧巴馬競選美國總統時發揮的重要作用。奧巴馬團隊在競選宣傳時注重獲得選民個體化的信息,並基於模型化分析進行更精準和更有技巧性的宣傳。他們對人群的分類不再是簡單的人口統計學變數如中產階級婦女或工薪階層,而是包含了選民的投票記錄、慈善捐贈乃至音樂偏好、汽車品牌、雜誌訂閱、社交網路等信息,對選民進行更為個體化的分析和宣傳。

史提芬·安索雷布哈爾Stephen Ansolabehere利用大數據探討了民調中自報投票率超過實際投票率的原因。他通過Catalist公司搜集了50個州的投票登記數據,包括投票人姓名、住址等信息,以姓名和住址為參照,與2008年國會選舉調查資料庫的受訪者信息相匹配,從而得到涵蓋選民姓名、地址、性別、年齡、自報投票記錄以及實際投票情況等信息的資料庫,去除無回答的人數後,形成一個由26,181名選民組成的樣本。同時,作者也採用「美國國家選舉研究」1988、1984和1980年的調查數據。在這兩大資料庫的基礎上,作者比較了報告投票率(report vote rate)和有效投票率(validated vote rate)的時間變化及其差異,並利用性別、年齡、教育、宗教信仰、種族、婚姻狀況、流動情況以及黨派等因素分別對報告投票率和有效投票率進行回歸分析。結果表明,缺失的自報投票者集中在高教育程度、高收入、較活躍的黨派成員、經常參加教堂活動和流動性較強的人口中,即流失的自報投票者偏向相對優勢群體,這種系統性偏差使得利用民調數據預測投票情況會出現推論偏差。

議會政治

有研究利用大數據方法考察西方國家的議會政治,對議員的政治話語及行為展開了實證研究。賈斯汀·格里默Justin Grimmer提出了議程表達模型來解釋美國參議員的行為邏輯,他利用自動文本分析研究了美國參議員與選民的政治溝通。他利用互聯網搜集了美國參議院自2007年以來發布的24,000餘份新聞通告,利用無人監督機器學習法,由計算機自動識別單詞並進行歸類,然後應用貝葉斯分層分析模型來預測特定參議員的議題關注。基於對文本資料的分析,他發現每個參議員的議題關注與其他參議員的議題關注之間存在著顯著相關,重點關注議題的地域分布具有一定的集聚性,議員對參議院撥款法案的關注程度與他們對德敏特-麥凱恩Demint-McCain修正案的反對票呈現正相關關係。

喬納森·布萊特Jonathan Bright利用議會文本記錄分析了英國議會中議會爭論的演變特點。他利用英國議會解析網站提供的議會資料,構建了1936—2011年間英國下議院發布的由7.4億個單詞所構成的資料庫,利用自動編碼技術對法律、國防、環境、衛生、就業、權利、教育、農業、經濟等關鍵詞進行了編碼,對這些辭彙在這75年間的出現頻率進行了描繪,發現這些關鍵詞的出現頻率具有一定的穩定性,但也存在很大變化,爭論變得更加激烈,環境議題變得更為突出,而農業等問題則逐漸衰落。同時,作者還對不同的文本進行了自動的性別和身份識別,分析了女性以及貴族身份議員在議會爭論中的地位和特點,發現前者傾向於較長的發言時間,而後者被打斷的頻率更高。

三、大數據政治學的研究方法

自動文本分析

政治文本分析是探析政治現象的重要途徑,是獲取政治態度、政治立場以及觀測其隨時間變化的重要方法。大數據技術出現以前,人工編碼數量浩瀚的政治文本非常困難,而自動文本分析技術的出現可以將這項繁瑣的工作交由計算機處理,使得這種大規模的文本分析成為可能。

格里默專門探討了自動文本分析方法的前景和「陷阱」。他認為,文本分析的核心工作是分類。分類有三種方法:字典法(dictionary methods),根據關鍵詞的出現次數來確定文本;有監督學習法 (supervised learning methods),先由人工構建編碼練習庫,然後讓機器根據人工編碼模式進行自動編碼,最後將機器編碼與人工編碼相比較檢驗其效度;無監督學習法(unsupervised learning methods),不需要人工事先編碼,而是基於模型假設和文本性質來分類並自動將文本分配到各類別。第三種方法比較便捷,但容易混淆重點,可以通過兩項技術進行改進:一是通過混合成員模型(mixed membership models),將具體問題結構納入分析以輔助分類;二是通過計算機輔助分類(computer assisted clustering)來探索眾多潛在分類方法。自動文本分析可以確保研究者便捷地實現文本分類和定位,但仍需進一步完善。格里默還總結了自動文本分析的四大基本規律:機器自動識別有很多不準確的地方,但仍然在很多方面給學者提供了研究便利;自動文本分析不能取代學者的閱讀和思考;沒有一個最完美的自動識別方法;對自動文本分析結果的效度分析非常重要。

斯拉瓦·米哈伊洛夫Slava Mikhaylov分析了自動文本分析中編碼和分類的效度問題。在文本編碼過程中,無論是人工還是機器編碼都容易產生效度問題:不同的人對同一文本可能有不同的理解,而不管是有監督、半監督還是無監督自動編碼都依賴於參考樣本,從而導致編碼和分類中誤差的存在。作者通過一個編碼實驗來評估人工輸入過程的信度。他利用歐洲比較政党項目(Comparative Manifestos Project,CMP)數據,利用Kappa分析法進行統計檢驗,發現無論是在單項類別還是在整體位置的測度上,實驗編碼結果和CMP原始編碼結果的一致性都比較低。簡言之,編碼誤差幾乎超過了文本形成過程和編碼不一致所帶來的誤差。因此,在利用自動文本分析對文本進行分類時,必須注意到分類過程的信度和效度問題。

社會網路分析

社會網路分析是社會學中常見的對關係型數據的分析方法。在大數據時代,隨著數據抓取能力的增強和處理複雜網路之分析軟體的出現,社會網路分析在研究領域、研究方法上得到了長足的發展。不少學者嘗試利用該方法對政治選舉、集體行動、政治傳播等問題進行研究。結合大數據強大的結構性和非結構性數據的獲取能力,社會網路構建將變得更為豐富細緻,許多過去難以研究的問題會在數據可獲得性的基礎上得到新的生命力,政治傳播、集體行動等研究將會取得新的進展。

羅伯特·邦德Robert M. Bond等人在《自然》雜誌上發文比較了網路社會網路和面對面社會網路影響政治行為的路徑。他們在2010年美國國會大選期間對6100萬臉譜網用戶實施了一項發送政治動員消息的隨機控制實驗,研究發現政治動員消息直接影響著網民的政治自我表達、信息搜尋和現實投票行為。值得注意的是,政治動員消息不僅影響了接受者,還影響了接受者的網友、網友的網友,而這種社會傳遞效應對投票行為的影響要強於直接效應,而傳遞效應主要發生在更可能直接接觸過的「親密網友」間,從而凸顯出政治行為中強聯繫的價值。

桑德拉·岡薩雷斯-貝隆Sandra Gonzalez-Bailon等人討論了線上網路對徵兵抗議演變的影響。他們以西班牙動員浪潮中推特網路中的徵兵抗議模式為例,試圖探討新媒體如何影響抗議活動的擴散,在識別徵兵領導人的網路位置和信息散布者的網路位置後,研究發現消息散布者比徵兵領導人更位於網路中心,對徵兵抗議過程發揮著更重要的影響。康偉將數據抓取技術與社會網路分析方法相結合,探究了「7.23動車事故」中網路輿情傳播的網路結構、節點位置和關鍵時點等問題。他對與此次事故相關的個人微博和機構微博信息進行了抓取,獲得了主要節點賬戶間的關注信息,構建了一個社會關係網路,並對其密度、規模、結構等進行了測量,探討了網路傳播在節點以及傳播上的一些特點。

可視化和空間分析

可視化是大數據時代社會科學研究的新趨勢,是大數據應用最顯著的效果之一,更為優化的數據處理技術使得過去的描述性信息可以變得更加直觀,增強了對數據信息的發現、跟蹤、分析和理解,還能夠顯著提高表達主題的吸引力和說服力。此外,大數據可視化分析與傳統統計分析的區別在於它的動態性,其數據容量、內容及更先進的處理方法都使得動態可視化分析成為可能。

目前不少軟體可用於可視化分析,海杜普Hadoop即是一個比較成熟的可視化軟體,能夠對大量數據進行即時處理,淘寶、百度等大型商業網站就利用海杜普來完成每天數以億計的訪問量數據存儲、查詢統計以及用戶行為分析等。美國環境系統研究所(Environmental Systems ResearchInstitute, ESRI)在開源網站基哈伯(GitHub)上共享了「海杜普地理信息系統工具」(GIS Tools for Hadoop),用戶可以利用其對上億條空間數據記錄進行過濾和聚合操作,在報告中嵌入大數據地圖進行發布。然而,可視化分析在政治學研究中的應用非常缺乏,因而相關技術和方法普及是至關重要的。

空間分析與可視化密切相關,但具有超出可視化的諸多功能。大數據卓越的數據獲取能力及網路化獲取方法使得數據獲取在很大程度上突破了地理範圍的限制,能夠同時獲取區域乃至全球層面的數據。例如,百度遷徙可實時記錄並分析中國人口流動的方向、數量等信息,構建清晰美觀的全國人口流動圖。俄羅斯工程師魯斯蘭·艾尼基維Ruslan Enikeev利用2011年全球196個國家200多萬個網站鏈接將不同國家的網站流量信息構建了一個網路星球(The Internet Map),每個星球的大小根據其網站流量來決定,而星球間的距離則根據鏈接出現的頻率、強度和用戶跳轉時創建的鏈接來確定。空間數據的豐富與共享為政治學提供了將空間概念引入政治學分析框架的新機遇,然而,受到數據獲取能力和分析能力的限制,政治學研究中空間分析的應用非常缺乏。

四、大數據政治學視角下的中國政治

大數據方法的出現和運用在一定程度上可以穿透政治現象的複雜性和特殊性,為中國政治的研究者帶來深刻而豐富的洞見,並為其理論提供更強大的說服力。國內外學者已經利用大數據方法在政治傳播、互聯網政治、網路輿情治理和分析方法創新等方面進行了有益的嘗試。

政治傳播會通過影響人們對於特定事件的認識和態度、塑造人們的價值觀而進一步影響人們的政治參與行為,而報刊、廣播電視以及電子郵件、手機、網站、博客等新媒體都是政治傳播的重要載體。在一項針對報刊審查機制的研究中,作者通過追蹤《廣州日報》和《南方周末》從2002年12月至2003年6月間的全部報道來分析政府干預對於「非典事件」曝光的影響。他們發現,通過宣傳部門委任報刊主編、在各個層級發布指令和通告、傳播領導人在特定場合的直接指示是影響「非典」曝光率的三種主要機制。另一項研究通過收集幾十萬條新浪博客和校內網的帖子,比較了兩種網上社交網路的傳播特點。此外,有研究者對2008年「汶川地震」發生後天涯論壇一周內的2266個主題帖進行了分類,並分析了論壇在信息、觀點、行動、情感和社區建設等方面的作用。

網路政治關注的一個核心問題是網路參與對實際政治行為的影響,它既可能成為消除潛在社會不安的「解壓閥」也有可能成為醞釀激進行為的「高壓鍋」。而造成二者區別的關鍵在於網路討論的時點、議題選擇和參與者本身的意圖。喬納森·哈西德Jonathan Hassid對2198個博客從2010年8月30日至11月7日的發帖內容進行文本分析後指出,在涉及腐敗、環保、領土爭端等由主流媒體發起的議題時,政府對於參與者的評論、批評和正式行動會表現得較為寬容,網路參與起到了—種安全閥效應;而當議題超前或涉及敏感領域,如城鄉差異、宗教問題時,過多討論則會加劇社會緊張和不安,發帖者也更可能遭到嚴格的審查。另一項研究在分析了2003年、2005年和2007年收集的調查數據後發現,互聯網使用與線上觀點表達存在正向關係,而即使存在政府審查,互聯網的網路效應也可能會給中國社會帶來增量的變化。

在大數據時代,網路輿情成為影響國家治理的重要因素,因而網路空間的政府干預變得不可或缺。加里·金Gary King首創性地使用自動文本分析技術,對2011年上半年1400多個網站的上百萬個帖子進行了內容分析,並將其歸入不同的議題領域。研究發現,相比於其他議題,審查機構對批評政府、領導人和政策的帖子的刪帖率較低;而無論內容為何,有可能導致集體行動或強化社會動員的帖子成為政府審查的主要對象,即防止潛在的集體行動是政府審查的主要動機。

五、大數據時代的政治學研究:機遇與挑戰

綜上所述,大數據方法不僅為深入探析選舉政治、社會運動等傳統政治現象提供了創新性工具箱,更為挖掘信息時代的信息政治、互聯網政治等新生政治現象創造了方法和理論視角。大數據方法對政治學研究的核心貢獻體現在研究方法創新和學科發展兩個領域。

大數據方法空前催化了政治學研究方法的開拓創新,這反映在以下三個具體方面:

(1)大數據方法革新了政治學研究中數據獲取與管理的既有模式。大數據方法使得廉價便捷地獲取總體數據而不是抽樣數據成為可能,更進一步拓寬了傳統政治學對數據的界定,歷史文本、社交媒體、多媒體等結構化、非結構化、關係型的數據都成為研究對象。

(2)機器學習、數據挖掘等數據分析學(data analytics)的發展空前催化了政治學研究方法的創新,諸如自動文本分析、主題模型、情感分析等前沿方法被及時應用於政治學研究。

(3)大數據方法強化了定量方法與定性方法的對話。傳統政治學研究中長期存在的定量和定性方法分野有望在大數據時代合流,大數據方法可以有效利用定量技術分析大規模的定性資料,同時運用定性方法來呈現和闡釋定量分析結果。

總之,大數據方法在政治學等社會科學中具有廣闊的應用前景和開發潛力。清華大學、北京大學等科研機構已經啟動了利用大數據方法開展政府質量、政治傳播和互聯網政治研究的項目,並取得了初步成果。然而,將現有大數據方法應用於政治學等社會科學研究也面臨若干重要挑戰,明確這些挑戰有助於我們深刻理解大數據政治學的本質及其發展趨勢。

首先,大數據方法的數據測量面臨嚴重的信度和效度問題。雷澤爾在《科學》雜誌上撰文指出,以谷歌流感趨勢為代表的大數據預測技術儘管有其價值,但仍然存在不可忽視的預測誤差,作者將其稱為「大數據分析的陷阱」。大數據分析的陷阱主要源於所謂的「大數據傲慢」即研究者假定大數據是傳統數據採集和分析方法的替代而不是補充。然而,大數據並不意味著人們可以忽視信度、效度和數據相依等基本測量問題,大數據的核心挑戰在於廣受關注的數據信息缺乏科學研究的效度和信度。

第二,大數據強調相關性而非因果性的研究取向限制了其探究因果關係的能力。在著名的《大數據時代》一書中,維克托·邁爾-舍恩伯格Viktor Mayer-Schlnberger認為大數據時代相關關係優於因果關係,相關性可以讓我們在分析某些現象的時候不用了解其內部運作機制即可預測未來。然而,因果推論是科學研究的最終目標,即利用我們已知的知識來了解我們未知的世界,而抽離因果關係是這一過程的核心環節。大數據缺乏發現因果關係的優勢,應該將其與實驗設計和觀察研究相結合來獲取有價值的知識。

第三,缺乏透明性和開放性極大地限制著大數據方法的應用。商業機構和公共機構掌握的大數據不僅涉及個人和商業機構的隱私,還涉及利益分配等問題,數據開放的前景尚不明朗。此外,出於經濟和政治利益的考慮,大數據提供者或使用者經常性地調整數據演算法(algorithm dynamos),導致研究者不僅無法獲得穩定且可比的測量數據,更缺乏對數據生成過程的基本知識。因而,很多學者倡導大數據提供者應該確保基本的數據透明性。

第四,技術壁壘也限制著大數據在社會科學中的廣泛應用。應用大數據方法不僅需要強大的數據採集和存儲技術,而且需要開發數據分析學、預測分析學(predictive analytics)等數據分析和計算技術。毫無疑問,熟練掌握和應用以上技術對於社會科學研究者而言是不小的挑戰,因而,強化社會科學與計算科學、信息科學的跨學科合作,培育社會科學領域的大數據分析人才將不可或缺。

原載《國外理論動態》2015年第1期,轉推時限於篇幅注釋從略

推薦閱讀:

陳正雷著書證實乾隆時代的陳繼夏授陳秉旺,秉旺再傳子長興的師承關係明確
各家銀行拉存款進入「拼息」時代   今日早報
後ISIS時代 中東戰亂誰繼大任?
27帝國時代 — 垓下之戰終結楚漢相爭
《裸婚時代》熱播引熱議 "裸婚"不"裸婚"是個問題

TAG:政治 | 大數據 | 數據 | 方法 | 政治學 | 現象 | 政治現象 | 信息 | 時代 | 研究方法 | 信息時代 | 研究 |