大數據下看打虎

近兩年來,大數據催生了諸多精彩的政治學研究。三位教授即將於Public Administration Review刊出的文章,研究了2012-2015年間,國內五家新聞網站100則「打虎」報道底下的40餘萬條評論。文章主要包含以下三部分內容:首先,哪些詞語在評論中出現最頻繁?其次,哪些類型的評論佔比更高?最後,「虎」的特徵,對評論有何影響?

圖1 各類詞語出現的相對比例

研究爬取的五家網站是騰訊、新浪、搜狐、鳳凰和財信。分析時,文章刪去了所有空白、意義不明或同一IP重複發貼的評論[1]。詞頻見上圖。以LDA分類,出現頻率從高到低的評論類型分別是:擁護領導人、主張重刑、發來賀電和呼籲調查、評論「老虎」、質疑行動、要求調查當地官員、支持反腐、呼籲加強制度建設、敘述當地腐敗狀況。

圖2 「虎」的不同特徵對支持領導人的評論所佔比例的影響。縱軸從上往下,分別是級別(不加控制變數)、級別(加控制變數)、教育程度、年齡、黨齡、是否中央官員

文章從兩個不同角度做了更細緻的分析。首先,如果按涉及對象不同,將評論分成三類——領導人、政府與制度,無論是看評論的絕對數量,還是表達正面情緒的比例,擁護領導人的都是最多。支持政府的次之,認同制度的最少;其次,控制「虎」的其它特徵之後,回歸分析顯示:「虎」的級別越高,相應報道評論中,支持領導人的比例也會更高。

[1] 這一處理是為了過濾某一類型的評論。不過,即使這一類評論存在,文章的結果也不會因此因此削弱(實際上,反而可能因此加強)。具體分析,請見原文注5。介紹蜻蜓點水,詳情請見原文。鏈接請直接戳參考文獻中藍色部分。

參考文獻:Jiangnan Zhu, Huang Huang, and Dong Zhang. "Big Tigers, Big Data": Learning Social Reactions to Chinas Anticorruption Campaign through Online Feedback." Forthcoming, Public Administration Review.

推薦閱讀:

大數據學習筆記:Hadoop之HDFS(下)
筆記 | 如何選擇一個靠譜的物聯網平台
大數據計數原理1+0=1這你都不會算(八)No.60
第三章:大數據技術在配電網中的應用(國內外現狀)
樸素貝葉斯分類器原理與實戰(影評情感分析)

TAG:大數據 | 文本挖掘 | 政治學 |