對於人民日報資料庫可以做怎樣的分析？（類似語料分析等）

01-26

最近在網上找到了1946-2003文字版人民日報資料庫（網址：人民日報資料庫），請問從數據分析，語料分析等角度可以分析出什麼結果（某些動向，或對某些國家，某些派別的態度轉變等）呢？原理又是什麼呢？

基於時序的語言分析是社會語言學和社會心理學很注重的方法。我認為這方面的巔峰之作包括國內的《觀念史研究》以及最近發表在Science上的Quantitative analysis of culture using millions of digitized books，後者還出了一本書Uncharted: Big data as a lens on human culture，據說國內已經有人在翻譯了，期待。

僅供參考。

這學期毛概課上我搞了一個N屆M中全會文本會議公告文本的分析並榮獲最低分（。。。），雖然很水答主可以參考一下。

----------------------

會議公告是N屆M中全會各種同時出現的文本中最全的，通過網路和人民網資料庫（這資料庫很多公告都遺失了。。）採集了15屆一中全會到18屆五中全會的會議公告。其中一中與七中是交接時發布的，主要是名單，剔除。剩餘的部分可以某種程度上反映當時的政策導向。

文本舉例，第十五屆二中全會會議公告中的一段

　　全會指出，人民代表大會制度，是我國的根本政治制度。中國共產黨領導的多黨合作和政治協商制度，是我國的一項基本政治制度。必須堅持和完善這些制度。要加強黨對立法工作的領導，積極推進依法治國，建設社會主義法治國家。繼續發揮人民政協作為黨領導的統一戰線組織在團結社會各界群眾中的重要作用。

對於每個文本，使用TD-IDF演算法提取前20個關鍵詞作為這個文本的代表。該演算法是python的jieba中文分詞庫實現的，其餘部分也使用python。

提取的關鍵詞序列：

注意到最後一個文本的第一位關鍵詞是「發展」，這正好是我找課題時的靈感來源，有很多報告對這個大會的總結就是「發展」出現了很多次。提取結果與其一致。

有了這個代表，我將文本作為當時政見的代表，而關鍵詞序列代表文本。所以文本代表當時證件，從而就可以通過上面那個表來討論某一議題的熱度。

我將一個議題作一個詞作為表徵，比如「腐敗」就某種意義上反映了當時的討論氛圍。這個詞在各時間點——各文本中的熱度可以形成一序列。我想要的主要結果就是諸如「腐敗」，「環保」這些詞（議題）在各時間點的熱度序列。

如果一個詞在表中出現，可以用TD-IDF演算法給它的權來進行評價。但如果一個詞沒有在表甚至文本中出現呢？這時候就使用各詞與其的相關性來綜合計算。首先要通過互信息計算兩個詞之間的相關性，即在搜索引擎中同時出現的次數（搜索結果數）再以兩詞單獨出現次數或某種平均值進行標準化，於是這個相關係數必然落在[0,1]區間內。

有趣的是我在這麼做的時候發現bing和百度都有不符合布爾規則的情況出現，而且它們貌似還有次數上界導致不能使用，相關問題還沒有人回答，參見：

百度搜索加更多的關鍵詞為什麼能搜出更多的結果？ - 搜索引擎

最後我使用搜狗搜索引擎，也許是因為它爬的網頁比較少所以可以正常顯示吧。。。

得到議題詞與關鍵詞之間的相關係數以後（這個當然是python自動發請求做的），就有幾種線性加權方案得到議題詞在一個關鍵詞序列中的綜合熱度了，如全1權，順序權（20,19,18...），TD-IDF演算法自己的權等，不過結果實際上都差不多（穩健），所以就使用了最初的順序權。

至此，就可以對每個議題詞得到一個序列圖了，我直接在序列上跑OLS看看有沒有長期的（線性）趨勢，還沒學時間序列分析不知道還有什麼其他方法。

回歸與序列圖示例：

（知乎不能直接複製表格嗎。。好麻煩直接上圖了）

穩定

恩。。穩定這個指標詞的熱度是顯著下降的

清廉

清廉顯著上升。。

戰爭，顯著下降

資本主義，顯著上升

社會主義，不顯著下降

（噫）

還有一些結果，打包上傳到GitHub上了有興趣的可以看看（yiyuezhuo/party-text-research · GitHub），注意標準化方法會導致結果不穩健甚至係數顛倒（不過很少正負同時顯著），下了或clone以後打開Report_temp.html即可，其他亂七八糟的東西可以無視，代碼很爛沒臉見人。

感覺語料分析是其次，最重要的是你想回答點什麼問題，人民日報用來語料分析，情感分析解答很多政治問題其實挺棒的，比如冷戰時期的國際關係，地方政府創新，官員晉陞等等。

新聞數據的分析，感覺最適合的就是text flow了，可惜還沒有變成產品。