政治科學中的量化文本分析(二):內容分析的發展歷史

政治科學中的量化文本分析(二):內容分析的發展歷史

來自專欄 政治科學中的量化文本分析

關於內容分析的研究分享,會分為兩篇文章。今天的一篇著重講解內容分析的方法論基礎和發展趨勢,相對比較枯燥。明天會更新另一篇內容分析在政治科學領域實際應用的三個舉例,會生動有趣一些。

在開始今天的編譯和分享之前,先著重提一個Roberto在文章中提到的結論。所謂「內容分析」,在傳播學視角是以量化分析為本質特徵的分析方式,本應能夠更好的運用數據進行假設的論證。但現實情況是,絕大多數的內容分析研究仍然停留在對內容的描述性分析(僅僅運用descriptive statistics),像一般計量經濟學問題一樣探究相關性(correlation)的研究少之又少。這樣的情況,是因為內容分析本該如此,還是因為這個領域發展仍很不完善呢?如果是發展缺陷所致,是受限於技術還是方法論?希望與大家共同探討。

編譯文章:

Franzosi, Roberto. "Content analysis: Objective, systematic, and quantitative description of content." Content analysis 1 (2008).

「內容分析」式研究的完整建構可以追溯到1952年Berelson的著作 Context Analysis in Communication Research。從「內容分析」的誕生到它的發展,量化毫無疑問始終是其本質核心。Harold D.Lasswell,內容分析之父曾評論道:「There is clearly no reason for content analysis unless the question one wants answered is quantitative.」

如果說量化是內容分析的核心本質,那我們為何要捨棄經驗主義的研究方法,而走向量化呢?對此 Janis認為,內容分析的無限」可能性「存在於系統化的、科學性的假設檢驗(hypothesis testing)。「量化結果」 使得研究結果可以使用歸納方法進行顯著性檢驗,這是其他符號研究所不能替代的。

內容分析的方法論基礎在於對文本的分類和編碼。因此,在內容分析理論建構的過程中,編碼尺度(Coding scheme )一直是爭論的焦點。

Kaplan在1943年的文章中講表述(statement)劃分為兩個基本尺度:標準(standard)和方向(direction),標準代指表述所涉及的主體/主旨,而方向則分為正面、負面和中立。之後,對文本的編碼標準在不斷地演進和更新。但事實上,對編碼尺度的定義和研究永遠不會被窮盡和完善。

沒有一種編碼標準可以被直接移植到任何一項研究當中。大多數當前的內容分析方案通常都是在認真閱讀文本的交互過程中歸納得到的 ( inductively )。接著進行初步編碼類別的設計,對這些類別的擬合,以及對類別的細化,直到大多數文本可以被分配到現有的類別中,以滿足研究人員特定的研究需求。

也正因如此,Harold D. Lasswell認為「內容分析」的研究方法有著顯著缺陷。

「Within any given set of symbol categories results depend upon technicalcoding operations. But the categories themselves exercise the most funda-mental influence on results.」

「Content analysis stands or falls by its categories.」

在以上的質疑下,內容分析開始了第二步的方法論構建:信度檢驗。

在內容分析發展的初期階段,對詞語的分類基本都是基於研究者個人的經驗。那麼不同編碼者之間是否會存在經驗上的差異。 Dale 第一個提出了關於編碼者間可信度的問題 「被受訓者的分類都是一致的嗎?」時至今日,如果有多個編碼者,信度檢驗仍然是內容分析研究的一個重點。

在經典方法論發展的同事,自60年代開始,以計算機為基礎的內容分析方法開始蓬勃發展。其中以GI(General Inquirer)為突出典範。

General Inquirer Categories?

www.wjh.harvard.edu

General Inquirer Categories

(General inquirer是一個通用的詞典分類系統

如上圖,有1915個詞語被GI列為了正面情感辭彙,有2291個被列為負面情感辭彙

GI並不只有情感分類,這個詞典分類系統還提供了關於主題的分類,如上圖所示的法律、軍事、政治和宗教等。

感興趣的同學們可以去官網上自己看看,To some extent,就像一個超完整的同近義詞詞典一樣)

這項研究耗費了許多精力,也曾經備受期待。但可惜的是,這個系統的實用性其實很低。毫無疑問,通用詞典只能滿足研究人員非常簡單的需求;而對某些特別議題的研究則需要特殊的編碼和字典。

(舉個簡單的例子,如果有研究希望將詞語進行政治敏感性從低到高的排序,那麼很明顯,在任何不同的國家,詞語政治敏感性的高低都極為不同。永遠不會有一個通用的編碼標準)

綜上所述,也許讓人非常失望的是。每一個學者,經驗豐富老手的或新手,用內容分析作為主要的方法論研究工具,必須從頭開始設計內容分析方案,而且研究的重複幾乎是不可能的。

Rife 和 Freitag 還發現,內容分析文章多數僅僅停留在描述頻次上,文章缺乏明確的理論框架( 只有27.6%有),他們沒有明確的研究結果或測試假設 ( 僅有2成研究有研究假設),而且它們依賴於簡單的,描述性的統計 (40.1%)

內容分析的方法論建構,還需要跨越性的發展。

寫在最後:

補充一些內容分析的輔助網站:

Writing@CSU 對內容分析的概括總結

Welcome to the Content Analysis Guidebook Online! A supplement to the Content Analysis Guidebook by Kimberly A. Neuendorf 內容分析工作流程圖


推薦閱讀:

計量經濟學十日談(九)
計量經濟學十日談(一)
Day2-《The Introduction of Statistical Learning》學習筆記
Day4-《The Introduction of Statistical Learning》學習筆記

TAG:計量經濟學 | 政治科學 | 傳播學 |