大數據時代社科實證研究的幾個陷阱

  居處大數據時代,社會科學研究發展可謂日新月異。伴隨著逼近於總體的數據可得性日趨增強,偏倚概率發生假設的統計、經驗分析方法遭遇到前所未有的挑戰,新形勢下社會科學研究工作者仍在為做出「精確的錯誤」和「模糊的正確」兩難選擇而努力著。在大數據時代之前,一個極具說服力的事例是: 從 15 世紀到 19 世紀,歐洲人繪製的非洲大陸地圖不斷變化,歐洲人對非洲海岸沿線的探險經歷使得這些沿海區域的地圖繪製已經十分精確; 與此同時,非洲內陸地區地域版圖卻從地圖上消失,海岸沿線之外的非洲大陸成為一片空白。究其原因,隨著地圖繪製水平和信息質量的快速提高,關於「可靠信息」的標準也在不斷提高; 藉助旅行者的口頭描述和估測不再被視為可靠信息,因而被棄之不用。追求精確的結果是「非洲內陸由此無跡可循了」。19 世紀末,隨著歐洲人的探險活動遍及非洲各地,非洲內陸才重新出現在非洲大陸地圖上。

  這個經典案例的意義在於: 科學研究方法的進步及其規範化、嚴謹化反而可能會限制我們的視野,導致我們的知識萎縮退步。

  ①社會科學經驗、實證研究陷阱類似於此。研究者一旦過度熱衷於追求數據化、公理化、精確化,亂象叢生的錯誤被形式的完美掩蓋。隨著數據的可得性增強,實證主義者極力推崇的經驗研究偏愛展示通過數據展開統計分析抽取而得到現象和事實。經驗研究結果的檢驗和解釋還得依靠事實,偏倚數據的經驗研究離不開問題導向思維和實地調查行動,解構現象終歸需要思辨性的規範或理論研究。

  一 社科實證研究的數據化陷阱

  2012 年 3 月 29 日,美國政府宣布推出「大數據的研究和發展計劃」( Big Data Research and De-velopment Initiative) 。從收集的相關報告和資料獲悉,該計劃旨在提高從海量數字數據中提取知識和觀點的能力,實現教育與學習的轉變。

  ②據公開信息顯示,主管部門指出: 「過去在信息技術研發方面的聯合投資推動了超級計算機和互聯網的創建,而『大數據研究與開發計劃』有望使我們利用大數據進行科學發現、環境和生物醫學研究、教育以及保護國家安全的能力發生變革。」通過各方面的資料查閱,結合相關的研究分析得知,聯邦機構對該計劃的首輪資助包括以下機構: 國防部( DOD) 、NSF與美國國立衛生研究院( NIH) 、能源部( DOE) 和地質調查局( USGS) 等。大數據廣泛存在於各個核心領域,包括網路、通信、金融、物流、製造、政府。在中國,隨著各類微觀數據的可得性增強,盛行拿來主義的社會科學經驗研究發展趨向正在變軌。由於中國式經驗或實證研究遭遇了「可信性」的質疑,「搞對問題」和「識辨數據」才是解救研究發展受阻的良策。

  來自《2010 年年度信息流通普查報告》的數據顯示,信息社會未被使用的信息比例高達 99. 4%。

  在大數據時代背景下,企業微觀主體遭遇了如何應對數據資源利用率低的現實困惑,社會科學研究研究的可信性終將受到挑戰。讓我們以金融行業為例,將信用卡消費者行為資料轉化為研究文本,則需要通過長期記錄獲取消費行為數據。無論是技術突破還是觀察對象,現實社會經濟運行已經積澱了這樣的研究素材。統計數據顯示,2011 年信用卡新增發行量 5500 萬張,交易筆數達到 28. 5 億筆,交易金額達 7. 56 萬億元; 同年中國信用卡消費額達 4. 1 萬億 元,占 全 社 會 消 費 品 零 售 額 的22. 6% 。來自央行的數據顯示,中國信用卡累計發卡量已從 2008 年末的 1. 4 億張,增長到 2011 年末的 2. 85 億張,3 年翻了一倍。2012 年底,中國累計發行信用卡的數量已經高達 3. 3 億張,同比增長13. 8% ; 累計激活卡量為 1. 86 億張,同比增長22. 3% ; 活卡率為 56. 1% ; 全年信用卡交易金額達10 萬億元,同比增長 31. 6% ; 信用卡未償信貸餘額新增 3257. 1 億元,累計達 11386. 7 億元,同比增長40. 1% 。由於金融部門掌控著這樣的數據,他們最具微觀消費者行為研究優勢,此集成數據的商業性價值更是不可估量。此舉例意在闡釋理論建構和現實社會的鴻溝已被跨過,取材於大數據的深度研究或許會改變對中國正在發生或已經發生過的事件的既成認識和判斷。

  在大數據時代,社會科學研究面臨重大機遇和嚴峻挑戰。相比之下,中國產生的數據量極為龐大,但是真正存儲下來的數據僅僅是北美的 7%、日本的 60%。值得注意,數據獲取渠道增加和信息量級數級增長特徵: 隨著互聯網、智能手機及感測器等的普及,信息流量有了爆發性的增長。根據GreenIT 協議會預測,2025 年,社會的信息量將猛增至 2006 年的 200 倍。考慮到全樣本數據信息能夠鏡像出真實世界,社會科學研究的可信性性終將獲得來自「大數據」所能夠描摹真實圖景檢驗。具體而言,基於概率和可能性的實證和經驗研究將會被大量的數據分析報告和專項預測研究取代,此時「歷史的分析方法」和「科學預知未來」的重要性就會凸顯。2005 年後,中國式經驗研究發文數量呈現級數級增長,可謂經驗主義盛行。然而,在社會科學界,可獲取數據的渠道多元化、實現方法論複雜化以及可研究的學術問題多樣化,反倒使得眾多研究者陷入迷茫,深陷經驗主義的中國社會科學研究備受可信性和可實現性質疑。在當前數據可獲得性增強情況下,社會科學界更應該思考的問題是怎樣更新範式、方法和開發工具利用大數據資源,以能夠更好地展開深度研究。

  當然,藉助數據講「事實」,原因是經驗事實對於研究尤其重要,這又是實事求是講道理的前提。

  然而,由於經驗、實證研究容易模仿、借鑒的研究範本眾多,當然這也為「思維偷懶」的研究者提供了便利,有思想性的研究文本儼然成了少數人的專利。進入 21 世紀,中國掀起經驗研究的追捧熱潮,定量化研究也就備受學術期刊的「青睞」,研究者更是熱衷於迎合。一種解釋唾手可得,數據可得性增強,「拿來主義」思潮滋生。在這個躁動的、信息流「雲化」的時代,奉行經驗主義的研究者自以為有「知識」,實際上已經拋棄了常識,社會科學物化某種程度上能夠用以刻畫社會科學研究獨立之精神,理論創新速度正在減慢。進入 21 世紀,國內期刊刊發的「庸俗」和「膚淺」經驗研究日漸增多,高校、科研院所激勵不相容的學術獎勵如出一轍,各種形式的論文短平快生產行動可以視為「工具理性」,扭曲的學術認知和評價更是催生了論文的流水線製造風潮。藉此能夠很好地解釋為什麼國內盛行經驗主義研究,即便是缺乏基礎知識儲備和學術經驗積累的研究者仍然能夠玩弄「數據」快速實現發文的目的,無知又無畏戴帽子的研究者比比皆是。社會科學研究結果及解釋的合理性檢驗在於研究者對經驗事實的熟悉和了解,一旦研究者習慣了閉門造車、熱衷於數據挖掘、公式化的文本寫作,只會讓研究之路越發狹窄,結果使得社科研究淪為「數據遊戲」。    二 社科實證研究的經驗化陷阱    在中國社會科學界( 尤其是社會學與經濟學) ,經驗研究( Empirical Research) 通常也被張貼或稱其為「實證研究」,持此方法論者試圖與純理論( 規範) 研究劃清界限,依靠搜集的「第一手資料」而展開。由此產生實證研究的兩種取向: 其一,力圖透過抽象概念探討建立一套概念體系( 社會學) ; 其二,透過抽象理論分析以解釋某種現象,但未經實地驗證( 經濟學) 。當然,實證研究被視為一種透過客觀的自然科學方法,通過觀察、實驗來檢驗的有效方法。在方法論層面上,為找到自然科學方法「實證化」如何嵌入社會科學研究,理當追溯到孔德的「實證主義」。20 世紀以後,統計、概率分析方法不斷改進,計量方法得到精湛應用,但是,在實現思路上仍然難以解決真正意義上的「證實」難題的困擾,更難以做到「證偽」。對理論假設或經驗事實進行概率分析雖然能夠揭示出經驗事實提取學術問題,但很難展開較為完美的解釋; 實證研究的發展已經在不確定性、可能性的話語體系道路上止步不前或者徘徊。

  在宏大歷史進程中,研究者時常受制於有限思想認知,系統性難題及其交互影響往往會成為未知區域。總體而言,社會科學研究運用的數量分析方法在快速革新。此時,研究者更需要了解基本事實,經驗研究主義發展趨向及實現方法選擇本身就被嵌入方法論內容範疇。在中國社會科學研究文本呈現中,研究展開和論題闡述的實現途徑早已經陷入對實證、經驗研究的「追捧」陷阱。在經濟學、心理學、社會學甚至法學領域研究中,標貼實證研究早已成為一種時髦。從國內外各類社科期刊所發表的實證或經驗研究論文數量來看,實證主義趨向越發明顯,2000 年後國內期刊更是趨之若鶩。

  在此情景之下,描摹社會科學研究需要靜而觀之和謹慎對待,展望未來、面對質疑才能夠使得事實闡述「有的放矢」。

  ( 一) 因偏離「人性」假設而迷失方向

  社會科學研究對象離不開人及人的行為選擇,經濟人和社會人假設是基本前提。在中國經濟學研究追隨國際經濟學界,日趨公理化、數理化的現實中,我們不禁要問,經濟學研究究竟能做什麼?

  這並非實用主義使然,反倒是追本溯源。從亞當·斯密的《國富論》( 被譽為「第一部系統的偉大的經濟學著作」) 說起,原因是這一部著作將經濟學、政治理論、哲學、歷史和實踐計劃奇妙地結合在一起,不同閱讀目的的讀者都會有意外收穫。殊不知,《國富論》哲學基礎是《道德情操論》( 類似於凱恩斯的《通論》的哲學基礎是《概率論》) ,在《道德情操論》( 通常被認為是倫理學著作) 的闡述中,相關論調早已觸及到道德哲學,中文版的內容介紹中還提及「而後的《通論》更是用同情的基本原理來闡釋正義、仁慈、克己等一切道德情操產生的根源,以此說明道德評價的性質、原則以及各種美德的特徵,揭示出人類社會賴以維繫、和諧發展的基礎,以及人的行為應遵循的一般道德準則」①。關於發展要義可以有不同的解讀,可以從目的和過程兩個維度進行闡釋: 就研究目的而言,體現人本主義關懷和人文情懷; 可以將發展過程視為秩序建構( 社會和經濟) 。經濟學研究最重要的工作是場景給定,然後探討人類行為選擇的規律性。一旦植入了「人性」和「秩序」的發展或是增長研究解讀,必定會對主流經濟學公理化和形式化的科學性「權威」形成挑戰,而所謂的現代主流經濟學研究更像是「皇帝的新裝」,裹挾在形式完美、結構嚴謹及「理性假設」範式危機之下,並未彰顯人的社會性和自然性( 原始動物性) 特質才是行為選擇的決定變數。

  正如陸銘所言: 「當代中國,政治、經濟、社會全面發展所面臨的深刻挑戰即在於,人們對於建設理想社會的目標缺乏共識,局部和短期的利益損害了全局和長期的利益。」

  ②將經濟學納入社會科學研究學科範疇,那麼經濟學研究對人性的關注和人性觀的改變的作用不容忽視。當然,政治學、社會學領域的研究也毫不遜色,而且總是與制度規則和道德聯繫在一起。

  ③社會科學研究需要多一點人文關懷,少一點形式主義; 多一點人性探討,少一點物性套用。經濟學研究尤其如此,人的複雜性決定了並非幾個假設就可以概括,恰恰需要「以人為本」。

  事實上,凱恩斯之警告、克魯格曼之觀察都早已有過對社會各界發問「經濟學家為什麼錯了?」的尖銳回應。

  ( 二) 經驗數據質量引發可信性深思

  在中國社會科學研究領域,標貼實證研究早已成為一種時髦,心理學、管理學和經濟學最為典型。

  在此情景之下,描摹社會科學研究需要我們靜而觀之和謹慎對待,展望未來、面對質疑才能夠使得論述「有的放矢」。從國內外各類社科期刊所發表的實證或經驗研究論文數量來看,實證主義趨向越發明顯,2000 年後國內期刊更是趨之若鶩。回過頭來,我們自然要問實證研究方法是否有值得推敲和斟酌的地方? 余國傑對實證研究的哲學邏輯進行過深度闡釋①: 假定和假說是有嚴格區分的,驗證則是搜集經驗證據並與假設相對照。如果經驗證據與假設一致,則假說或理論命題被證實; 如果不一致,則被證偽。實證主義方法論的「實證」兩字不僅包括「證實」,而且最主要和可實現的工作卻是「證偽」。社會經濟各種現象之間存在著極為複雜的相互作用機制,運用數學、計量工具可以將有關影響因素予以控制,從而解析複雜現象之間的內在邏輯聯繫或作用機理,并力求消除變數內生性,通過反覆推演總能夠讓計算機運行出來的經驗結果表現得更為「乾淨( Clean) 」。然而,一旦使用的數據源存在「缺陷」,分析結果越是「精確」越應該受到質疑,必須承認沒有終結的歸因研究。在現實中數理統計意義上的相關關係未必存在,相關關係和因果聯繫的檢驗和判斷已成為考釋研究者識辨能力的重要內容,還可以將此類研究升格為應用統計分析技術的「規範性」討論。實證或經驗研究對數據質量的要求甚高,採集的數據源和中間加工過程的任一疏漏和錯誤都可能會導致結果或判斷的致命性錯誤。

  通常而言,「證實性」經驗研究結論是或然性的。而當檢驗的直接結果是否定時,由於邏輯上存在著「否定後件推理」的原理,很容易找尋用以證偽理論的經驗證據,而且在邏輯上則是必然的。基於文獻的研究能夠識別既有社會科學因果理論的命題結構及其類型,進而可以保持既有機制陳述不變,引入其他輔助條件,發展新的因果關聯命題,形成基於因果關聯命題意義上的新的理論觀點與研究假設。此時經驗數據質量起決定性作用。在研究論證過程中,使用不同結構和來源的數據得到的結論大相徑庭,國內學界( 尤其是經濟學界) ,已經由質疑使用統計數據的研究轉向質疑「數據」本身。正當國內經濟學發展在形式上的「國際接軌」

  提速之時,經驗研究對數據的依賴最具有代表性。

  於是,有媒體指出: 「中國經濟學研究的背景資料質量存在較大缺陷,……資料不全、資料摻水、資料有偏見等多種問題同時存在,許多方面的標準處於空白狀態。」

  ②深究起來,追求邏輯自洽和形式完美的社會科學研究廣受統計數據的可得性與可信性雙重困擾,「缺失有質量的數據就必定缺乏有解釋力的研究」儼然成了共識。

  ③謹記: 其一,數據質量與經驗研究可信性的關係論證; 其二,如何展開能夠取得最大「真實性」資料的社會科學研究,熟知歷史、立足現實、貼近理論和提取出超前性認識。

  時下,中國社會科學領域的經驗、規範研究質量提升得益於數據可得性增強,數據源的多元化。

  即便是純粹理論研究( 包括方法論) 形成的經驗事實描述依然受到數據質量的約束,問題提出和背景闡述離不開直觀的數據支持。理論建構依賴於現實,檢驗結果又必須回歸現實。重返社會科學研究目標追求,趙剛早已給出警告: 「越是追求『結果的完美』,越是偏離社會事實。」再就是「提倡小題大做。」但小題大做必須具備兩個條件: 第一,在細緻研究上所投下的精力必須與研究結果的功能相稱,過分細緻的追索其實沒有必要,甚至是一種人力之浪費,原因是「學術研究不是手工藝品,只見功力,沒有功用」。第二,小題經過大做之後,仍需有人來綜合處理,才能看出全貌。形象化的概述則是: 「把森林中許多葉子做了十分詳盡的化驗與分析,但對整個森林的全相卻一無所知,並不是理想的林業研究工作者。」

  ④為提高經驗結果的解釋力,研究需要建立在堅實的理論基礎之上,更需要有歷史的、全局和系統性思維,以防缺乏縱向時間維度的比較而忽視了約束條件的重要性。

  三 社科實證研究的「低水平重複」陷阱

  社會科學經驗研究主要依賴於概率,具體方法不外乎「歸納」和「演繹」兩種研究實現路徑。概率的通俗化表述皆為「可能性」,重提拉姆齊和凱恩斯的有關闡述對於我們對社會科學研究的「模糊性判斷」做出客觀描述尤其重要。由於個人的經驗不同,導致研究者對客觀概率的測度存在偏差。從邏輯學的角度來說,凱恩斯的演繹方法較之拉姆齊的歸納方法更加安全或者說更趨穩健。通過簡單的比較會發現,其實都是在類似的角度下考慮概率,即從概率如何產生來考慮概率。社會科學研究的實證主義嘗試和哲學討論早已被捲入到研究可信性大討論之中,證偽主義除了受到自然科學哲學的批評外,更不適合於基於概率性因果關係的社會科學。社會科學的統計檢驗自有其意義,並不需要冠以「證偽」的名號,證偽主義不是社會科學賴以立基的邏輯基礎。

  ①在不可試驗的研究過程中,因果關係的討論總會深陷「雞生蛋還是蛋生雞」的邏輯困擾。假以時日,科學界若能夠搞清楚「第一隻雞從哪裡來?」,一切問題都將迎刃而解。研究問題決定方法,而不是方法套用問題。卡爾的認識極為深刻,其中一句話雖然通俗易懂但卻道破全部真理:「歷史就是人與時間的對話。」

  ②在此,重述「歷史總是在不斷重演」的古訓和判斷,當代中國所處的大轉型時代,各種應運而生的社會、經濟問題,英國、法國和美國、日本都曾經遭遇過,在總結髮展、研究此類現象時就已經在向人類發展規律總結逼近。因此,社會科學研究主題、內容和對象是動態的,而唯有規律是恆定的。

  早有這方面經典著述,《馬克思恩格斯全集》及《雙城記》描摹的英國和法國歷史場景,和加拿大記者道格·桑德斯《落腳城市》給出的世界各地場景所展現出的實質就是人的活動和發展的規律。社會科學研究問題是全球性的、非時代性的,切入點卻大不相同。在描述和解釋社會經濟現象( 學術問題解釋) 時,不僅需要知道事實形成的過去,闡述現實表現( 終將成為過去) 以及未來發展演變的可能狀態,某種意義上講不同維度、不同層面的全面深度解析是構成社會科學研究規範的重要內容體系。

  福山早已論及道: 「將理論放在歷史之後,我認為是正確的分析方法。……社會科學往往以高雅理論出發,再搜尋可確認該理論的實例,我希望這不是我的態度。」

  ③在此,給出嚴密因果聯繫的精確判斷和演繹縝密邏輯的實例。2012 年11 月29 日,鳳凰網有一篇「『千城一面』———城市規劃的濫觴」的文章,指出「城市規劃在先,城市建設按照規划進行」。歷史就像一面鏡子,對於社會科學研究而言,重現歷史就是在尋找實證證據。問題「起源」是研究講述的重要背景,歷史是實證主義的「靈魂」。

  進入 21 世紀,中國經濟學界對於實證和經驗的「追捧」超前了其他學科,單從形式上講可謂跑步實現了「國際接軌」。有英文作為輔助,「走出去」發表也更多。中國發展是否適合用拿來的知識加以概括至今無人能解答,甚至於馬克思主義政治經濟學也被趕時髦地貼上了「實證」的標籤。事實上,國內報刊媒體刊發社會科學研究「短論」的思想性、簡明性讓我們更多地體味到研究成果所能起到的「意識」導向和對現實的深度解剖作用。重新回到「可信性」問題的討論,中國式經驗或實證研究遭遇的困境不僅僅局限於可信性,更深層次的問題則是「如何搞對問題」,又如何識辨方法「是否適宜」? 在統計分析技術在服務於數據分析的過程中,數據質量就比什麼都重要。計量經濟學作為應用經濟學的分支方法論學科,基礎是「數據」。數據的類型通常有三類 T - C - P( 依序為時序數據、截面數據和面板數據) ,這也是數據二次採用和研究的基礎。誠然,研究過程中內生性的討論固然重要,但需要建立在「數據」可靠性基礎之上。經濟學研究中,問題意識和歷史感極為重要。使用數據展開經驗研究是研究者的拿手工作,依賴於數據開展經驗研究時會出現「差之毫釐,謬以千里」,由於社會科學描摹的各國社會現實。當然,由於社會科學研究的結論偏誤很難做出「檢驗」,需要社會科學研究者自律、自省,儲備歷史的知識,多開展一些調查研究工作。

  四 社科實證研究的方法論「萬能」陷阱

  在歷史長河中,融合、統一社會科學和自然科學的嘗試與努力總需要人們在「科學的目的與方法究竟是什麼」這一問題上先達成某種程度的共識。

  儘管「解釋」不是恰當的科學語言,在生物學、物理學和化學中也並非特別重要,但解釋、闡釋、文本卻是社會科學最為普遍的基礎,在社會科學領域種種充滿主觀色彩的人性化解釋不可避免。融合自然科學與社會科學研究的研究方法,社會科學研究各領域交叉已經在改變著我們的研究去向。原因是,作為研究者無法也無力去迴避社會科學研究融合,被我們所熟知的社會科學家本難以做出嚴格的「學科領域」歸屬判斷。問題選擇雖有區別,實現方法不盡相同,實證尤其是證偽才是科學性建立的根基。當然,實證研究並非萬能,理論基礎或理論建構決定了社會科學研究的「水平」。作為一門顯學和最接近科學的經濟學研究卻總是遭到批判,某種程度上講經濟學研究實現方法論走向科學的同時理論發展幾近停滯,兩者的此消彼長對於這一領域的研究者而言是「短板」而非「長處」。現代經濟學者濫用經濟學理論去解釋現實並不構成經濟學理論本身被「證偽」的理由,這就好比一個蹩腳的建築師誤用了平面幾何定理造成了設計失誤,但這並不構成平面幾何定理被「證偽」的證據一樣。

  ①自斯密以來,經濟學研究「大三角」( 由問題意識、理論建構和實現方法論構築) 關係互動已經成為學科發展以及決定未來方向的內核,數以萬計的經濟學家還努力在新古典經濟學的形式模型體系內工作,而大量的研究文本選擇「理性選擇理論」、「公共選擇理論」作為基礎( 社會科學研究理論建構離不開「人性」的討論) 。為解答這個問題,在一定程度上取決於站在何種立場上看待自然科學和社會科學在方法論上的整合。在社會科學研究之文本呈現中,藉助數據可以將問題具體化,甚至增強了「可視化」程度,使得研究範式從思辨性論戰的批評中解放出來。

  社會科學研究總是在努力使得結果和解釋逼近於真實世界或是揭露運行規律,也因此結論的大相徑庭和說理對抗( 或者研究向前邁進一小步的過程) 總是在不斷上演。為對此作出說明,我們以中國基尼係數的「大討論」故事為例,原因是此話題不僅是經濟學問題,更是社會和政治問題,與現實聯繫得最為緊密,社會各界對此都給以高度關注。

  2013 年 1 月 18 日,國家統計局公布 2003 年至2012 年中國居民收入的基尼係數。據此可知,全國的基尼係數在2003 年為0. 479,自那之後逐年上升,到 2008 年曾達到歷史最高點的 0. 491,其後的幾年有所回落,到2012 年降為0. 474。在此數據公布之前,西南財經大學中國家庭金融調查中心根據其住戶調查計算並且「搶先」公布了 2010 年全國居民收入差距的基尼係數數值為 0. 61。正如有論者指出: 「有可能因為西南財大的基尼係數( 『先入為主』的緣故) ,國家統計局公布的基尼係數受到了一定的質疑。」查閱資料發現,批評西財基尼係數數值的一方指出: 正是由於樣本偏差和收入指標統計上的問題,讓該調查對很多家庭給出了不現實的低收入,居民收入差距( 0. 61 的基尼係數) 被高估的原因之一也在於此。

  ②從社會公眾的心理反應來看,基尼係數不僅是一個數,被傾注了更多理性的,非理性的主觀情緒,也有「歷史的記憶」,此次基尼係數的公布還引發了統計制度的討論。從研究過程來看,基尼係數只是測算數,但取得該數背後的過程是極其複雜的,對估計結果加以詳細說明是完全必要的。

  超越數值之爭,作者根據公開的 CGSS2008 年的數據測算「農村戶口」個人和家庭收入的基尼係數,不同分組都在 0. 5 左右,農村戶口家庭基尼係數值是 0. 491,與國家統計局公布的中國全國居民收入的基尼係數 2008 年 0. 491 在數值上一致,絕非巧合。依據戶口類型的測算將「不知道」和「拒絕回答」兩類少量樣本用已知的樣本數值的「平均值」來替代,作此處理主要理由是不改變樣本的分布情況,但補足缺失數值以保留「有效樣本」。作此處理也是為了說明,其實未剔除「最高收入組」和「最低收入組」,基尼係數測算依據樣本總會收斂於 0. 3 ~ 0. 6,原因是大樣本情況下的「正態分布」假設總能夠得以滿足。作此處理排除居住地、職業的城鄉差異,控制個人和家庭特徵變數後,對個人收入不平等做分解結果發現受教育年限和家庭人數變數( 和被調查者居住的人口數) 兩項貢獻最大,數值分別為 34. 8%和 12. 2%,藉此可以解釋差距的 50%左右。接著,由於 2013 年國家統計局公布了 2003 年以來的基尼係數,通過描述其與經濟增長率的關係發現,兩者存在著高度的相關性( 考慮滯後影響) ,自 2003 年以來兩者都呈現出「倒 V 型變化」,也即經濟增速經歷了最高點、不平等程度也達到最高點,但並不能以此短期波動變化來判斷不平等已經得以改善。如果延長時限此變化趨勢仍然成立,那麼由此數據的簡單擬合我們似乎可以推知在一定發展階段,高增長必然導致不平等的因果判斷,經濟增長是不平等的根源,前提條件是: 起點差距甚小,但由於經濟的快速發展結果使得不平等加劇。

  對於當下中國的社會科學研究而言,急需營造堅守「頂天立地」之學術追求大環境: 何為「頂天」,也即專註社會科學領域的尖端、前瞻性理論問題;「立地」就是立足於中國社會經濟發展大轉型現實,捕捉中國問題、建構中國理論和尋求中國解釋。

  問題是研究的起點,也是學科發展的生長點。

  ①結合學術與研究的發展認識可以做出判斷,問題導向抑或知識( 文獻) 導向決定著中國未來社會科學研究發展的命運,歸屬於工具理性範疇的實現方法論( 尤其是數理化、公理化) 很可能加速研究者遠離學術( 學術生命短暫) ,大多數情況下的研究工作只是服務於「唯成果發表」的研究認知。目前看來,數據的可得性增強對於社會科學研究而言是一把「雙刃劍」: 一方面,為社會科學研究注入了活力; 另一方面,正在挑起社會科學研究的新的「可信性」革命( 這一次或將超越實現方法論的可信性) ,也不排除中國社會科學研究會再來一次「跟風」。

  縱觀而論,中國研究方法革新( 奉行拿來主義) 與學術「大躍進」( 盛行發展主義) 齊頭並進,以至於最終脫離方法論研究的初衷,其對於研究所能夠起到的作用只是「規範」。研究的起點是「問題」,人文社會科學研究勢必需要建立起問題意識、學理意識和方法意識,方法論特徵則可以用「法無定法,道有常道」來概括。

  ②在大數據時代,中國社會科學研究的傳統範式或將被改變,中國實踐和社會運轉甚至會顛覆傳統經驗、實證方法。倡導和展開社會科學研究的可複製性和可檢驗性實際行動也可視為研究的可信性革命,然而公布、公開社會科學定量分析原材料亟待建立一個透明和開源的學術機制,機構或是個人在積極倡導「可複製性研究」( Replication Study) 。在具體行動上,經濟學研究開創了先河,這就是《美國經濟評論》( AER) 自1999 年改版後開始論文上網,2003 年以後經驗和實證研究論文的數據及方法公布在期刊主頁上,可供「複製」和檢驗。並於 2011 年第 1 期再現 100 年來的 TOP20 論文,從中能夠捕捉到期刊的成長和經濟學研究發展經驗化之路。經濟學、社會學、政治學等社會科學研究領域已經有大量的學者積極倡導,並付諸於具體研究行動,在可知的範圍內,《美國經濟評論》公布數據、程序開創了典範。

  五 結語

  進入 21 世紀,中國社會科學研究步入了飛速發展快軌,尤其是 2003 年各大主流期刊改版後拉開了經驗主義盛行序幕。伴隨著可獲取數據渠道的多元化、實現方法論的複雜化以及可研究的學術問題的多樣化,發展也因此而陷入迷茫。就中國社會科學研究現狀而言,作者和期刊的偏好選擇促成了經驗主義趨向,深陷可信性陷阱。

  在大轉折時代,大數據生成很可能會誘發社會科學研究嬗變; 更進一步,展開問題選擇、方法論認知和可信性三維度深度論述都會是宏大的研究工程,本文的論述意在指出如何提防形式主義陷阱。

  重塑中國社會科學研究新格局,研究者的潔身自好是准入的前提,學術期刊的平台管束和引導可謂最後的「把關」,當然更需要社會各界重新認識社會科學研究的真實面。以思辨性思維探討和反思中國社會科學研究之發展,以期建構起數據與經驗研究之間的辯證聯繫,需要反思的恰恰是社會科學研究者自身。

  知曉常識,尊重知識,重溫傑文斯在《科學不涉及終極關懷》一文中的經典論述: 「任何科學研究中,邏輯法則和方法的有效性,即我們在這個世界上確定方向的一般基礎,都是有前提的。……社會科學各學科知識教給我們如何從源頭上理解政治、藝術、文學和社會現象。」

  ③社會科學研究是一種知識生產活動,常言道: 「一切皆有可能。」在信息時代,過去不能實現的研究也將會變成現實。從理論上講,實現數據的集成已經是一項極其容易的工作,包括政府機構和統計部門及大型企業或網路平台數據、監控視頻等已經構成了很豐富的大數據資源庫。社會科學研究本該是創新知識和服務社會的實踐活動,有良知的社會科學研究工作者不應當被曇花一現的形式化浪潮吞沒,勇於擔當引領正道,不拘一格再建中國本土化學術體系,重獲學術自信。


推薦閱讀:

腦智科學研究的最新進展與實踐應用
研究確定造成癌症的「罪魁禍首」,應對療法進入試驗階段
《占星相位研究》
論古史辨派的易學研究
大寫意花鳥畫技法研究

TAG:大數據 | 數據 | 時代 | 大數據時代 | 實證 | 研究 |