第四種研究範式:大數據驅動的社會科學研究轉型
摘要
大數據在社會科學研究領域的應用使社會科學研究正在經歷從定性研究、定量研究、模擬研究向大數據研究的第四研究範式轉型。第四研究範式緩解了已有社會科學研究用通則理論和簡單數量關係來解釋複雜社會現象,用小數據小樣本來外推複雜的社會因果關係,用有限數據來模擬複雜信息條件下的宏觀湧現等問題。這樣第四研究範式就突破了傳統社會科學研究目標弱化、學科學派對立、有限數據質量和統計偏誤等的局限性。大數據通過對個體化、全樣本的研究,為社會科學提供了精準的數據和計算實驗平台,重建了社會科學預測的可能性,推動了社會科學宏觀理論研究的發展,促進了社會科學內外部學科之間的融合,形成了社會科學知識體系多元化集成和拓展,是社會科學方法論的革命和認識論的躍遷。社會科學四個研究範式之間並非是相互替代的關係,它們都是我們進行社會科學研究的有效工具,但第四研究範式將為已有社會科學研究提供更高的數據起點和更廣闊的方法論視角,同時也要求我們加速數據開放,注意數據倫理問題,構建跨學科合作網路,締結基於大數據研究的科學共同體。
01
前言
隨著互聯網、雲計算和物聯網技術的發展,社會信息化和智能化程度不斷加深,數據充斥著整個世界並「滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素」。由此大數據(Big Data)發展得到全球性的廣泛關注,並深刻地「變革我們的生活、工作和思維」。作為新的流行語,大數據存續時間並不久遠,也沒有形成統一、明確的概念,但從近幾年出現的大量文獻來看,已經成為當前哲學、自然科學和社會科學領域關注的重要問題。目前,對大數據的研究主要集中在「技術」「資源」和「應用」三個方面:(1)從技術上分析大數據獲取、存儲、分析、處理、管理和應用等技術手段;(2)從資源上分析國家或企業戰略、商業利益、產業發展、產權和法律問題;(3)從應用上分析其在商業、金融、醫療、社交、科研等領域的集約型、智慧型轉變和創造新的價值。
在大數據時代,人們需要藉助專門的思想和手段,從大量看似雜亂、繁複的數據中,收集、整理和分析「數據足跡」,以支撐對社會的預測和規劃,以及進行商業決策等。「『大數據』之『大』,並不僅僅指『容量大』,更大的意義在於通過對海量數據的交換、整合和分析,發現新的知識,創造新的價值,帶來『大知識』『大科技』『大利潤』和『大發展』」。其中科學研究領域的應用既是大數據的重要來源,也是大數據發展的主要方向,更在認識論、方法論、倫理學等層面深刻地改變著科學哲學和技術哲學。
從科學哲學的層面來講,大數據的出現正在促進科學研究範式的轉變。吉姆·格雷(Jim Gray)總結認為,人類科學研究經歷了實驗、理論和模擬三種範式,目前正在進入「數據密集型科學發現」的第四研究範式。在今後的科學發展中,基於「數據探索」的研究範式不僅能夠模擬模擬,還能分析總結並得到理論。與格雷的立場相似,美國國家科學基金委員會(NSF)等6部門聯合推出的大數據計劃也旨在提升從大量複雜數據中獲取知識和洞見的能力。馬克·普林斯基(Marc Prensky)、伊安·斯特德曼(Ian Steadman)、羅伯·基欽(Rob Kitchin)等也認為第四研究範式已經出現,對現有的科學研究範式構成挑戰,科學研究正在進入基於大數據發現的新的研究實踐。雷·常(R.M.Chang)等則認為大數據的出現為科學研究範式的轉換提供了可能,與格雷等觀點相異的是,他們認為科學範式的轉向是可計算社會科學而不是探索性科學。
在社會科學研究領域,推動變革的重要因素同樣是「每一個研究領域擁有大量信息化的數據」,這將促使「大部分人文社會科學走向具有自然科學的特徵」。這是在社會科學研究領域對大數據將會帶來革命性變革的重要預言,必然會對傳統社會科學的研究產生巨大衝擊。儘管大數據能夠彌補社會科學產出不足的詬病,推進其「科學性」「計量性」的發展,但社會科學界對是否接受這項挑戰似乎還在猶豫不決。從社會科學的「小數據輔助」研究傳統向對「大數據發現」研究範式的轉換,是否提供了一種新的研究框架?是否將「產生理解個體、群體、社會如何思考和行為」新的研究方法?大數據在「認識論層面如何影響社會科學」,「能否重塑社會科學」?這些問題目前還沒有得到系統和深入的回答。
02
社會科學研究的四種範式
吉姆·格雷提出的四種研究範式包括用來描述自然現象的實驗科學、使用模型或歸納法進行研究的理論科學、通過計算機模擬複雜現象的模擬科學和基於數據探索,實現實驗、理論、模擬融合的數據科學。但格雷的四種研究範式主要是基於自然科學的發展歷史而言的,對於社會科學來講,人類對社會領域的認知要更為久遠和複雜,大致經歷了(1)與自然科學渾然一體的自然哲學階段、(2)向自然科學學習卻又不斷分化的階段、(3)對第二階段進行反思與批判和(4)基於複雜性科學的重新融合階段。這樣看來,各階段的社會科學研究範式與格雷的自然科學發展範式存在差異,其中(2)、(3)兩個階段基於實證主義和詮釋主義的定量與定性研究方法甚至形成了社會科學研究範式的對立,這在自然科學研究中是沒有出現的。因此,根據社會科學四個研究階段的主要方法論,可將(1)(3)階段的哲學思辨和定性研究稱為社會科學研究第一範式,將(2)階段基於實證主義傳統形成的定量研究稱為第二範式,將(4)階段重新走向融合後的自然科學和社會科學研究範式統一,劃分為基於模擬研究的第三範式和基於數據科學的大數據研究第四範式。故此,在社會科學領域,研究範式的演化與格雷總結的自然科學研究範式演化有所不同。(參見圖1)
(一)第一研究範式:社會科學的定性分析
人類對社會的定性分析分為兩個階段:17世紀以前社會科學思想萌芽和綜合累積階段,以及20世紀60年代以來對實證主義和定量研究程序的反抗階段。
第一階段,從人類脫離動物界進入共同體文明時期,有關社會認識的思想萌芽就開始誕生。原始人類用宗教和神話的感性形象(有靈論)凝縮關於自然和社會的情緒聯想。對人類社會的自我認識和理解以「集體表象」「互滲律」的思維特徵和「身體參與」「講故事」的形式傳播。進入奴隸社會後哲學從神話中分化出來,通過「思辨」建立理性「概念」,在強調邏輯嚴謹性和崇尚理性思維的前提下,對人與自然和社會的關係、社會現象以及人類社會發展美好圖景的想像加以描述。建立了諸如「禮」「仁」「法」「正義」「民主」等社會科學範疇,形成了政治、倫理、軍事、法律等社會科學思想。這一階段的研究不區分自然科學與社會科學,對社會現象的觀察也是籠統的,把所有知識大一統於「自然哲學」的體系之內,為自然和社會現象提供同一套解釋系統。封建社會時期,早期的西方社會科學經歷了漫長的停滯,導致狂熱的宗教崇拜和盲目的虛無主義,經院哲學只負責對基督教信仰進行辯證,成為宗教神學的附庸。古代中國對社會的認知經歷了漢、唐、宋三次發展高潮,以「文史哲渾然一體」的形態發展繁榮,並形成了「有機自然觀」。
這一階段社會領域的研究方法主要是類比和推理,以個人情感外推法、經院哲學論證法和經學注釋法為主流。對社會的認識往往夾雜著學者的個人感受、經驗、猜測、思辨或願景,具有一廂情願式的片面性、非客觀性和前科學性,在經院哲學和經學注釋中,甚至推崇抽象、空洞的推理和無限重複的正名考據與註解。這一階段我們可以稱之為對社會認知的哲學思辨,建立了樸素的唯物主義和唯心主義理念論、早期辯證法、演繹法、三段論與歸納證明、有機論的自然觀和經驗論等。這種早期的形而上學的探討對推動後來的科學發展起到了巨大的作用,許多知識至今仍然是我們認識社會的出發點和基本準則,被譽為「在希臘哲學的多種多樣的形式中,幾乎可以發現以後的所有看法的胚胎、萌芽」,「希臘人對各門社會科學首先做出了分析性和邏輯性的貢獻」。
第二階段,即現代社會科學的定性分析。通常涉及(1)觀察和記錄事實,(2)分析、比較和分類,(3)歸納概括事實間的關係,(4)接受進一步檢驗四個步驟,是「自下而上」的研究路徑。定性分析起源於19世紀,隨著人類學、民族學和心理學等學科的發展而建立起來。其早期淵源也可追溯到古希臘時期的詭辯論者,其在實在、真理和知識等問題上持相對主義立場,並認為真理取決於情境、語境和目的。後在吸收維科「想像科學」和法國浪漫主義對現代理性科學的批判、狄爾泰「生命哲學」與「理解」方法論和社會科學領域對「社會行為」、「社會交往形式」研究等內容的基礎上,在20世紀20年代與符號互動理論相結合,產生了定性研究方法。早期的定性研究主要憑主觀經驗和理論思辨進行,一度因社會調查運動而引人注目。但由於缺乏統一的方法論原則和規範性操作,隨意性較大,在實證主義和定量研究佔主導地位的社會科學研究領域中處於邊緣地位。
20世紀中期以後,隨著證偽主義、科學範式、精緻證偽主義和知識無政府主義對定量研究哲學根基提出的挑戰,自然科學研究不斷發展產生的系統論、資訊理論、控制論、耗散結構、協同論、突變論、模糊數學、混沌理論和複雜性科學對傳統機械決定論的動搖,以及人類社會發生的巨大變革,挑戰了實證主義在社會科學研究領域至高無上的地位。科學意義上的定性研究在對定量研究的批判中逐漸發展起來。此後,在經歷「語言轉向」和「定性與定量方法論範式戰」後,在計算機科學和信息技術的推動下,定性研究在20世紀80年代逐步成熟,形成了獨特的概念體系、具體方法和理論,開發了規範化的操作程序和研究工具,個案研究、紮根理論和敘事探究等定性研究設計類型也得以開發,並出現了「參與」和「倡導」實踐。這一認識社會的範式認為並不存在所謂的真實外部世界,現實世界就在「我們之中」,它由多重事實構成,是一種社會建構或話語建構,研究者和被研究者之間的關係是主觀的,不可能進行客觀分析,也不存在客觀真理。要求研究者「移情式理解」行為的意義,用文字闡釋社會環境,而不是簡單接受環境。研究者重視實踐和行動取向,強調將意義賦予經驗或現實並做出不同的詮釋,在持續互動中建構社會生活。
(二)第二研究範式:社會科學的定量研究
定量研究方法凝聚了人類對科學理念的長期探索。「提倡數量方法通常是由於數學的性質是作為一種精確的、不含糊的語言,這種語言能夠更進一步拓展我們演繹推理的能力並超越完全口頭方法的能力」。這種對於確定性的追求起源於古希臘唯理論、理念論和因果關係的哲學理念。在17世紀後半葉,自然科學擺脫了神學和經院哲學羈絆,現代唯理論和經驗主義的實驗科學獲得發展,基於「觀察-假設-實驗」的歸納法提出了現代意義上的定量研究。同時,在社會追求更加精確的知識作為制定決策依據的需求下,研究者也開始轉向對社會現象的定量研究。自然主義的社會科學誕生,社會科學試圖通過模仿自然科學的方法和語言,用自然規律解釋人類社會。在這樣的背景下,孔德模仿自然科學,提倡以人類社會生活的整體為研究對象,採取「觀察+實驗+比較+歷史」的研究方法創立了社會學並形成了經典實證主義。塗爾干提出了「社會事實」研究,《自殺論》展現了「一個建有正確性和精確性特徵的經驗性實證科學」。此後,概率論被引入社會科學研究,統計學(包括生物統計學、一般統計學和小樣本統計理論)和心理學實驗室創立,操作方法和實驗設計原理、推論統計學發展起來,定量方法逐漸主導社會科學研究。20世紀初,在邏輯實證主義和操作實證主義共同推動下,基於實證主義傳統的定量研究在社會科學研究領域佔據了主導地位。
「數學方法應用在社會科學的方法論之中,對社會科學研究方法的思想和研究過程的邏輯、步驟產生了重要的影響」,在社會科學創立和發展過程中發揮了巨大的作用。通過定量研究,政治學、經濟學等諸多傳統社會科學學科獲得了新的發展空間,特別是社會學得以創立並不斷深化,社會科學學科分支呈扇形逐步細化和延伸,學科理論不斷深化,與社會實踐的結合也更為緊密。在當代社會科學研究中,「其他哲學傾向的研究範式並不構成對實證研究的徹底否定」。近50年來,包括社會學、經濟學、政治學、管理學、教育學、人口學在內的社會科學總體向更為嚴格的科學主義取向、更為專業的方向發展,這在相當程度上是以統計學的廣泛運用和定量研究為基礎的。
從孔德開始,認為社會科學與自然科學性質一樣,都是尋找和建立普遍規律,主張以科學的經驗研究排斥形而上學的思辨和臆測。在研究中堅持歸納主義和價值中立,主張方法論的個體主義,對經驗的檢驗不依賴於主觀的感覺,而是邏輯的檢驗。其基本研究路徑是「提出假設-驗證假設」,遵循「觀察社會現象—發現研究問題—收集有關個體的個性資料和數據—進行統計和分析—發現共性的、普遍的規律」的研究理路。但是由於社會科學研究對象的構成要素複雜多元、因果關係動態多變,研究對象和研究過程不可控性強;特別是社會科學研究對象——主要為人及其行為——的特殊性,在研究過程中並不能像自然科學一樣進行重複性的實驗;另外,社會科學研究數據採集和分析困難,所使用的歷史統計數據從統計學的基本假設來看,也是不同質化的統計單元,這使得社會科學在統計和數據採集的績效上就大打折扣。這三個缺陷極大地影響了社會科學定量研究的成效,造成了社會科學研究在模仿自然科學進行假設和假設檢驗時,更多地依靠研究人員進行主觀建構。並且在研究過程中,社會科學研究往往同時採用真實世界的統計數據進行邏輯關係的建構和驗證,以證明主觀建構邏輯關係的正確性和科學性,定量模型與真實世界之間的隨意切換,導致社會科學的回歸檢驗常常十分脆弱,定量研究的邏輯關係往往不能真實反映社會系統的真實場景。
(三)第三研究範式:社會科學計算實驗的模擬研究
以生命哲學和實證主義為基礎的兩大研究傳統的形成,對社會科學的發展做出了重大的貢獻,但同時也存在明顯的缺陷。實證主義對客觀規律科學性的追求陷入了還原論的陷阱,容易產生偏執的分析方法,熱衷於窮枝末節,以犧牲全景式認識換取條分縷析。生命哲學試圖擺脫實證主義的客觀片面性,但卻陷入了歷史主義的泥沼,堅持歷史事件的個別性,用特殊性和個別性取代普遍性的追求,陷入更繁瑣的細節。由於科技革命和資本主義生產方式的快速發展,社會變化的速度日益加快,社會科學在這兩個方面的缺陷更加明顯,往往陷入學科細分和方法錯綜的密林,導致「只緣身在此山中」,從而快速失去對「廬山真面目」的整體性認識。「由於不是以適合人類社會複雜的和自由發展出來的特性的方法進行研究,社會科學受到很大的損害」,企圖直接採用自然科學的研究方法,「曾經得出過於簡單化的、謬誤的和危險的結論。統計的採用往往給社會的事實加上一種貌似正確的虛偽幌子」。同時,社會科學對精確化和形式化的追求也導致了另一個問題:「當系統的複雜性日益增長時,對系統特徵的精確而有意義的描述能力將相應降低,直至達到一個閾值,一旦超過,精確性和意義性就變成兩個相互排斥的特性」。隨著複雜性科學的興起,人們對複雜性思維和複雜性的探索,不斷加深了人們對「社會現象從本質上來講更主要體現模糊性」的認識。
在此背景下,系統論和模糊性理論及其方法的發展,給社會科學研究帶來了新的希望。馬克思主義的社會衝突理論、貝塔朗菲的一般系統論和帕森斯等建立的結構功能主義為社會科學的系統論奠定了基礎。20世紀中葉以來,全球化的極大發展在快速改變人類社會物質生產、精神生活以及思維方式、價值觀念的同時,也產生了系列全球性社會問題,引發了廣大學者和思想家的關注。複雜性科學的發展與人類對全球問題應對的需求,以及新技術的發展,特別是計算機技術的不斷成熟,極大地促進了模擬方法研究在社會科學領域的推廣應用。模擬研究以數學方法、計算機技術、統計科學、信息科學和控制技術等為基礎,運用計算機編程模擬的方式,在虛擬環境中模擬現實世界可能發生的現象、發展的狀態,甚至是對未來變化趨勢的預測。在社會科學領域,計算實驗方法的出現,「不僅僅是簡單的研究技巧和具體方法的改進,更為重要的方法論意義是把現實社會系統轉化成由智能主體構成的演化系統」。這個演化系統通過「人工個體」代替現實系統中的「人」,揭示社會系統中「個體微觀行為和系統宏觀行為之間的動力學機制」。
社會科學計算實驗已經在多個領域實現,其中採用較多的複雜系統模型有元胞自動機、離散事件模型、系統動力學和基於主體的計算機建模(AMB)等。在解決全球性問題上,羅馬俱樂部利用系統動力學建立了World Ⅲ模型,為推動可持續發展理論做出了巨大的貢獻。隨著約翰·霍蘭(John Holland)提出複雜適應性系統(CAS)理論,基於主體的建模思想因其具有微觀宏觀一體化特徵正在迅速興起和廣泛應用,成為社會科學計算實驗的有力工具。在考古研究、種族主義、恐怖主義、宏觀經濟、文化傳播、性別與繼承、商業管理和土地政策等領域獲得了令人驚嘆的成果。基於主體建模的方法採用「多主體建模」和「非中心化思想」,借鑒非線性動力學和人工智慧領域的技術,從社會科學研究的個體對象出發,採取自下而上的建模策略,通過對主體行為的刻畫實現自下而上的宏觀湧現。與系統動力學相比,ABM不是從定義系統的整體行為出發,建模人員對各層級主體的行為進行單獨界定,全局狀態是由個體與個體之間、個體與環境之間互動作用的湧現結果,實現了從微觀層次的主體行為到宏觀湧現結果的過程。
此外在物流管理、企業技術戰略選擇、危機管理、輿情控制和消費決策等領域也開展了積極的模型構建和模擬模擬,在土地利用與土地覆被變化(LUCC)、生態系統服務等交叉學科領域,建模模擬工作更是普遍。2017年,美國國防高級研究計劃局(DARPA)更是推出了雄心勃勃的「地面真相」計劃,旨在使用基於計算機的人造社會系統模擬,內置「地面真相」因果規則作為測試平台,以驗證各種社會科學建模方法的準確性。
第三範式的產生突破了社會科學研究對象無法實驗或無法重複實驗的限制,實現了現實世界中成本巨大或者根本不可能獲得的研究和實施環境,對了解和掌握社會經濟系統的結構和功能提供了有效的思考方法和實驗工具;打破了自然科學研究和社會科學研究的隔閡,促進了社會科學研究中的多學科融合;基於主體建模的方法更是解決了第二範式研究中因還原論導致的社會科學研究對整個社會經濟系統的理解沒有增加的困境。
(四)第四研究範式:基於數據科學的大數據研究
人類社會進入後工業化時代後,全球問題的出現使得人們意識到人類開始從對外在自然的依賴發展到對人的依賴。人類對社會內部危機的不安遠勝於對自然現象的恐懼。人類對「及時認識社會的社會科學」需求更加迫切。全球化和科技的快速發展並沒有使社會關係簡單明朗化,而是讓其更加複雜化、含混化,其結構和層次比以往更加錯綜複雜,變化也比以往更加瞬息不定。社會發展要求社會科學及時認識社會的同時,社會的快速發展又為人們認識它增加了新的困難。同時,由新技術革命導致的「第四要素難題」,使得計算機雖然能夠對自然系統進行精確的模擬,但對人類社會的模擬卻顯得不盡如人意。「隨著每一部機器的設計,人的精神(不是絕對精神)都把自己的一小部分外化為(技術的)自然,電子計算機把人的整個精神結構外化為自然,同時也使人的精神能用自己的這種外化的技術行為方式來研究自己」。因此,社會科學家希望人工智慧能夠提供一種關於思維和社會的模型方法,使我們對複雜的精神認識過程和複雜的社會現象進行精確的理解。但是由於計算機軟硬體設計的困難和社會本身的複雜性,以及計算機在社會科學研究中第2位的角色,模擬模擬方法得出的結果「顯得蒼白,遠離主流社會科學的方法,因此這種方法總是不被社會科學家們所欣賞」。
但是最近十餘年來,隨著互聯網的興起和實時在線數據的易得,這種狀況正在改變。感測器網路、社會化網路、射頻識別、通話記錄、科學研究共享數據和複製性研究以及其他開放數據為社會科學提供了新的研究範式。與模擬研究相比,大數據驅動的社會科學研究具有以下六個特點:(1)在研究對象上,大數據方法面向海量數據,計算機模擬面向根據系統建立的數學模型;(2)在推理邏輯上,大數據依據數據歸納得出數學模型,模擬依據模型演繹得出計算結果;(3)在自動化程度上,大數據從數據獲取、建模到分析預測,都是計算機自動進行的,而模擬研究只有模擬實驗這一步是自動完成,僅占科學研究過程一小部分;(4)在解釋力度上,計算機模擬模型基於假設的建模為理論解釋奠定了堅實的基礎,而大數據建模基於演算法的自動化過程缺乏這樣一個基礎,解釋力較低;(5)在角色地位上,模擬主要承擔實驗的角色,通過不斷試驗確定模型參數,而大數據則在科學研究中無論建模還是分析預測都佔主體地位;(6)在基礎設施上,計算機模擬可能涉及一台或多台計算機,而大數據則涉及更多基礎設施,包括自動獲取數據的各類感測器、連接用戶、物聯網與電腦的網路設施等。
在第四研究範式中,研究者們不僅直接以真實世界為研究對象,更加依賴工具獲取或模擬產生的科學數據,運用數據挖掘工具進行統計和計算,進而對內容進行分析。在社會科學研究領域,由於「萬物皆智能」「萬物皆聯網」引發了「萬物皆數據」,出現了「計量一切」的趨勢。社會科學研究的對象也從傳統的人參與的社會系統和社會過程轉變為現實世界和虛擬世界平行系統互動形成的數據網路。大數據成為社會科學研究與真實世界之間的擬態環境。隨著在線人群、線上活動越來越普及,大數據將成為現實世界鏡式反射。屬性數據、行為數據和時空數據在大數據環境中得到融合,從這個角度來看,自然科學與社會科學研究對象將在大數據驅動下走向融合。在第四研究範式中,由於大數據記錄了人們日常活動的行為記錄甚至情感偏好,很大程度上解決了社會科學研究中數據採集的「觀察滲透」問題,並可通過「數據清洗」和「數據脫敏」解決數據質量和倫理問題。此外,大數據驅動的第四範式將改變傳統的假設驅動的研究方法,轉向基於科學的數據挖掘的研究方法,將會在預先佔有大量數據的基礎上,通過計算得出之前未知的理論。
(五)四種研究範式的聯繫與區別
本文所說的社會科學研究範式不等同於科學知識範式,上述四種研究範式並非是從一到四逐漸替代的關係,它們都是我們認識世界、進行社會科學研究的有效工具,它們是人類在社會科學研究中的歷史演化過程。四種研究範式從對立逐漸走向融合,逐步彌補各自缺陷,並在認識論、方法論上逐漸形成「通宏洞微」的連續譜。
由於社會科學在向自然科學研究方法借鑒和移植的過程中,對所研究對象本體論上存在「客觀現實」「社會現實」「意義現實」和「符號現實」的認識差異性,導致了第一、二研究範式在認識論上的「客觀主義」和「主觀主義」,方法論上的「實證主義」和「詮釋主義」,以及「還原論」導致的方法論個體主義與整體主義的對立。兩者在實施過程中對「解釋」與「理解」、「定量」與「定性」、「工具取向」與「實踐取向」的對立產生了一系列在連續譜上處於兩個極端的現象。在具體的研究中,很少有研究者堅持這種極端的立場,往往根據研究對象和目的不同,採用連續譜兩端之間漸變的立場。但這種做法並未消弭兩者的對立。批判實證主義和混合研究方法試圖解決這個問題,並開展了有益的嘗試,到目前來看最有效的做法即「從定性到定量綜合集成」的系統方法,在具體應用中就形成了第三研究範式。
此外,第二研究範式框架下的社會科學的定量研究,其本質性的缺陷就是「用小數據來證明邏輯」,即用簡單的數量關係來應對複雜的社會問題,用小數據、小樣本來外推大數據、大樣本的複雜非線性社會問題,由於統計回歸內生性問題和數據上無法匹配,導致邏輯上的無法自恰;而大數據的優勢就在於「用數據來發現邏輯」。在第三研究範式中,無論自上而下還是自下而上的建模路徑都面臨兩大問題:一是計算機模擬模型的第2位角色,二是數據匱乏和有限的數據質量,這些問題導致了系統功能結構劃分的前科學性或智能主體行為刻畫的缺陷。第四研究範式的數據歸納和發現邏輯(理論)並進行建模的過程從一定程度上彌補了第三研究範式的這一缺陷。由於大數據分析技術的進步,更是促進了第一、二研究範式走向融合,海量數據的規模效應和全新特徵使得定性研究和定量研究在資料獲取和分析方法上逐步走向趨同。近年來在情報學領域的知識圖譜研究、技術創新領域的TRIZ理論以及通過大數據挖掘進行精細化模擬等,進一步證明了這種融合的可行性和帶來的驚人效果。
03
研究範式對社會科學認知方式的改變
近現代西方科學和哲學史表明,以胡塞爾的現象學、孔德的實證主義和馬克思的唯物主義為分界,西方現代哲學已經很少關心形而上學的本體論問題。從笛卡爾和康德以來一直困擾後世哲學家的二元分立問題終於能夠在胡塞爾的現象學中得到統一,物自體(Thing in Itself)或本體(The Noumenal)、認識主體(意識)和認識過程融為一體——「現象即本質」。胡塞爾認為,現象流有一種「意動結構」,有其「深度」,這個「意動結構」將主體和對象統一起來,為認識絕對的存在提供了可靠性,並消解了哲學上的二元對立。現象學的認識論在其後的時代里得到了現代科學和技術發展的支持,並且成為後者堅實的認識論基礎。所以,第四研究範式的轉型並不會從根本上觸動其認識論基礎,而是一次方法論的革命和對認識論的發展,關於它對社會科學研究方法論和認識論的影響的爭論聚焦在如下若干重要方面。
(一)從相關關係再次抵達因果關係
大數據是否像某些研究者所說的那樣能夠擺脫因果關係從而只關注相關性?這是個值得深入探討的認識論問題。「大數據中一個耳熟能詳的說法是:大數據長於發現相關關係,而非因果關係。但這可能是一個偽命題。如何從相關關係中推斷出因果關係,才是大數據真正問題所在。」原因在於:其一,世界的本質在於現象的無限延展和運動變化過程。無論是在前三種範式階段還是在大數據和數據科學所開啟的新方法論階段,都是經由抽象結構對世界本質進行概念性判斷,並藉由抽象的概念性判斷進行社會知識的建構操作。薩繆爾森處理經濟人行為的方式給我們的啟示是,我們需要使用從社交網路平台中提取的社會人的顯示偏好替代社會行為,才能將這些數據用於社會研究,而這一研究的表層過程必將觸及因果判斷。其二,傳統技術上解決網路大數據的結構和意義複雜性,包括異構性、語義或行為解析、宏觀湧現和不確定性面臨極大的困難,而數據科學和技術的進步正在克服這些挑戰。
目前大數據對現象的呈現方式主要體現為相關性,雖然在大多數情況下,大數據並不能直接顯示因果關係,現代科學和技術發展為依託的大數據和數據科學,從深度和廣度兩個維度加深對世界的認識,同時通過海量數據反映出來的世界直觀背後的複雜結構,幫助人們不斷修正抽象的結構模型,使其更加接近世界的本質。在之前階段,人們通過建立結構模型和檢驗模型來達到對社會或群體行為的認識,而大數據研究最重要的貢獻則是能夠發現傳統研究所不能分析的數據集之間的相關關係,這些相關性能夠引導我們分析數據集之間、個體之間、人類群體之間的關係,以及信息自身的結構。相關關係雖然並不意味著因果,建立在統計顯著性檢驗基礎上的判斷雖然不能直接告訴我們相關背後的意義,但它至少為我們對原因的探索提供了新的起點,大數據的作用是一個更加有效的計算工具,所以我們不必苛刻地使用嚴格的科學標準對其加以衡量。大數據在社會科學研究領域的應用相當於在方法論的籃子里增加了一個新的重要工具,它之所以重要是因為它指明了學術界和產業界正在上演的一種分析現象,它既是方法論的方法,也是分析的現象。正如有學者指出的「大數據的相關關係進一步展開了因果概念的重新刻畫」,「相關定量分析的因果派生依據則構成大數據分析的因果基礎」。
(二)數據與分析方法的進化
可以說,大數據分析的優勢並不在於「數據」,而在於以海量數據為依託的更加先進的分析方法。早在2009年,哈佛大學定量社會研究中心主任加里·金(Gary King)教授就預言,隨著大數據的出現和使用,整個社會科學研究的實證基礎將會出現重大變化,甚至會加速定性與定量研究的大融合。加里·金指出,當今社會,數據量不斷膨脹,數據多樣性程度不斷提升,數據已逐漸成為組織變革和社會變遷的產物。大數據並不只是和「數據」相關,更多的數據並不代表更多的洞見,很多時候反而會加大數據分析的難度且無益於解決當下的實際問題。如果缺少新的分析方法,大數據就難以對社會發展產生積極影響。因此,數據本身並不是大數據革命的產物,大數據時代的關鍵在於運用科學的方法來分析海量數據並從數據分析中析出有益於社會發展和進步的觀點。採用先進方法的大數據分析的相關結果可以對以前的發現給出更好的解釋,加強對現有數據、理論和方法的解釋,前三個範式的研究將因此煥發新生,使有爭議的重大結構性問題和經典理論因為使用更加充分和趨於整體化的數據得以精細化再檢驗,從而發展得更加精緻。
大數據之前可計算社會科學領域最具革命性的範式轉變當屬第三研究範式中的基於主體建模和模擬方法對計量研究方法的突破,並據此發展了基於主體的社會模擬(ABSS)、基於主體的可計算經濟學(ACE)等重要的可計算社會科學研究領域。可計算社會科學融合了社會科學、計算機科學、數據科學、網路科學,形成了廣泛的跨學科研究領域,並且正在實現對大數據的採集和分析。通過構造「人工社會」,ABM方法為理解非線性的社會交互行為提供了實現「社會」均衡的過程信息,在一定程度上實現了方法論層面的質性進步。但這種方法的實現門檻較高,因為太多對研究目標有重大影響的社會複雜性無法被考慮進來,難以確保獲得真實社會的可靠知識,事實上,對於這一方法的適用性仍存在很大的爭議。該研究範式對社會科學研究的推動顯然受到真實世界數據採集的成本、社會行為和相應規則的複雜性、難以應對系統動態和演化等因素的制約。這種第三範式研究的局限性正在隨著大數據研究的到來而可能得到解決。
正如加里·金的觀點,隨著大數據技術和數據科學的迅猛發展,社會科學領域的研究方法及其應用方式正在發生一些根本性的改變,正在推動研究範式的轉化。大數據時代,在突破上述瓶頸方面可計算社會科學正在迎來新的機遇,數據和主體在線、機器學習、分散式計算、先進演算法,能夠為基於ABM方法的社會科學研究提供更加有效的研究設計和解決方案。數據和主體的在線改變了數據採集的成本和方式;在線和機器學習使主體行為和規則的形成方式從人為假設轉化成自然演進規則的內生過程;除了私有數據和受保護的公共數據外,數據類型、採集對象和計算範圍將基本不受限制;當各項約束大幅弱化以後,研究者的研究能力將得到前所未有的提高,而這種提高不再是發展專業領域方法論時獲得的局部的改進,而有可能是一次整體的飛躍。
(三)學科融合:可計算社會體系
可計算社會科學的發展以及整合需要不同學科的洞見和方法,將成為社會科學研究方法論的關鍵議題。大數據和數據科學將淡化、溝通甚至徹底消除學科邊界,將局部的還原論下的專業性社會認知和建構升級為廣域的社會整體系統認知和建構過程。大數據和數據科學的價值在於驅動基於複雜因果關係的經濟社會決策。社會的整體性湧現規律將得到可計算社會科學研究的回應。
人們正在試圖破除大而不全的數據孤島的邊界,並且在全數據的框架下去統合傳統的學科邊界對數據類型的專門設定,這將為我們展現一種更好的方法論形態,拋卻局部的、簡單的因果鏈條,在系統整體的意義上來實現對複雜社會現象的認知。第四研究範式不僅是社會科學研究的基礎性工具和規範,更為重要的是它將傳統認識能夠抵達的對象社會孤立的數據流進行了整合和連通,在科學家、決策者、專業工作人員和普羅大眾之間建立了集中共享的新的社會和環境圖式,催生了一體化、有機的、速度更快、關聯更緊密、響應更敏捷的可計算的社會體系。
(四)社會研究的機能性進化
傳統的社會科學研究用一套不同類型的探究系統對研究對象進行刻畫,他們使用一套方法、程序、技術來描述和解釋行為,檢驗假設,評估因果關係,建立新的知識。其中,倫克爾(Runkel)和麥格拉思(McGrath)提供了一個解析人類行為科學研究的指南框架,以便於我們理解大數據對研究方法論構成的影響。他們將研究按照類型分為四組,包括田野實驗和田野研究、正式理論和計算機模擬、樣本觀察和判定任務、實驗室實驗和實驗模擬。在上述分類的基礎上,他們將不同研究類型按照行為系統切近真實的程度(橫向維度)和研究操控性的強弱(縱向維度)置入一個特徵框架中,發現社會科學對人類行為的研究在對社會行為的一般性認識、行為測量的精確性和情境的系統特徵三個方面通常處於兩難境地,即使用單一的研究方法論開展人類社會行為的系統性研究幾乎無法同時在三個維度上同時實現最大化,選擇一種方法論就意味著喪失選擇其它方法論給研究帶來的優勢,這就是經典的研究方法論「三角兩難(three-horned dilemma)」困境。
今天的社會科學研究方法論在數據採集的方式、研究程序的操控性、將每個方法論應用於特定的場景和一般可觀察行為的程度方面,都開始呈現根本的變化並凸顯出融合的趨向,它甚至正在削平在不同的方法論之間進行權衡的必要性。在倫克爾和麥格拉思的框架中,研究者理想的研究是希望能夠同時強化社會系統研究的上述三個方面。而第四研究範式中大數據的特徵表明數據在切近對象真實的同時可以完全兼顧宏觀結構,這種變化決定了研究的主觀操控性也正在弱化,在此維度上意構的重點轉而強調數據分類方法或者是能夠同時兼顧現象分析的深度和整體性。可以說,即使不能消除全部的兩難問題,第四研究範式在解決社會科學研究方法論選擇的兩難方面的進步已經意味著社會科學研究的機能性進化。
(五)認識論的延展
儘管第四研究範式並不會觸動近現代科學發展的認識論根基,但它卻發展了我們的認識論。康德以後科學認識論經過了笛卡爾、牛頓、維特根斯坦、波普和庫恩等關鍵人物的發展,社會研究則經由塗爾乾和馬克斯·韋伯在現代的西方科學領域形成了兩種基本的認識論和方法論發展進路——歐洲大陸的解釋主義和英美的邏輯實證主義。其中,解釋主義繼承了解釋學和現象學的傳統,反對將自然科學中的中立式觀測(Neutral Observations),通用法則(Universal Laws)應用於社會科學研究。同時解釋主義的支持者,即解釋主義者(Interpretivist)認為現實世界中具體事物的含義是由社會人的思想構建形成的,因而允許多種對世界的不同認識同時平等存在,這一觀點在自然科學的實證主義哲學觀中是不可接受的。實證主義則建立了首先基於現象先驗地提出法則性命題,再使用數據對理論進行檢驗以證明理論的合理性的認識論。
社會科學研究的大數據時代來臨之際,需要我們將新的方法與已有社會研究方法和理論聯繫在一起,特別是在大規模的特徵觀察與個人和群體的實踐結果之間建立聯繫——建立更大的社會學圖景。在大數據時代的社會研究可能不再需要我們做出理論預設,而是在大數據分析得到的奇點相關的引導下建構因果和結構關係,進而發現其中蘊藏著的知識或規律,這種認識論上的發展更像是對解釋主義認識論的延展。數據即現象和經驗,「科學始於數據」而非直接觀察和傳統測量,是對解釋主義認識論下的直接的社會觀察的替代,替代的理由則是更高的精確度和整體性,它延展了知識發現的新途徑和新方法。
一些直觀的經驗表明大數據能夠更好地支持預測性的研究,比如谷歌利用大數據分析出了未來可能會發生的事件。美國權威研究機構加特納(Gartner)認為「大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資源。」大數據並不是一項單獨的技術,而是新、舊技術的一種組合,它能夠幫助研究者獲取更可行的洞察力。因此,通過管理大規模數據,以合適的速度、在合適的時間範圍內完成實時分析和響應。數據質量和演算法在大數據預測中扮演著核心的角色,只要所定義的變數能夠很好地滿足預測的需要,則對於適度規模的數據,相關度和質量越高,找到原因和結果的可能性也就越大,預測的結果也就越可靠。
目前看來,大數據在商業領域的應用已經取得了很大進展,特別是在人的消費行為分析、商業決策和營銷、有目的的社會群體行為研究和監控、輿情的社會影響等領域,基於在線社會大數據的應用和研究確實已經有效改善了很多商業項目和社會公共項目的質量和進程。
04
第四研究範式正在重構社會科學研究
(一)以往社會科學研究的局限
1.社會科學的目標弱化
現代意義上的社會科學是在18世紀歐洲出現大變革的時代產生的,其最初的願望是希望在一個牢固的基礎上組織社會秩序,或幫助經歷了社會解體或正面臨類似威脅的國家重建社會一體性。因此,社會科學誕生的初衷就是希望「考察研究人類社會事象之運行,是否有其客觀的原理原則,尋出原理原則後,即應依照之以重建社會,使其由破壞衰弊再回復到繁榮康泰」,追尋社會現象客觀原理、原則及普遍規律,並在此基礎上實現建設理想社會的目標。恩斯特·卡西雷爾(Ernst Cassirer)指出:「儘管歷史學不可能預告未來的事件,只能解釋過去,但是人類生活乃是一個有機體,在它之中所有的成分都是互相包含互相解釋的,因此,對已經逝去的過去的新理解同時能給予我們對未來的新展望,而這種展望反過來成為推動我們的理智生活和社會生活的一種動力……認識是為了能夠預見,預見是為了指導行為」。
但是,當社會科學正雄心勃勃試圖發現社會運行普遍規律的時候,工業革命和資本主義擴張帶來的快速而複雜的變化在社會科學家面前迅速展開,並要求其「去發揮新的想像力,提出新的概念,發展新的理論,提出解決社會問題的新方案」。社會科學開始集中於研究和解釋社會現實的特點、性質、功能與變化,社會科學的重點很快就「由方向轉到了方法,由抬頭看目標變成了埋頭找出路」,就如同「暴風雨來臨前需要預測變化,來臨時只需全力應對變化一樣」。同時,由於社會科學研究對象的特殊性,以及研究方法的限制,導致(1)宏大理論產生的同時,往往缺乏實證經驗進行證明,從而引髮長期的爭議,直到新證據的出現;(2)無法像自然科學一樣實現純粹的空間和完全受控的實驗,在實驗上無法實現時間的超前性;(3)社會運行具有不完全重複性,預測會產生「俄狄浦斯效應」,因此,在社會科學發展的歷史中一直存在對「社會科學」倡導者所做的概括工作(即建立社會普通法則的工作)持一種懷疑甚至敵視的態度。「我們現在生活在一個不平常的世界裡,不論我們觀察哪一方面,在精神文明和物質文明的任何領域內,我們都覺得是處在一個極嚴重的危機之中,這種嚴重的危機,在我們全部私人生活和社會生活上印上了許多紛擾和動搖的癥候。很久以前,在宗教和藝術領域內現在則在科學園地內難得找到一個不會被人懷疑的基本原理,同時也難得找到一個無稽之談是人所不相信的」。
2.社會科學內外部形成對立
正是由於社會科學的這一轉向,此後又為了在高等教育發展的院系鬥爭中獲取權利,導致了社會科學快速膨脹和多元分化,在學科體系、研究範式、研究方法上爭論不休,在不斷分化的過程中形成了學科、學派之間的對立,喪失了對社會科學研究「究竟要建構一個怎樣的社會,這個社會最終將走向何處等涉及學科根本方向問題」這一目標的探究,對社會科學失去了整體認識,慢慢走進了學科細分和方法錯綜的密林深處,在條分縷析中走向細枝末節,層層分解又層層否定。「在今天,人們提出與昨天所說的話完全相反的主張,在這樣的時期,已經沒有什麼真理的標準,也不知道科學是什麼了,我很悔恨我沒有在這些矛盾沒出現的五年前死去」。
分支和派別的日益龐大,在社會科學的發展過程中導致了其內外部的對立:社會科學與自然科學、人文學科的對立,社會科學內部各分支的對立,實證研究、詮釋研究和批判研究範式的對立,方法論個體主義和整體主義的對立,定性研究和定量研究的對立。甚至造成了「兩種文化」的對立,成為「單向度的人」、「半個人」時代。學科分割和內外部的對立導致的碎片化,使得社會科學無法把握學科方法和社會整體。直到第三範式出現,羅馬俱樂部在全球系統模擬所做的嘗試,複雜性科學興起,交叉學科和邊緣學科的不斷發展才出現了學科綜合的趨勢。
3.有限數據的質量問題
但社會科學還面臨著另外一個嚴峻的問題:數據匱乏和有限數據的質量問題。這其實包含了多個分支的子問題:(1)描述的模糊性問題,也就是社會科學概念的「可操作化」和「可操作性」問題。由於社會科學很多概念沒有結構或結構不完整,存在著「模型化」和「數量化」的困難。雷諾茲認為即使是經濟學,其衡量的精度企圖達到物理的精確度,也存在眾多比較模糊的集,如價值、勞動、社會必要勞動時間等,既沒有嚴格的外延,也無法找到最小單位量值,從而不能精確測量。更遑論如「幸福」「獲得感」「正義」「倫理」等宗教性、信仰性、道德性或感覺性的意義問題;(2)社會測不準或觀察滲透問題。測不準即使在物理學也同樣存在,在社會科學中的表現更加突出,人與人之間的交互、情感信息干擾、坐標原點和利益的認識效應等都會加重這一問題;(3)小數據、小樣本的問題。由於社會現象的複雜性,不可能窮盡各種因素和可能性,對其研究多採用抽樣方法進行,並用簡單的數量關係應對複雜的現實世界。數據收集受到抽樣技術、分析方法、調查成本和接觸範圍的限制較大;(4)數據質量控制的問題。社會科學的資料和數據不能直接表現為經驗證據,是根據人的解釋建構而來的,因此無論定量研究的調查數據還是定性研究的資料,都受到研究對象表述時的「偏好」「記憶」「語言」以及研究者「理解」的影響;(5)生態謬誤的問題。不能從整體層次或生態數據研究中做出個體層次的結論。
(二)大數據重塑社會科學的目標
1.重建社會科學預測的可能性
解釋和預測是科學研究的兩大目標。但在社會科學發展的過程中,「預測」由於學科過度分化和「不完全重複性」「俄狄浦斯效應」而受到摒棄,甚至不少人認為人類行為都是隨機的,都是小概率事件,都無法預測。社會科學也因為沒有形成漂亮的演繹體系,以及在必然性、心理習慣和因果關係解析上的弱勢使其一直處於「弱解釋力」和「低說明力」的狀態。但是,這種狀態是我們處在「收集、分析、儲備、再使用數據成本非常高昂而耗費時間」,以及理解世界的方式和方法處在小數據環境下形成的。「學術思想和研究的演變過程受到特定歷史條件下研究方法和分析手段的深刻影響」,我們不能因為以前未具備相應的研究方法和分析手段而不能達到預測的目標而將其拋棄。馬克思也認為「哲學家們只是用不同的方式解釋世界,而問題在於改變世界」。社會科學應該具備「回顧與展望的雙重的世界觀」。
在大數據時代,「建立在相關關係分析法基礎上的預測才是大數據的核心」。大數據概念從首次提出確定的兩大目標時就與社會科學不謀而合:通過描述刻畫海量數據的潛在模式進行預測,發現數據中有價值的模型和規律。大數據在社會科學研究多個領域進行預測並獲得成功也說明了這一目標是可實現的。因此,許多學者對人類行為的可預測性表達了樂觀的看法,認為人類行為「遵循這一套簡單並可重複的模型,這些模型則受制於更加廣泛的規律」,人類行為的「可預測性比任何人想像中的都要強」。當然,真實的描述「未來細節,精確預測其進程和時間發生」是不可能的,這也將從根本上違背科學研究的極簡主義法則。但對未來進行「趨勢性」「概率性」的把握則是完全可能的。大數據將會引導社會科學研究從定性研究重視人的關係的「事本」、定量研究把人看作「物」的「物本」、模擬模擬研究把人看作實驗對象的「樣本」,真正轉化到「以人為中心」的「人本」時代。大數據正在形成的系統猶如社會的大腦,充當了「社會性記憶合成」的主角,原本被懸置的社會學研究目標和方向,有可能在大數據的驅動下,以全新的、實際的形式重新展現出來。
2.推動宏觀理論研究發展
社會科學發展至今,雖然分支眾多,學派林立,但大多數研究均可以追溯到少數立足宏觀層面描繪和理解社會結構與變遷的典範性學說、啟發性和詮釋意義的概念、假說和理論。20世紀60年代以來,由於生態謬誤的存在,在實證主義傳統與「調查革命」結合後,微觀數據收集和模型分析逐漸增多,社會科學在宏觀層面研究相對不足。一方面宏大理論提出相對減少,另一方面經典理論難以得到實證檢驗,社會科學進入了「後大理論時代」。信息技術的興起和大數據的發展擴展了人類的經驗範疇,在宏大理論和實證經驗之間架起了橋樑,使得社會科學家以全新的相關性數據,在超大數據規模和時空跨度上為經典理論提供實證證據。同時,大數據因其「全樣本」「高容錯」「數據挖掘」等優勢,為社會科學宏大理論發展提供了「全景式」認識世界、發現和提煉新的重要理論的可能性。
(三)大數據消除社會科學內外對立
1.促進內外部學科之間的融合
自然科學、社會科學和人文學科知識是學術建制和教學科研管理制度上的區分,但不應該抹殺它們之間的密切聯繫。「科學,不應該是支離破碎的,所以,我們需要跨學科的努力」。從20世紀中葉開始,由於複雜性科學和模糊數學、信息技術的發展,科學研究在經歷了長時間的不斷分化後,又開始了在分化基礎上的綜合,出現了交叉學科和邊緣學科等跨學科的努力。第三研究範式的出現,已經打破了自然科學和社會科學之間的隔閡。美國聖·塔菲研究所、谷歌研究院等跨學科研究機構和各國高等院校開始用複雜性科學來描述社會經濟系統中的複雜現象,提出了複雜適應系統、社會網路分析、可計算社會科學、社會控制論等一系列新理論。在眾多計算機模擬研究模型中,同時考慮了自然、社會及兩者的交互。但是,由於自然系統和社會經濟系統在數據上的異質性,社會經濟系統多變數的複雜性和社會科學量化、數據採集的困難,兩者的融合在當時依然需要更深層次的支持。
大數據研究的興起,在一方面建立了全新的基於感測器、智能設備和網路大數據的科學研究基礎設施,大數據「隨處可見」和「難以理解」的特徵使得對其獲取具有非學科性的特點,對其搜集、存儲和搜索本身存在較低的「學科定製性」。這使得不同學科之間的研究對象有了同質性的基礎,打破了小數據時代學科差異下數據搜集和使用「各自為政」的狀態,促進學科交流與融合。另一方面,大數據不斷廣泛和深入的應用,推進了相關分析技術的普及。來自政治學、經濟學、語言學、傳播學、人類學等社會科學的研究者開始聯手計算機、物理、數學、控制等大數據技術界的專家和生物、地理、環境、水文、氣候等自然科學的學者共同採用大數據分析技術開啟了規模更大、參與更廣的跨學科合作研究。這也為在計算機、人工智慧、數學以及其他自然科學領域具有專長的學者聯合或直接轉型成為社會科學家提供了機會,也為社會科學不同學科領域內的專家開展交叉研究與轉型提供了基礎。
2.定性與定量研究方法的綜合集成
雖然從20世紀60年代開始,社會科學就試圖通過混合研究彌合定性研究和定量研究兩大範式之間的對立,但並未取得十分良好的效果。從某種意義而言,大數據的使用促進了定性與定量研究的綜合集成。第一,大數據使得定性和定量兩大陣營之間出現了一個混合地帶。大數據的非學科定製性促進了定性研究和定量研究在資料獲取、分析和分享方法上走向趨同。第二,大數據重新定義了兩者的關係,使得兩者既可以互相轉化,又可以相互合作。大數據分析方法使得原來的定性研究資料可以採用定量研究的方法進行研究,並對定性研究結果進行修正或補充;定量研究重新審視「描述」「敘事」「話語」等在定量分析中的地位,收集的數據也得以使用定性研究的分析方法。第三,大數據提供了新的定性定量結合的方法,即在原來混合研究或模擬研究「定性是定量的基礎,定量是定性的精確化」的基礎上,通過對大數據的描述(定性)和可視化、抽取變數進行回歸(定量)相結合的方式,達到「從定性到定量綜合集成」;同時,大數據在特定領域內的高端技術運用,正以「塊數據」的形式呈現出質的研究功能。大數據研究將同時出現在定量和定性兩大陣營之中,並進一步縮小定性定量分析方法的鴻溝。第四,拓展了定性研究和定量研究成果分享的渠道,「開放存取」和「複製性研究」的興起使得定性研究和定量研究在相互共享成果(研究思想)上提供了便利和基礎,同時信息可視化也可以幫助定性研究和定量研究以更直觀、多樣化的方式展示各自的研究成果,以方便不同領域或研究方法取向的學者更方便的理解。
(四)大數據提升社會科學研究的「科學性」
1.提升數據質量
大數據將大大改變傳統社會科學以抽樣調查為基礎的數據獲取和分析方式,從數據支撐層面提升社會科學研究的「科學性」。(1)大數據改善變數的測量。在大數據環境中,個人和環境將會「不自覺」「不自知」地加入數據搜集的過程中,數據獲取從觀測上升為感知記錄,優化了變數的「測量」。大數據技術通過智能終端、物聯網、雲計算等技術手段來「量化世界」,各種延伸和拓展人類感官感知能力的技術設備層出不窮,乃至於完全或接近完全取代人類對外部世界的直接感知,通過把數據呈現給人類,成為人類認識的來源。我們所知的世界將會全部是數據表達的。(2)全樣本的整體性分析,田野研究與實驗研究的統一。大數據時代可以分析與研究相關的更多數據,甚至是多源異構數據,而不再依賴於單純的採樣。大數據可以通過海量規模的全樣本直接呈現或發現社會現象或規律,既不需要控制變數來檢驗關聯,又能避免選擇方面的樣本偏差。(3)大數據提供了多樣兼容的容錯性。雖然大數據不能解決反事實問題和遺漏變數誤差,但由於數據的海量性甚至全樣本的性質,一旦把基於大數據的簡單關聯分析或時間序列分析結果與文獻中的傳統回歸分析進行比對,就能形成非常具有說服力的證據鏈。(4)大數據提供現象的相關性湧現。當擁有海量數據時,絕對精準不再是追求的目標,適當忽略微觀層面的精確度,將提升社會科學在宏觀方面的洞察力。「科學家不再必須做出受過良好訓練的那種猜想,或者構想假設和模型,通過基於數據的實驗和例子來驗證它們。相反,它們能夠為顯示效果的模型採集完整的數據集,來產生科學結論,而無需更進一步的實驗」。(5)大數據的核心技術是數據挖掘,使用人工智慧的機器學習從海量數據集中發現模式和知識。在數據驅動下,使用統計學、機器學習、模式識別、數學模型等方法進行探索式的知識發現和數據挖掘,海量數據的全樣本性質使得數據挖掘能夠分析數據質量、聚焦社會過程和關係、處理非線性的有噪音的或概念模糊的數據等,與依賴簡單數量關係的定量研究和傳統計算機模擬研究範式相比,依賴海量和實時在線數據的挖掘和學科廣泛參與的大數據分析更能夠客觀反映社會發展的歷史、現狀和規律。
2.提供社會科學計算實驗平台
孔德認為,社會科學研究應以「觀察+實驗+比較+歷史」方法的綜合形式開展。但由於社會經濟系統存在要素不同質、系統具有開放性、關聯結構的複雜動態非線性作用、系統層次間相互作用和湧現現象存在以及演化等多種可能性,對社會開展實驗研究存在非受控性、歷時周期長、時間上難具有超前性、不具有嚴格的重複性等問題。社會科學研究通過開展嚴格的實驗獲得可靠證據並非易事。20世紀80年代以來,這種狀況正在發生改變,人工科學、基於主體建模模擬、實驗經濟學、人工生命和人工社會、平行系統理論、可計算社會科學、綜合集成研討廳決策分析及並行分散式計算平台等理論和實驗技術的發展,促進了社會科學的實驗研究,正在改變「孤立、靜止、還原」的社會科學研究思維。
如果說計算機模擬的程序語言是人類認識自身的第3種「符號系統」,那麼數據則是其可以利用的第4種「符號系統」。隨著大數據時代的到來,物理環境和人類社會活動從未像現在這樣被充分地數字化和網路化。無處不在的智能終端自動採集的海量數據被存儲於雲端,並通過人工智慧處理、存儲和分析。研究對象相關的屬性數據、時空數據和行為數據全面反映了社會經濟系統的各個要素、環節、時態的真實、全面狀態。人類主體參與的實驗和計算機虛擬主體的實驗得以結合。這給社會科學研究將其研究對象置身於真實環境並刻畫其複雜行為提供了可能。實現「事理學」中,「物熵」和「信熵」的測量,實現「每一個事件發生和最後結果都有記錄」,「所有事件都包含裡邊,從物熵和信熵出發,可以確定人的心熵,進而可以給出社會熵的算式」,從而實現利用「人工社會」對複雜社會經濟系統進行「等價」描述,並通過「計算實驗」和「平行管理與控制」,解決複雜經濟社會系統所面對的無法還原、沒有解析模型和難以實驗、分析和評估系統行為的問題。「想像一個人工經濟(社會)作為一個實驗的環境,在當中,使用者能夠較容易地適應為他們設計的,適合自己特殊研究需要的模型。面向對象的程序設計技術能夠被用於建立這樣的一個環境,它將由一系列不同的模型機構和主體類型所構成,有了這樣一個界面,它為用戶輕易地從庫中結合不同的模塊,來進行特定的經濟(社會)實驗」。現在,大數據環境正促進這一「實驗室」與現實世界通過網路和智能技術實現空前程度的交互,來自真實世界和網路世界的海量數據源源不斷地輸入其中,不斷提高「人工實驗社會系統」模擬的能力。在眾多領域(如危機管理、工業模擬、供應鏈管理、智慧電網、社交網路等)基於複雜系統建模方法和大數據結合的「社會計算實驗」正在實現,並向著「社會—自然—技術」複合系統模擬的方向快速發展。
3.促進社會科學知識體系的多元化
首先,大數據環境中,普遍性知識和地方性知識同樣重要,適度堅持社會科學知識的地方性,並將強調地方性和重視普遍性結合起來。「在社會科學中,普遍與特殊之間的張力向來是一個爭論得十分激烈的問題」,「普遍主義和歷史特殊主義之間的方法之爭」一直存在。20世紀中葉以來,隨著人類學和科學實踐哲學的發展及對其進行的批判,人們逐漸認識到對普遍性知識和地方性知識各執一端的做法都是一種片面的科學觀。「現代科學不是唯一的知識,應在這種知識與其他知識體系和途徑之間建立更密切的聯繫,以使它們相得益彰」。並把地方性知識看作一種新型的知識觀念和價值取向,兩者雙向的轉化都是知識的進步,具有同等重要的意義。
大數據的出現,可以兼顧普遍性知識與地方性知識的多元性,並在更大程度上促進兩者互相轉化的知識進步。一方面,大數據具有整體性,由分散的、具體的全部數據集合構成,能夠全面、真實和完整地把握社會現象的整體與局部要素的系統行為,既能觀察宏觀關聯,又不會忽略具體而微的細節(在小數據中被忽略的少量極端值在大數據中成為可以分析的個案或變數);另一方面,大數據容錯性更強,承認多樣化、個性化,能夠融合地方性、實踐性知識。這兩方面的特徵,既利於我們更宏觀地越過地方性這一界限後「再回首」看待地方性知識,促進社會科學研究從地方性知識中通過抽象提升、視角或語境轉換、自我演進和成熟、交流對話等路徑交叉並進成為普遍知識;也促進普遍性知識在「解謎」過程中快速發現更多的「特例」,從而產生新的「科學革命」;同時,也避免普遍性知識「萬能葯」的陷阱,接受社會經濟系統的複雜性,建立跨學科、多層級的分析框架,將普遍知識更好地與「情境」結合。
其次,大數據促進默會知識和明示知識的轉化,並要求本地知識與雲端知識高度互動。(1)大數據進一步提升默會知識的重要性。互聯網的泛在化發展,明示知識的編碼、存儲和共享的成本越來越小,使其更為廉價。這導致了簡單重複認識任務與創造性認識任務的分離。這使與創造過程和情境高度依賴的默會知識地位更加重要,成為個人和組織在知識經濟時代獲取核心競爭力的根本來源。在這種情況下,學習能力將從記憶能力向數據檢索能力轉變。(2)大數據促進默會知識的傳遞與共享。大數據提供了默會知識及其依賴的「個人」「情境」「經驗」和「文化」整體性數據化的優勢,大大降低了原本高度依賴個人實踐的默會知識的信息粘滯度和知識模糊性,更加方便默會知識轉移。默會知識傳遞與共享程度的提高,促進了在知識活動中認識的意向方和實施方、價值判斷和實施過程的分離。知識創造活動更依賴於合作網路,並以數據分享的方式實現價值(價值擁有和創造方也發生分離)。(3)大數據促進默會知識與明示知識的轉化。在大數據環境中,兩類知識轉化的四類情境支持發生融合,啟動場、對話場、實踐場和系統場統一到大數據網路平台,兩類知識的社會化、外化、內化和組合化過程也越來越呈現基於數據挖掘和探索的方式進行(如結構化網路行為數據與非結構化文本數據分析的結合形成認識的知行合一,使得原本只可意會不可言傳的默會知識得以結構化和顯性化)。知識從碎片化的記憶向結構化的數據形態轉變,和情境結合的程度更深。(4)大數據促進了默會知識的技術性支持和社會性支持。終端和網路延伸了人的認識,知識創造更趨於社會化建構。海量數據已經遠遠超出個人甚至共同體的分析能力,知識從個體的記憶向雲端的存儲轉變。上述知識體系的四個轉變,改變了知識存儲的位置、知識的狀態、知識的獲取和知識之間的聯繫,這種轉變的本質實際上是知識數據化、數據結構化和結構智能化。互聯網和大數據的發展,最終實現了在知識體系中的人找知識(搜索引擎)、人找人(社會網路)、知識找知識(數據挖掘)和知識找人(個性化定製與推送)統一的時代。
05
第四範式驅動的社會科學研究需
注意的問題
(一)數據可及性的需求
隨著對大數據研究價值及知識外溢效應的認識,國家層面的旨在提高大數據可及性的行動越來越受到重視。2009年1月,美國總統奧巴馬簽署了《開放和透明政府備忘錄》,提出要創建透明、參與和協作的開放政府,並要求提高政府信息開放程度,聯邦政府所擁有的信息要向公眾快速公開。同年12月,美國行政管理和預算管理局發布了《開放政府指令》,指示聯邦各機構為美國公眾提供政府數據,該指令標誌著美國開放政府數據走向政策層面。與此同時,全球許多國家也紛紛發起了開放政府數據的行動,通過頒布政策促進政府數據的開放。2015年8月19日,中國國務院常務會議通過了《關於促進大數據發展的行動綱要》,明確提出,「加快法規制度建設。修訂政府信息公開條例。積極研究數據開放、保護等方面制度,實現對數據資源採集、傳輸、存儲、利用、開放的規範管理,促進政府數據在風險可控原則下最大程度開放」,「2018年底前建成國家政府數據統一開放平台」。這是我國第一個關於開放政府數據的宏觀政策,標誌著我國的開放政府數據也正式走向政策層面。
我們之所以希望我國政府部門在促進優化大數據可及性的進程中起主導作用,是因為我國政府與部分其他國家政府相比,對大數據採集者和擁有者(如互聯網企業、通信運營商等)有較強的數據請求權,更有能力對這些散佈於不同大數據產生和匯聚節點中的不同類型、不同領域的大數據有機聚合起來,將這些大數據作為社會科學研究和知識進步的必要資源,有計劃、分層次地構建有中國特色的大數據開放服務產業。
相信在《行動綱要》頒布之後,我國政府應「有計劃」地主導「大數據知識源集成網路」的構建,全面集成互聯網、物聯網和社交網路等不同生產方式的知識源,同時整合政府部門及事業單位的統計數據、社會民眾的輿論以及企業的產銷大數據,為不同用戶「分層次」地提供數據支持服務,如可按數據需求的合法性及迫切性,分層次地對刑偵、公共決策、學術研究、商貿應用等不同需求主體提供大數據開放服務,各層次的服務構建要點包括:第一層次,大數據整合與知識網路的締結。國家對該層次的大數據使用要嚴格監控,並在法律層面因應大數據的技術倫理問題。國家在該層次主要發揮數據整合和平台搭建作用,並大力推進基於大數據的知識推理和人工智慧領域創新;第二層次,大數據採集與知識挖掘。該層次由各大數據生產和採集部門或組織自發構建並實現其利益,政府應在制度層面制定基於大數據知識源集成網路的數據採集、知識共享及合作網路融入的法律法規,推動基於大數據共享的知識挖掘和雲端人工智慧服務產業發展;第三層次,常規研究的全新技能與合作方式。大數據應用開啟了社會科學研究範式的變革,社會科學研究將比以往更加註重對大數據的檢索與挖掘,而且這種直接面向數據的研究不僅將全面提升社會科學研究的數據基礎和方法論視角,而且社會科學研究也將越來越依賴於跨學科合作網路。
(二)大數據的技術倫理問題
雖然我們主張對大數據進行「分層次」開發共享,但由於「大數據知識源集成網路」聚集了多源異構的底層個體數據,而數據挖掘和知識推理技術的應用,不可避免地將觸碰到個體的隱私問題。隱私是個體不受打擾的權利,是不願他人干涉與侵入的私人領域。對大數據可及性的管理將涉及數據使用的倫理思考,如對個體數據的採集應該到哪個層面,各層次研究主體可以使用哪個層面的數據,對數據的挖掘和預判應該到什麼程度以及分析結果應該怎樣使用等等,甚至更進一步地,作為數據源的個體在不經意行動中所表現出來的行為或顯示偏好數據,是不是其主觀同意公開的,對這些數據在各開發層次的分析和使用,會不會違反數據源個體的意願,如DSP廣告是為消費者帶來了便利,還是會泄露其偏好隱私,甚至會造成社會個體在各種場合隱藏或誤導對其偏好數據的採集,進而在長遠上造成社會上「思行不一」的人格「異化」?此外,與數據可及性相關的數據壟斷、數據安全性、數字鴻溝等一系列大數據技術理論問題也需引起重視。我們必須儘快對大數據的共享、利用、開發制定趨於保守的技術制度、標準、法規,或利用區塊鏈等新技術對之進行規範和約束。
(三)以往社會科學研究傳統價值的再挖掘
第四研究範式的應用將為已有社會科學研究提供更高的數據起點。大數據資源池來源於對獨立研究客體的個體原始數據採集,而且大量數據不是像傳統社會科學研究範式那樣,針對理論假設和研究模型設計的變數數據需求,經由對研究客體進行統計抽樣並通過「提問—思考—回答」路徑產生的,而是直接由研究客體的行為生成並經由各類數據採集技術聚合起來的,因此大數據與以往社會科學研究傳統所使用的數據相比具有「全樣本」「自提供」的特性,這就能夠避免傳統社會科學研究範式中自變數數據的統計偏誤,顯然,大數據的這種特性能夠為已有社會科學研究範式提供更高的數據起點。
第四研究範式將為已有社會科學研究提供全新的理論視角。由於大數據是行為個體在網路環境中的產物,同時大量數據本身也構成了行為個體社會網路的節點,因此,大數據研究本質上依託於對複雜網路的挖掘和分析。憑藉網路分析和數據可視化技術,大數據研究能夠發現已有社會科學研究中所忽視的及受技術方法制約無法完成的大量網路特徵及相關性,這些網路特徵及相關性將為已有社會科學提供全新的理論視角。
通過第四研究範式的應用與拓展,社會科學與自然科學在大數據研究過程中實現了大學科交匯共融。對領域大數據的挖掘和分析,不僅需要本領域學者就領域內現有理論及分析框架進行問題導入和研究需求設置,還需要與計算機、心理學等不同專業領域學者組成合作研究網路,對領域大數據進行跨學科聯合研究;同時,通過大數據發現的新理論,也將通過大數據知識網路迅速外溢到學科外部,這樣,新理論將更有可能在科學綜觀視域中體現其更高的價值。相較以往社會科學研究傳統,第四研究範式對跨學科合作網路有更高的要求,因此將極大促進自然科學與社會科學的交叉融合,不同學科的界限將在數據驅動的研究中變得模糊,不同領域的研究者們將締結基於數據研究的科學共同體。
(四)社會科學研究範式轉型保障體系的構建
社會科學研究範式轉型的保障體系可以構建為三個層次:規則保障、基礎設施保障和科學共同體保障。
1.規則保障
法律規則。數據的收集、處理和使用,不但涉及當事人的隱私及對社會的控制限度問題,也涉及與數據相關的權益與責任界定問題、法律約束的法理機制問題以及法律執行和監控等操作性問題。沒有這些規則基礎,基於大數據運行的社會系統就不可能是有序的系統。這些法律法規構成了大數據交流與利用的法律規則保障。
交易規則:社會大數據產生於各種社會生產生活系統,在當今的技術環境中,它存儲於與上述系統對應的雲空間之中。處理和使用這些數據,既有公有雲的授權規則問題,也有私有雲之間的數據交換交易規則的問題,這些數據應用的外部效應,也會要求數據責任與權益的契約體系,這是大數據交流與利用的交易規則保障。
與此同時,不同系統的數據對接和傳輸,也需要自動協調的技術性協議:異構數據的表徵、聚類、傳輸、處理及其應用,需要可以相互識別的執行標準,需要評價數據價值的指標,需要自配置自適應的系統介面和對應人類解讀的人機界面設計和自協同模式,這是大數據交流與利用的系統協議保障。
2.基礎設施保障
不同層面的保障條件不是孤立存在的,它們彼此作用構成新型社會科學發展的基礎設施平台,包括如下層次:社會資源與規則層,涉及各類社會環境與條件;物理層,涉及數據感測器、穿戴計算設備、數據傳輸網路等物理環境,涉及數據存儲、調配等初級數據處理設施;計算模擬層,涉及可共享的計算與模擬系統;社會應用層,涉及接入或反饋社會問題的操作界面。通過基礎設施平台,大數據的研究與利用才能夠以較低成本順暢地進行,大數據的知識外溢才能夠在更廣泛的層面惠及大眾。
3.科學共同體保障
新研究範式的科學共同體保障將包括新型社會科學的理論體系、研究方法、操作準則、學術成果評價與交流規範。新型社會科學的哲學基礎包括科學問題與研究對象的界定準則、認知限度與認知檢驗、學科融合與學術規範、交叉學科的語境和邏輯等。正如庫恩所指出的,新的研究範式的確立必須以新的學術共同體的出現為最終標準。
06
結語:不是結束的結束
坦率地講,本文還未形成一個成熟的學術研究結果,只是對大數據驅動的社會科學轉型的一些趨勢性的表述。本文更多的是對國外社會科學發展趨勢和大數據重大影響的洞察,試圖提醒我國社會科學界對這一發展趨勢引起重視,希望經過對大數據技術、理論和方法的學習,通過政府、產業和學術各界的共同努力,能夠在新的歷史時期,在大數據驅動的社會科學研究領域與國外處於同一起跑線上,甚至實現我國社會科學發展的彎道超車。
必須承認,由於我國長期以來教育體制的弊端,社會科學和自然科學的研究長期處於分離和分割的狀態,這導致從事社會科學研究的學者對於科學技術領域的發展不敏感甚至不關心,缺少對當代技術的響應能力,這無疑構成了社會科學發展的嚴重的思想障礙;同時,自然科學和社會科學的二元分割也導致了社會科學學者對大數據和數據科學這些當代前沿的科學技術進展充滿了無力感,甚至從小學術共同體內部對新思想新技術新方法進行抵觸和排斥,從而形成了社會科學轉型的行動障礙。希望通過我們拋磚引玉的工作,開啟這場遠未結束的對大數據驅動的社會科學研究轉型的討論。
本文刊發於《學海》2018年第2期。
作者簡介:米加寧,哈爾濱工業大學管理學院教授;章昌平,哈爾濱工業大學管理學院博士研究生,桂林理工大學人文社會科學學院副教授;李大宇(通訊作者),哈爾濱商業大學財政與公共管理學院講師;林濤,哈爾濱工業大學高等教育研究所、哈爾濱工業大學發展戰略研究中心講師。
推薦閱讀:
※為什麼孩子退縮又膽小、對世界缺乏好奇?科學裡沒有噁心的東西!
※誰說科學區域活動太難做?這裡有海量案例供你參考!丨走進幼兒園
※生命科學及死亡過程
※自然選擇為什麼還沒有消滅遺傳疾病 | 科學人 | 果殼網 科技有意思
※驗孕棒和B超 到底哪個更科學?