讀書筆記:大數據科學的認識論

前兩天讀了Exeter University的Sabina Leonelli在2014年發表的一篇論文:「What difference does quantity make? On the epistemology of Big Data in biology」 (Leonelli, 2014)。作者的研究方向是歷史、STS(Science and technology studies)以及生物學的交叉。這篇文章從生物學的角度評估了大數據科學給科學研究帶來的認識論上的挑戰。

作者認為:大數據科學在認識論上的獨特性是被高估的——至少在生物學中,雖然它確實在方法上和傳統的科研方式存在差別。

作為討論的起點,作者引用了Mayer-Schonberger和Cukier在2013年出版的著名作品「Big Data: A Revolution That Will Transform How We Live, Work, and Think」 (Mayer-Schonberger and Cukier, 2013) (中文版在此)中對於大數據認識論的描述:大數據的完整性能夠讓科學家把他們的研究置於事物的多重現象之上;大數據的混亂性能夠讓科學家擁抱真實世界的複雜和多樣;以及,大數據讓統計學上的相關性概念變得更重要。

作者使用了他稱之為「數據歷程」(data journey)的方法,從STS和一般社會科學的角度討論了上面的引用的觀點。他認為,大數據能夠被分析的前提,就是它被從不同數據來源收集和整合到一起,而被看作是一個單一的信息源。作者認為數據收集需要經歷去情境化(de-contenxtualization:把數據從數據之前所在的情境中獨立提取出來)和再情境化(re-contextualization:在不同的研究情境下把數據重新整合)的步驟,才能被重新使用。根據我之前曾經討論的Edwards的作品 (Edwards, 2012) 這種整合過程會產生的種種額外的時間和經濟上的負擔(它被稱為「scientific friction」)。而毫無疑問,這些負擔會讓一些特定主題、特定格式、產生於特定機構和特定研究者的數據更難以被整合到大數據的基礎結構里。而另一方面,在整合中必不可少的元數據,也往往體現了許多本地的認識論和數據收集方法,而難以被整合成單一的本體(ontology),更不要說它的可信性甚至於可用性了 (尤其參見 Edwards et al., 2011; Bowker & Star, 2000)。

上述討論都把這篇文章放在了「行動者網路理論」(actor-network theory)的脈絡中:這個理論研究的是技術物是如何通過人和非人的行動者所組成的網路被構建起來的。因而它關注了技術物形成的過程(並且認為這個過程是永恆的),而非結果——這體現在在這篇文章中,作者研究了數據歷程這件事。它也關注了不同行動者的差別,以及這些差別是如何在不同行動者之間被翻譯的——而元數據和數據的收集就是兩個經典的翻譯的過程。

作者認為大數據確實存在很多新穎之處,這尤其體現在下述兩方面:1、科研數據被提升到「日用品」以及獨立的科研成果的地位;2、這些數據需要新的科學方法、基礎結構、技術和技能的配合。但是作為結論,作者仍然認為大數據只是體現了傳統科研方式的認識論:作為數據,大數據依然是有選擇的,而且受到了社會、政治、經濟和技術因素的影響,這和傳統的科研數據並無兩樣。因而大數據也依然是存在偏見的而且並不能隨著數據量的增加而實現自我修正。

而作者也提到,她並非試圖否定大數據這件事本身,而只是質疑了認為大數據能夠給科學帶來革命的這種看法。而更重要的是,大數據和科學的關係也是隨著不同的學科而有所不同的。生物學在很長的歷史中都依賴著大規模的數據,這個事實本身也就是這篇文章的「地方性」之一罷。

推薦閱讀:

如何客觀的認識世界?
知識(Knowledge)與真理(Truth)的關係是怎樣的?
gettier problem中所例舉的兩個例子真的符合JTB理論嗎?
如何證明我們所有人(色盲除外)看到同一種顏色的感覺都是一樣的?
先驗的概念才能有確定的內涵,經驗的概念不能,對嗎?

TAG:大数据 | 科研 | 知识论Epistemology |