用計算機和大數據進行社會科學研究會成為未來主流嗎?

本題已收錄至知乎圓桌:人工智慧 · 語言智能,更多「人工智慧」相關話題歡迎關注討論


首先可能需要界定題主說的「計算機和大數據」指的是什麼。

如果指的是通過統計和分析數據得出結論,那麼我想反問題主的是:以計量分析為主的實證研究方法現在難道不是經濟學(一個社會科學學科)研究的主流嗎?我無法想像有誰能夠不藉助計算機和(大)數據分析方法完成大多數需要計量分析的經濟學研究。除經濟學以外,社會學,政治學等社會科學也都大規模使用量化分析了。

想必題主指的並非寬泛的統計和數據分析。題主也許說的是使用機器學習方法分析大數據,進行社會科學研究。針對這個趨勢,我覺得很難。

學術研究不同於工業界研究。學術研究要尋找因果關係,側重推斷;而工業界研究只需要尋找解決方案,側重預測。所以目前社會科學學術研究中使用最廣泛的計量分析方法是微觀實證分析方法,是用來進行因果推斷的分析框架,關注的是P-value,而不是R^2。而SVM,隨機森林,ANN,CNN,DNN等等這些工業界常用的機器學習模型都是用來預測的,關注預測的準確性,關注TPR,FPR這些指標,無法滿足學術研究的需求。或者說,學術研究的計量工具箱和工業界研究的數據分析工具箱分別有不同的目的,相互不能滿足。

根據我的經驗,學術研究也需要用到基於機器學習的數據分析工具,主要是用於數據獲取階段,到了分析階段肯定是計量分析方法作為主要的working-horse。

當然學術界也會關注政策評估,政策建議等問題。我覺得一旦研究從一個學術問題轉變成一個實際問題,計量分析方法的局限性就顯示出來了。統計上的顯著性並不代表經濟上的顯著性;學術研究也許能把從A到B的因果關係擇得很乾凈,但是並不能排除另一個因素C對B的影響其實更大。這個時候也許就需要機器學習這些預測工具大展神威了。


這正好是本人在準備的博士生資格考試的一個題目,所以強答一波。

我很贊同上面 @Rui Ruan 同學的第一句話:這個問題的答案嚴重的依賴於我們如何定義「計算機和大數據」。我實際上認為把計算機加到問題里是這個問題問得很糟糕的一點。現在已經沒有人認為計算機不是科學研究的基礎結構的一部分了吧。不過大數據確實是一個要有趣而且複雜的多的問題。

首先說大數據的定義,這件事上人們並沒有取得多大的共識。如果要我強拉一波共識,那我或許會說大數據定義的標準並不在於數據本身,而在於人類社會處理數據的能力——因為新的數據量如此之大,我們需要新的信息基礎結構來收集、儲存、處理和分析這些數據(參考Boyd Crawford, 2012)。這個定義隱含的意思在於數據量之大永遠都是相對的。所以我覺得一個很值得考慮的問題就是「大」數據的標準在多大程度上會隨著時間變化。

如果我們拋開定義的差別本身,假裝大數據是一件存在公認定義的事情,另一重對於大數據的質疑在於大數據本身就是一件需要被解構的事情。Mayer-Sch?nberger和Cukier的經典著作 (2013) 提供了一種關於大數據的經典的流行話語:大數據的體量讓分析更完整、大數據的混亂讓研究者不再需要很明確的計劃、以及大數據讓相關性戰勝了理論。其中很多觀點也在其他人的討論中被提到,尤其是互聯網時代著名的作者Chris Andersen在2008年就用「理論的終結」為題開始了他那篇著名的介紹大數據的文章(The End of Theory: The Data Deluge Makes the Scientific Method Obsolete)。Andersen說:「因為更大,所以不同」 (More is different)。大數據毫無疑問給科學研究帶來了新的認識論和方法論,不過它是否真的有別於曾經的科學範式,這是需要把大數據放在社會科學的緯度下面加以重新討論的。Frické (2017) 和Leonelli (2014) 的論文算是兩個很好的例子。他們都認為大數據並不是對於傳統科學方式的完全的背離,雖然它們確實帶來了不同的看待科學的方法。Frické認為大數據科學更偏向觀察而非實驗,雖然它和傳統的科學一樣依然依賴於人工的事後比較(post-hoc)。而Leonelli則否定了上面Mayer-Sch?nberger和Cukier提到的全部特點,但是他認為大數據科學讓數據在科學實踐中更加重要(我們開始見到了專門討論數據集的論文甚至於期刊),以及更多的數據要求我們有更好的技能、科學方法和科學基礎設施。但是這兩個作者都同意,大數據並沒有超越傳統的數據:它們的收集過程並不能擺脫理論的影響、大的數據並不一定更全面、大的數據並不一定質量更好、以及大的數據並不能回答更多的問題而只是不同的問題

如果我們考慮其他更中性的名詞來描述大數據科學,比如「數據驅動的研究」(data-driven research)或者「計算社會科學」(computational social science),那麼我覺得我們完全可以認為這件事在社會科學領域在越來越流行。比如說下圖用Google Books Ngram Viewer搜索digital humanities(這只是參照項)和computational social science的結果。當然還有很多其他可能的指標,比如論文的研究題目、以及上面提到的數據論文(data paper)。

不過大數據是否能夠足夠流行以至於成為「主流」呢?Again,這取決於如何定義主流這件事。毫無疑問的是,數據驅動的模式在絕大多數的學科都已經被確立為一種可以被接受的研究範式了,這當然只是定義主流的一種標準吧。不過就像上面說的,大數據不可能研究一切的題目,big data cannot rule them all,所以其他的數據-理論-方法的package也一定是會長期存在於不管是社會科學還是人文學甚至於自然科學中的。

參考資料:

Boyd, D., Crawford, K. (2012). Critical Questions for Big Data. Information, Communication Society, 15(5), 662–679. https://doi.org/10.1080/1369118X.2012.678878

Frické, M. (2015). Big data and its epistemology: Big Data and Its Epistemology. Journal of the Association for Information Science and Technology, 66(4), 651–661. https://doi.org/10.1002/asi.23212

Leonelli, S. (2014). What difference does quantity make? On the epistemology of Big Data in biology. Big Data Society, 1(1), 2053951714534395.

Mayer-Sch?nberger, V., Cukier, K. (2013). Big data: A revolution that will transform how we live, work, and think. Houghton Mifflin Harcourt.


肯定會更多的流行用大數據分析,但至於研究到底會不會更準確,對於社會科學,不知道

因為idea是人想出來的,數據量再大,關聯也得人去想,而且數據量越大,越容易操弄,別人也越難檢驗,很容易冒出一大堆似是而非的結論,到最後照樣是公說公有理,婆說婆有理。別說社會科學,就是經管類的,數據多吧,大批reg monkey亂找關係也就罷了,更有甚者,包括發top的,都有不少是美國大教授先想好了結論,論文都寫好了,就等著填數據的呢,然後國內的香港的合作方根據已經出的結論跑數據,呵呵,你說這數據到底是有用呢,還是沒用呢


機器學習會極大地提高數據數量與質量(很有希望),節省時間,降低人力成本。在此龐大數據的基礎上,研究者可以考查以往無法提出或無法研究的理論或實證問題。但相關技術似乎並不直接幫助釐清關係或進行因果推斷。

也就是說,基於機器學習與自然語言的技術使數據量擴大了,質量也可控,會成為很有用的數據收集方法,但跟實證分析與理論建構沒太大關係,而後者才是科學研究的核心。至於會不會成為主流的獲取數據的方法,取決於你的研究問題和相關領域當下的數據質量。

對這些以及所有技術我的態度基本是,不拒斥、不迷信、該學學——學會了不傲嬌,暫時學不會也不抵觸;能用上最好,暫時用不上就當個興趣;底線是能理解優勢與局限。


人類歷史上從未坐擁如此海量的數據,以數據為主的研究方式預計近期會成為主流,但提醒諸位用大數據做社科研究時,需謹慎注意以下幾點:

  1. The data is usually gathered using structured research instruments.
  2. The results are based on larger sample sizes that are representative of the population.
  3. The research study can usually be replicated or repeated, given its high reliability.
  4. Researcher has a clearly defined research question to which objective answers are sought.
  5. All aspects of the study are carefully designed before data is collected.
  6. Data are in the form of numbers and statistics, often arranged in tables, charts, figures, or other non-textual forms.
  7. Project can be used to generalize concepts more widely, predict future results, or investigate causal relationships.
  8. Researcher uses tools, such as questionnaires or computer software, to collect numerical data.

Things to keep in mind when reporting the results of a study using quantitative methods:

  1. Explain the data collected and their statistical treatment as well as all relevant results in relation to the research problem you are investigating. Interpretation of results is not appropriate in this section.
  2. Report unanticipated events that occurred during your data collection. Explain how the actual analysis differs from the planned analysis. Explain your handling of missing data and why any missing data does not undermine the validity of your analysis.
  3. Explain the techniques you used to "clean" your data set.
  4. Choose a minimally sufficient statistical procedure; provide a rationale for its use and a reference for it. Specify any computer programs used.
  5. Describe the assumptions for each procedure and the steps you took to ensure that they were not violated.
  6. When using inferential statistics, provide the descriptive statistics, confidence intervals, and sample sizes for each variable as well as the value of the test statistic, its direction, the degrees of freedom, and the significance level [report the actual p value].
  7. Avoid inferring causality, particularly in nonrandomized designs or without further experimentation.
  8. Use tables to provide exact values; use figures to convey global effects. Keep figures small in size; include graphic representations of confidence intervals whenever possible.
  9. Always tell the reader what to look for in tables and figures.

數據本身不會說謊,但數據收集的過程、覆蓋的範圍、問題的設置、選項的描述、採訪的背景等各種細節都會給分析結論本身帶來一定的主觀偏向性。

這也是為什麼一些研究者對大數據分析存在質疑的根本原因:你無法保證你的數據來源是否可靠。

來源 University of Southern California:

Research Guides: Organizing Your Social Sciences Research Paper: Quantitative Methods


會的。

類比自然科學與數學的關係,相輔相成,共同進步。社會科學與數學一樣可以達成這樣的關係,而統計學就是他們的橋樑。社會科學想要真正的科學化,勢必要越來越多的依賴數學工具,這種趨勢是不以個人的意志為轉移的。

計算機技術就更是直接的事情,計算機對現代人的地位就像紙和筆,任何的研究工作都不可能離得開計算機的幫助。

綜上,統計學與計算機都是工具,高效的工具自然會被越來越多的使用,可以參照生物統計對生物學研究的助推作用。

但是研究者的核心並不是工具,對社科研究者來說,只要能理解工具的用法就足夠了,而不必深究其中的原理。


這個問題里有一個如何定義「主流」的前提還沒有討論清楚。

無論是人文方向還是偏科學的方向,這兩者都是人文社會學科的重要分支,兩種角度都有不可或缺的存在價值。我認為「人文社會學科」要發展成「社會科學」,暫時不太可能(我個人對「社會科學」這個名詞是不太認可的)。畢竟有太多因素導致社會領域的研究無法精準化。而在理論上,數據科學亦不可能解決這一困難中的所有問題:譬如大數據在很多研究中因為各種原因用不起來;又如它只能告訴你是什麼而沒有能力告訴你為什麼;另外大數據的有效性還有待提高等等。

因此使用大數據解決社科科學化難題亦是存在天花板的,我們不能因為目前大數據正在資本和行業發展的風口上,就一味地漠視大數據的各種缺陷。風口總會過去的,風過去之後豬還能飛多久?

所以我認為人文方法依然還會佔據半邊天。未來更多的研究會用到大數據,並不能代表它就有能力稱為「主流」。當然,數據科學的應用和人文社會學科追求科學化的發展腳步,永遠不會停歇。


之前有過類似的問題,做過差不多的回答。問題的關鍵在於人的行為能否被直接觀察、測量。

「社會世界」同「物質世界」是否一樣,可以通過觀察、定義、測量來尋找其規律或做出結論?人是有意識的。物和物的關係可以通過對物的觀察、定義和測量來研究,而人的行為不僅需要觀察,還需要理解。人的同一行為,背後代表的含義可能千差萬別。因此,研究人的行為經常要通過一些基本概念來理解,比如「權力」「階級」「國家」,比如「信任」「幸福」。而這些概念是無法直接觀察、測量的,因為它對於每個人的意義是不一樣的。 如果不同的研究者所觀察到的權力、幸福等都不同,就無法定義和測量。因而,「權力「「幸福」事實上根本就不存在,是人們建構出這些概念以理解人的行為。

如果研究者堅信社會世界是客觀的獨立於人的意識存在的,那麼「幸福」就是可測量的,就會傾向於「科學」的行為主義的定量研究,那就可以拿大數據來搞。如果研究者認為社會世界不是客觀的,是被意識建構出來的,就會傾向於「人文」的描述性研究方法,比如歷史比較、過程追蹤、田野調查等。


猜測哈,就國內來說,比如這個片區的大學城,知道tensoflow的教職員工不超過50,會用大數據的恐怕一隻手數的出來,財大交大可能好不少。


請記住一點,只有有預測能力的假說才能成為有用的理論。計算機和大數據在解釋過去發生了什麼這一點上卻是無人能及。但是在解釋為什麼會發生及以後還會不會發生以及以後如何發生上,就心有餘而力不足了。

經濟學一直在往科學的山頂前進,靠的是一代代經濟學家的汗水和心血。拿台計算機就覺得能替代羅盤改變世界的,幾乎是痴人說夢。記得當年民科盛行,一個物理老師被騷擾得實在受不了了,告訴民科,如果你的理論只能解釋不能預測,就是一坨屎。現在把這句話轉贈給經濟學界的民科。

------------

突然發現上面的回答好像跑題了。

社會學是不需要預測,也不需要檢驗的。也就是說本質是是拼誰的故事說得動聽。那麼在此前提下,假以時日,不但會成為主流,簡直會統治未來的社會科學研究。


會,一定會。


基於RNN的社會科學論文自動生成


目前成功的方面大概有:

  1. Quant,但是只是用統計上的演算法,和機器學習沒啥關係。
  2. 城市規劃。
  3. 語言學,使用形式語言或者神經網路來處理。

其它的基本沒有。

我開一下腦洞,目前可以拓展的方向有:

  1. 計演算法律,利用形式語言驗證法條是否衝突,以及是否健壯。
  2. 政治,利用沙盒裡模擬真實環境,創造儘可能健壯的制度。11


宏觀經濟學不可或缺的研究方法,科學需要實驗來驗證理論的正確性,社會學不可能為了驗證理論而創造實驗對象(不能為了研究戰爭經濟措施人為創造一場戰爭),所以大數據將成為關鍵的技術手段,


不要臉的來回答一波,我認為利用計算機和大數據進行社會科學研究完全可能成為主流啊,因為正如魔鬼經濟學的作者說的那樣,數據不會撒謊啊,利用計算機進行人力無法完成的數據挖掘,然後社會科學家在利用挖掘到的信息進行分析。我覺得大數據的優勢在於其滲透力,擁有媲美數學的或者在數學的基礎上擁有的學科交叉能力,個人認為無與倫比。其交叉能力見於醫療,社科,藝術,物理,乃至文學。換個角度講,目前的人工智慧還處於數據驅動階段,也就是大數據階段,與傳統的大數據分析有交叉的部分,但也有區別,所以根據目前的人工智慧熱度來看,大數據的應用將會越來越廣,但這並不是什麼壞事,數據幫人們發現真相,計算機是工具,大數據是方法。


你也想當謝頓?


數據是有欺騙性的,很多時候在於如何被闡釋。數據科學家理論功底未必紮實。

去年有多少大數據專家預測希拉里大勝,現在繼續吹大數據吧……


現在的經濟可能是數理模型還太幼稚,所以預測能力是個屎。但是這不代表經濟本身不行,我相信未來大數據和經濟還是誰也無法取代誰。


我突然有個疑問,普查得到的數據算大數據嗎?


會 一定會

但分析數據的任務就目前來看還是需要人的 且一些社會科學公說公有理婆說婆有理 確定論點再去用強大的數據論證 會讓很多荒謬的結論跳出來


推薦閱讀:

海量日誌數據存儲用 elasticsearch 和 hbase 哪個好?
達到多大規模的數據,才值得用大數據的方式來處理?
阿里雲的MaxCompute數加(原ODPS)用的怎樣?
帆軟這家公司誰了解,其產品如何?
新入學的計算機研究生怎麼安排三年學習深度學習?

TAG:社會科學 | 自然語言處理 | 經濟學 | 大數據 |