經濟學研究中,哪些領域的數據搜尋比較需要爬蟲技術?

或者說,運用爬蟲技術,哪些領域的數據收集工作負擔會大大減輕,或者研究的對象會擴展?


要問題導向啊,騷年!

你研究的問題,需要的數據,在資料庫里找不到(或者不可得),也沒有現成的調查數據;正好網上有,你就寫個爬蟲爬下來。

我只說一些我見到的用爬蟲搜集數據的研究:

有個研究房地產企業政企關係對拿地影響的,爬了土地招拍掛網站上的地塊數據。

有個研究經濟史的老師,請人把學校里的文史資料資料庫給爬下來了。

有個關於社交網路和政治醜聞的研究,爬了新浪微博的數據。

總結,爬蟲只是數據搜集的技術,要不要用它,依問題而定。如果一定要說個領域,可能微觀經驗研究領域用的多些;這跟沒說又有什麼區別。

其實,即使對於數據工程師而言,爬蟲也並非使「 數據收集工作負擔會大大減輕 」的選擇。


謝邀。今年一直忙於自己的事情,貢獻的乾貨有點少,如果大家有看到適合我的問題歡迎邀請我!

根據我回答問題的習慣,還是像之前一樣,在陳述答案之前先討論題主通過問題想問什麼。這是一個很好的問題。哪些領域需要爬蟲技術、或者可以減輕負擔、或者擴展研究對象等,背後隱含的假設是,這些問題如果缺少爬蟲技術,需要極其龐大的人手去做這件事情,而爬蟲技術,或者更精確地說,自動化的數據採集技術,可以非常快速方便地讓問題可行。所以題主的問題可以概括為,哪些問題是可以通過自動化的數據採集技術大大降低成本和提高可行性?

定義清楚了問題,回答起來就很容易了。所有在傳統研究背景下需要大量人工收集但是可以用自動化數據採集技術降低成本和提高可行性的問題和領域都可以或者需要。因為自動化數據採集技術的代表就是用各種簡單或者複雜的爬蟲來做,因此最可能有幫助的領域就是研究互聯網相關問題的研究領域,最多的就是產業組織方面,在一些特殊的線上市場的背景下,其他特定領域也有可能發揮大用處,比如說線上的勞動力市場、線上的金融市場等等。相關領域的論文很多,這裡就不一一列舉了,我爭取在完成我自己的論文之後以展示我這大半年的研究成果的方式介紹其中一部分。

以上舉例的情況是,這些問題是互聯網市場催生的新問題,自然需要新的技術(如果爬蟲算新技術)去解決這些問題。此外還有一些情況是,數據被公開到網上,可以通過爬蟲來減輕收集負擔,比如說爬專利和論文發表信息研究創新、爬法律文書信息研究法經濟學、爬土地信息研究經濟增長或者城市經濟學、爬各種資料庫研究各種對應領域等等。恰好我們項目近一年來和很多老師合作做了很多項目,如果大家有興趣,我們可以通過Live等形式分享一下。

如果把問題擴展到社會科學領域,比如說比較熱門的在線社交網路、在線媒體等等,用來研究政治學和社會學問題的也非常多。比如說政見推過用新浪微博研究敏感詞的政治學文章等。如果把工具擴展到爬蟲以外的各種自動化技術,那麼各種本地提取數據的自動化程序都可以起到類似效果;如果增加技術難度要求,那麼基於各種數據挖掘技術,特別是自然語言、圖像識別和機器學習的自動化提取技術甚至是爬蟲技術,都可以大大提高效率和減少人力成本。

在這個問題之外,我想再討論更深入一些:最理想的情況是什麼?答案自然是讓機器人幫我們寫論文發論文。這意味著我們需要強人工智慧去做這件事情。次一點的情況是,讓機器人幫助人類完成收集和清洗數據的相對比較繁瑣但是智力要求相對比較低的工作。這個方面,弱人工智慧就大有可為。其中,在我自己做過的十幾個項目和我們和老師合作的幾十個項目中,我總結出來的最有可能有幫助的主要是兩方面:自然語言處理和圖像識別。為什麼呢?用來做數據分析的數據通常是一些已經結構化的數字和文本,而這些數據的原始來源可能是通過某個規則從十幾萬個文本中統計出來,或者根據某個規則從某一段文字中摘取的數字,這段文字可能是電子化的文本,不再需要進一步識別,也可能來源於一個掃描版的書,這個在經濟史研究中非常常見,比如說識別各種古文字並轉化成現代漢語、識別縣誌中的統計數據並且歸類儲存等等。因此說,如果讓計算機擁有讀書的能力,那麼很多比較繁瑣的工作就可以讓計算機去做,讓計算機去讀網頁、去讀各種各樣的文本和圖片。只是研究怎麼讓計算機可以讀古書這些東西,看起來似乎沒有什麼用處。然而,自動化的歷史史料庫的整理,對於歷史學和人類學也是大有幫助的。整個社科的情況類似,同時也給計算機科學提供了大量生動的實例和問題,能夠解決一大堆科研問題。而業界更是能從這類技術本身獲益,大大提高數據採集和整理能力,以節約數據分析團隊的經歷在問題本身上面;解決這些問題本身需要的技術,比如說古文字識別,很可能擴展到其他需要讀文字的領域,比如說掃描手寫體文件等等,在很多很多領域轉化成生產力。

這個回答我想傳遞的價值觀是,重視技術在學術研究和業界生產中的應用,擁抱這些變化並且積極抓住這些變化,組合不同領域的解決方案,解決別人沒有解決過的問題。


哪些工作能減輕

1.數據源「相對」較分散

「相對」:例如,數據源集中於一個或多個網站的不同分頁面。幾十個上百個可以人工搞,但是再多就只能用程序了……

上面的回答者似乎有「一個爬蟲爬整個互聯網」的豪氣,真是不寫程序的不知道一個非計算機相關學科的人,做這些玩意兒多難(況且還只是針對一個網站)。

2.數據源會更新

哪些工作會有創新

1.數據再造

爬蟲+機器學習,能把大量文字變為數據,這種工作量是在以前難以完成的。

但問題又來了,這種條件下搞出來數據,雜訊太大(特別用所謂「關鍵詞」來作為數據樣本),需要極高的計量處理水平,真正能玩出花的不多,不如老老實實用公開資料庫來做。

2.真實世界的還原+Social Network分析法

本身是學渣,還常逃課,說一些自己也是一知半解的東西。

經濟學追求「因果」,而爬出來的大數據在很多應用上只能說是「相關」,甚至在很大程度上說,做出來的模型內生性是相當大的。

然而,真實世界中個體其實並不相互獨立,也不符合個體相互獨立的假設。但是如果我們放棄個體獨立假設,把「求因果」改為「看相關」再加上用Social Network來分析,這個世界就會好玩兒的多。

eg.1.用史料分析文藝復興時期家族興衰時,每當談到兩個家族有過某種聯繫時,將其作為一個link。用爬蟲爬既有的資料,最後把link進行分析,會發現處於link中節點位置的家族崛起了(忘了paper叫啥名字了)

2.用爬蟲爬紐約時報近10年所有的文章,若某篇文章中出現了某兩個國家則算作一個link,結果很好玩,特別是套入Social Network的模型里

最後要說的:

目前經濟學界用爬蟲做數據,寫出的好文章並不算多,RCT仍是大殺器,用面板甚至截面寫出來的仍是主流。

數據來源僅是一種手段,Idea才應該是核心,能用大家都有的數據寫出好文章,那才是真牛逼。切莫為了手段,迷住了心。


推薦閱讀:

實證檢驗博弈論模型推出的結論,用reduced form的計量方法是否不合適?
如何寫好一篇計量經濟學論文?
計量經濟學的書和軟體?
最近剛接觸計量經濟學,學得不是很懂,求教一些學習方法?
White和Cluster估計出來的標準差一定比homo估出來的標準差更大么?

TAG:數據挖掘 | 數據分析 | 經濟學 | 計量經濟學 | 數量經濟學 |