為什麼經濟學家對大數據「敬而遠之」

如果在學術圈混的話,沒聽說過「大數據」(Big Data)恐怕是不可能了。關於大數據的好與壞,分析文章多如牛毛,我就不在這篇文章里賣弄了。但有一個現象還是值得注意的——在經濟學領域,用大數據發文章的還是比較少。按理說,經濟學是社會科學中最「科學」的一支,又以其「帝國主義」的霸權思想全方位侵入各個社科領域,為什麼在大數據浪潮面前這麼淡定?不衝上去做一個弄潮兒?

我個人認為這是由於經濟學使用數據的重點在於identification,或者說causal inference(因果推斷),而現在的大數據因為數據生產過程不透明及樣本偏差等,想做出學界認可的結果並不容易。讓我們看一個研究的例子,來說明為什麼是這樣:

之前微信公共號「論文大燜鍋」推送了一個文章,講李宏彬、施新政和吳斌珍三位老師合作撰寫的American Economic Review Papers and Proceedings論文「The Retirement Consumption Puzzle in China」,實證考察了中國居民的退休消費情況。文章的背景是這樣:

根據平滑消費理論,人們會調整一生各階段的消費水平使之大致相當。然而,大量文獻卻發現人們的消費水平會在退休後發生大幅度下降,這與平滑消費理論發生了衝突。許多學者都試圖從不同角度對此進行解釋,本文作者也加入了這一行列。

在介紹作者們是怎樣做的之前,我們先來想想,如果我們用「大數據」要怎麼做?

首先搞消費研究那得找萬能的淘寶和京東啊,假設我們拿到了所有淘寶、京東的數據,知道大家都買買買了什麼。但這裡有個問題,要研究的是消費水平是否會在退休後大幅度下降,退休的人不怎麼用淘寶和京東啊!這裡面臨了大數據的問題一:所有的企業的用戶數據(user)和真實的人口(population)都存在偏差,而且往往偏差很大。就拿相對最全的銀行數據來說(金融方面),覆蓋的也往往是本行的用戶數,選擇某一銀行的人可能本身就有樣本偏差,而且還不一定能覆蓋其它如股票、信託等金融方式。

那麼我們假設所有中國人都用淘寶和京東,這樣是不是就行了呢?

也不行。

因為你不是所有東西都在這上面買,我買個饅頭、買根蔥,總不至於也上京東吧?

那我們假設全國菜市場也都聯網了,我知道你都買了多少菜,多少魚,總行了吧?

可能還是不行。

因為我如果根本就不去買,退休後在家裡自己種菜呢?自己蒸饅頭呢?而且這種現象恐怕不稀少吧?這都會造成數據的系統性偏差。讓我們來看看作者們是怎麼分析數據中消費品類型的影響的:

在本文作者看來,現有研究的實證分析尚存在一些不足:首先,現有研究對消費的定義並不完善。消費中有一部分是與工作相關或者可以被家庭內部生產所替代。在考察退休前後消費是否滿足平滑消費理論時,應該先將這一部分剔除。然而,大多數現有研究由於數據的局限而未能這麼做。其次,現有研究面臨內生性問題。退休與否是一個高度內生的決策變數,不考慮退休內生性的實證考察結果很有可能存在偏誤,進而也無法明確得到退休與消費之間的因果聯繫。

作者們在處理這一研究問題的時候還是採用了「傳統數據」,中國城市家庭調查數據(Chinas Urban Household Survey, UHS),對消費內容進行了細緻的分解,分出了工作相關消費、可被家庭生產替代的消費及其他消費。

對於內生性的問題:本文利用中國的強制退休政策,藉助斷點回歸策略(RD)有效處理了內生性問題。中國的很多單位都實行強制退休政策(主要是政府、公共部門、國有企業、集體企業,男性60歲、女性55歲),作者基於此比較考察了退休前後年齡段人群所在家庭的消費變化情況。

作者們得出的結論是:

退休確實會使家庭的非耐用品消費顯著下降21個百分點。不過這一下降主要是由工作相關開支減少、食品消費由在外進行轉變為在家進行所造成的。其中後者主要是由於家庭內部食品消費價格更加低廉,而且退休群體有充足的時間在家準備食品。在剔除了這兩項之後,作者發現退休並未對其他非耐用品消費造成顯著影響,即平滑消費理論針對其他非耐用消費品仍然成立。

當然,要知道UHS的數據可不是想拿就能拿到的,現在經濟學研究高質量數據變得非常非常重要,而且只要數據質量夠好,根本不需要複雜的模型。有研究表明,經濟學主流期刊上面OLS仍然是使用最多的回歸方式,而不是什麼DID,RD,GMM。

其實經濟學家對數據是非常敏銳的,早已經不局限在傳統的統計年鑒、普查數據,他們扒地方志及歷史文獻,用氣象數據、遙感數據,現在也有非常多的研究開始寫爬蟲抓互聯網數據。所以經濟學家不是不用數據,也不是不用大量的數據,而是對「大數據」的使用持審慎的態度。

在接下來的幾篇專欄文章里,我們準備來談一談經濟研究中採用大數據的例子和方法,歡迎關注。

(本文舉的例子主要是想說明數據的選擇與研究問題的需求密不可分,這一點不論數據"大小"。很多時候,研究人員並不能很好地了解拿到的"大"數據的產生方式,及可能存在的偏差,導致使用起來會比較盲目。特別地,互聯網公司的業務變化速度非常快,演算法腳本經常更新,用戶結構性的變化也不小,這些對於外部研究者都是很難了解的。)


推薦閱讀:

都是名媛,住在回龍觀和天通苑有什麼不同?
開源OLAP系統小結
北京上海典型購物中心客群數據分析
WSJ文章翻譯:華爾街的無限慾望:數據,數據,數據
阿里巴巴下一代數據集成技術

TAG:经济 | 大数据 | 数据分析 |