如何獲取微觀數據?

本題已收入知乎圓桌 ? 經濟數據面面觀,更多「經濟數據」相關話題歡迎關注討論

實證研究離不開數據,當前,官方匯總數據日益成為一種公共產品,研究團體和社會公眾有很多渠道獲取。但是,由於技術、經濟、法律、甚至是政治等種種因素的制約,微觀統計數據共享和傳播渠道缺失,迫使研究團體和個人自己去進行數據收集,造成大量的重複勞動和財力時間的浪費。那麼如何能迅速有效地獲取微觀統計數據呢?

補充:省級數據可能含有內生性。所以目前研究所用的數據越來越偏向於省級以下,在邏輯上也更加清晰一些


中國著名微觀資料庫
1. UHS (Urban Household Survey)
2.CHIP (Chinese Household Income Project Survey)
3. CHNS (China Health and Nutrition Survey)
4. CHARLS (China Health and Retirement Longitudinal Study)
5. RHS (Rural Household Survey)
6.CLHLS (Chinese Longitudinal Healthy Longevity Survey)
7.CFPS (Chinese Family Panel Studies)
8.CHFS ( China Household Finance Survey)
-------------------分割線-------下面詳細介紹--------------------------
1. UHS(Urban Household Survey)(此數據使用需要得到國家統計局授權)

簡介:中國城鎮住戶調查數據。它是國家統計局城調總隊負責調查的。現在可以拿到1986年至2006年的數據。如果可能的話,我們可以拿到全部省份的數據,但現在大家使用的是六個省份的數據(北京、廣東、浙江、遼寧、陝西、四川)。每年大約有3500-4000戶的數據。

包含變數:(1)個人層次上的變數。與戶主關係,性別、年齡、文化程度、行業、職業、就業狀況、工資、總收入、工作小時數、參加工作年份、退休金、財產性收入。(2)家庭層次上的變數。家庭總收入、家庭人口數、居住面積、房間個數、家庭財產、現金支出、現金流入、儲蓄、借款、家庭消費。

可做的研究:
(1)教育回報率問題。
(2)收入不平等問題。
(3)勞動力供給問題。家庭財產、孩子(老人)、退休金。
(4)行業的分布及變化。
(5)職業的分布及變化。人力資源管理。
(6)就業問題。失業率和勞動參與率。
(7)教育決定因素及教育不平等問題。
(8)社會保障方面的研究(退休金)。
(9)財產性收入研究。
(10)房地產需求問題。它與人口結構的關係。
(11)非正規金融問題(借款)。
(12)家庭消費的決定因素及模式變化。

2.CHIP(Chinese Household Income Project Survey)
鏈接: Chinese Household Income Project, 1988;jsessionid=5C778733263D9AE441544F58422017E2?classification=ICPSR.IV.B.

Chinese Household Income Project, 1995;jsessionid=5C778733263D9AE441544F58422017E2?classification=ICPSR.IV.B.

Chinese Household Income Project, 2002

簡介:中國家庭收入項目調查。它是由國家統計局農調總隊和中國社會科學院經濟研究所共同開展此項專門調查。調查內容主要包括:收入、消費、就業、生產等有關方面的情況。現在做了三輪,分別是1988,1995,2002,可能2006的也正在進行中。這個數據是全部省份。這個數據的好處是,農村及城鎮的數據都有。城鎮每年家庭的數據大約有6800戶,人數大約為20000人。農村每年家庭的數據大約有9200戶,人數大約有38000人。
包含變數:(1)個人層次上的變數。與戶主關係,性別、年齡、受教育年限、行業、所有制、職業、就業狀況、工資、總收入、工作小時數、參加工作年份、是否中共黨員、是否當過兵、是否當過幹部、吸煙花多少錢、喝酒花多少錢、是否殘疾、醫藥支出額多少、生病的時間、從事家務勞動的時間、照顧家裡其它病人的時間、工資收入總額、退休金、股票紅利、工作天數、工作小時數、找工作的渠道、居住條件、開始非農就業的年份。(2)家庭層次上的變數。家庭總收入、家庭人口數、居住面積、房屋所有權、貸款的數量、借錢的途徑、自己及配偶父母的家庭成分、家庭收入、老人補助金、現金支出、家庭消費、家庭財產。

可做的研究:
(1)教育回報率問題。
(2)收入不平等問題。
(3)勞動力供給問題。家庭財產、孩子(老人)、退休金、家務勞動時間。
(4)找工作的方式問題。
(5)行業的分布及變化。
(6)職業的分布及變化。人力資源管理。
(7)就業問題。失業率和勞動參與率。
(8)教育決定因素及教育不平等問題。
(9)社會保障方面的研究(退休金)。
(10)財產性收入研究(股票)。
(11)房地產需求問題。它與人口結構的關係。
(12)住房解決方式問題。
(13)農村非正規金融問題(借款)。
(14)家庭消費的決定因素及模式變化。
(15)黨員、當兵、當幹部、父母家庭成分對收入和就業的影響
(16)吸煙、喝酒等支出的決定因素及變化趨勢
(17)農村老人補助金問題。
(18)老人養老安排問題。
(19)老年人勞動供給問題(退休年齡的提高)。

3. CHNS (China Health and Nutrition Survey)

鏈接:China Health and Nutrition Survey

簡介:中國健康與營養調查。由美國北卡羅萊納大學教堂山校區的羅萊納州人口中心和中國疾病控制和預防中心的國家營養和食品安全所合作建立的一個數據。這個數據最大的好處是,它是一個面板數據。而且,農村和城鎮的數據都有。現有的數據有:1989, 1991, 1993, 1997, 2000, 2004,2006等年份。包括的省份:遼寧、黑龍江、江蘇、山東、河南、湖北、湖北、湖南、廣西、貴州。這些數據可以在網上下載。現在,國際一些好的刊物很多文章也是用這個數據做的。這個資料庫涉及的變數較多,處理起來比較困難。以後年份的數據缺失可能比較嚴重。

包含變數:(1)個人層次上的變數。與戶主關係,性別、年齡、出生日期、民族、身高、體重、血壓、病史、吸煙史、受教育年限(水平)、戶口、是否幹部、行業、職業、第二職業、工作單位的性質及人數、就業狀況、工作時間(非常細緻)工資、總收入、參加農業生產的情況。(2)家庭層次上的變數。農業生產、農作物價值、家庭總收入、家庭人口數、家庭支出(較詳細)、家庭收入(較詳細)、居住情況(詳細)、交通工具、家庭消費、家庭財產、醫療費用(詳細)、家庭成員生病(較詳細)、食物消費(詳細)。(3)社區層次變數。村人數、村戶數、是否實行醫療保險、醫院情況、消費結構、學校情況、計劃生育情況、食品價格。

可做的研究:

(1)身高體重與食物結構的關係。
(2)勞動力市場上是否在身高等存在歧視。
(3)吸煙對健康的影響。
(4)健康對勞動力供給的影響。
(5)就業問題。
(6)勞動力供給時間問題。
(7)醫療保險對健康的影響。
(8)社區醫療結構(醫院的多少)對健康的影響
(9)某些疾病的發病趨勢。
(10)收入不平等問題。
(11)社會保障方面的研究。
(12)家庭消費的決定因素及模式變化。

4. CHARLS(China Health and Retirement Longitudinal Study)
(使用該數據要求填寫保密協議,獲得北京大學相關授權)
鏈接: http://charls.ccer.edu.cn/charls/data.asp

簡介:中國健康退休跟蹤調查。這個資料庫是由北京大學中國經濟研究中心趙耀輝教授負責的一個項目。這個項目實際是跟美國的HRS資料庫並行的,主要是為了研究健康和退休行為。這個數據選取的樣本是,年齡大於等於45歲。這個資料庫的質量非常好,為了得到血樣的數據,專門對相關的數據採集員做了培訓。這個資料庫最快明年春天就能用,並且它是對所有的研究者公開的。這個數據另外的一個好處是,它是一個面板數據。

包含的變數:包含的變數非常豐富。基本在勞動經濟學研究中,能用到的變數都考慮到了。舉幾個例子。教育水平,細分到了碩士和博士;英語水平細分到了過了國家幾級;大學是同等學歷還是正規畢業;村幹部細分到了村書記還是村會計

可做的研究:
(1)社會保障方面的研究;
(2)老齡化問題方面的研究;
(3)其它勞動經濟學方面的研究;
(4)人口經濟學方面的研究;
(5)衛生經濟學方面的研究;

5. RHS(Rural Household Survey)

鏈接:中國農村住戶調查年鑒2010年PDF版

簡介:中國農村住戶調查數據。它是國家統計局農調總隊負責調查的。它是與城鎮調查相對應的一個數據,也是每年做一次,但因為涉及到的問題比較敏感,這一套數據比較難拿。我這裡給出的鏈接是人大論壇上掛出的10年的年鑒,有點小貴,要20的論壇刀。

包含變數:(1)個人層次上的變數。與戶主關係,性別、年齡、文化程度、當年在家居住的時間、是否在校學生、是否接受過技能培訓、是否喪失勞動能力、從事、行業、從事農業生產的時間、從事非農行業的時間、是否鄉鎮企業職工、在鄉鎮企業工作的時間、外出方式、外出地區、在外務工時間、在外務工總收入

生活消費總支出。(2)家庭層次上的變數。家庭總收入、家庭人口數、家庭財產、現金支出、現金流入、家庭消費、繳納的稅費。
可做的研究:

(1)農村稅費問題。
(2)農民工遷移問題,包括地區、遷移方式。
(3)農民工收入對家庭總收入的影響。
(4)研究鄉鎮企業問題。
(5)農村基礎設施問題,電話、公路等等。
(6)農村地區財產性收入問題。
(7)農產品價格及農民收入問題。
(8)農業機械與農業產量。
(9)各種農作物種植面積的變化趨勢。
(10)農村家庭消費的決定因素及模式變化。

6.Chinese Longitudinal Healthy Longevity Survey (CLHLS)
鏈接:Chinese Longitudinal Healthy Longevity Survey (CLHLS), 1998-2005
簡介:全國老年人口健康狀況調查項目(又名中國老人健康長壽影響因素研究)的項目主持人為北京大學中國經濟研究中心教授與杜克大學教授及北大老齡健康與家庭研究中心主任曾毅。這一資料庫主要是為有關老年人的研究服務。現有的數據包括:1998 2000 2002 2005年。
包含變數:性別、年齡、屬相、出生日期、出生地、婚姻、受教育程度、以前所從事行業、生活能力、疾病、看病花費等信息


可做的研究:

(1)老年人的居住安排(跟兒子住,還是跟女兒住)
(2)老年人的疾病狀況。
(3)老年人醫療支出結構分析。
(4)所從事行業對以後健康的影響。

7.CFPS(Chinese Family Panel Studies)
(使用數據需簽署保密協議,獲得北京大學授權)

鏈接: 北京大學中國社會科學調查中心
簡介:「中國家庭動態跟蹤調查「(CFPS)是北京大學中國社會科學調查中心整合北京大學社會科學各院系的學術力量設計並組織實施的一項重大社會科學實證研究項目。旨在通過跟蹤搜集個體、家庭、社區三個層次的歷時數據,反映中國社會、經濟、人口、教育和居民生活質量的變遷,為學術研究和政府決策提供第一手的實證數據。
包含變數: CFPS2008年測試調查的問卷分為村/居問卷、家庭問卷、成人問卷和少兒問卷四種。其中,村/居問卷的調查內容包括:村/居基礎設施概況、人口和勞動力資源概況、自身及周邊環境、基層選舉、財政收入與支出,以及日常消費品價格等。家庭問卷的調查內容包括:家庭成員結構、日常生活基本設施、社會交往、住房、家庭經濟、農業生產與銷售等。成人問卷的調查內容包括:教育、婚姻、職業、日常生活、健康、養老、社會保障、社會交往、價值觀、以及基準測試等。少兒問卷的調查內容包括:學業情況、日常生活、健康、職業期望、與父母關係、成長環境、社會交往、價值觀、以及基準測試等。
可做的研究:
(1)教育回報率問題。
(2)收入不平等問題。
(3)勞動力供給問題。家庭財產、孩子(老人)、退休金、家務勞動時間。
(4)找工作的方式問題。
(5)行業的分布及變化。
(6)職業的分布及變化。人力資源管理。
(7)就業問題。失業率和勞動參與率。
(8)教育決定因素及教育不平等問題。
(9)社會保障方面的研究(退休金)。
(10)財產性收入研究(股票)。
(11)房地產需求問題。它與人口結構的關係。
(12)住房解決方式問題。
(13)農村非正規金融問題(借款)。
(14)家庭消費的決定因素及模式變化。
(15)黨員、當兵、當幹部、父母家庭成分對收入和就業的影響
(16)吸煙、喝酒等支出的決定因素及變化趨勢
(17)農村老人補助金問題。
(18)老人養老安排問題。
(19)老年人勞動供給問題(退休年齡的提高)。


8.CHFS( China Household Finance Survey)

(這個是我們學校的,放在後面壓軸,並且極力推薦!使用需獲得西南財經大學授權)

鏈接:中國家庭金融調查

簡介:中國家庭金融調查與研究中心是西南財經大學與中國人民銀行總行金融研究所共同成立的公益性學術調查研究機構。中心主要工作是在全國範圍內開展中國家庭金融調查(China Household Finance Survey,CHFS),收集有關家庭金融微觀層次的相關信息,主要包括:住房資產和金融財富、負債和信貸約束、收入、消費、社會保障與保險、代際轉移支付、人口特徵和就業以及支付習慣等相關信息,以便為學術研究和政府決策提供高質量的微觀家庭金融數據。該調查是針對中國家庭金融領域全面系統的入戶追蹤調查,調查成果將建成中國家庭金融微觀領域的基礎性資料庫,為社會共享。中心計劃每兩年進行一次全國性入戶追蹤調查訪問,樣本分布在全國25個省(自治區、直轄市),80個縣(區、市),320個村(居)委會,樣本規模為8400多個家庭。

包含變數:(1)個人層次上的變數。與戶主關係,性別、年齡、受教育年限、行業、所有制、職業、就業狀況、工資、總收入、工作小時數、參加工作年份、是否中共黨員、是否當過兵、是否當過幹部、吸煙花多少錢、喝酒花多少錢、是否殘疾、醫藥支出額多少、生病的時間、從事家務勞動的時間、照顧家裡其它病人的時間、工資收入總額、退休金、股票紅利、工作天數、工作小時數、找工作的渠道、居住條件、開始非農就業的年份。(2)家庭層次上的變數。家庭總收入、家庭人口數、居住面積、房屋所有權、貸款的數量、借錢的途徑、自己及配偶父母的家庭成分、家庭收入、老人補助金、現金支出、家庭消費、家庭財產

可做的研究:

(1)轉型中中國微觀家庭和個人經濟、金融行為的變化
(2)宏觀經濟變數的變化趨勢
(3)外部衝擊、政策和制度變化的影響
(4)外部衝擊對不同家庭的影響
(5)外部衝擊對宏觀經濟變數的影響
(6)貨幣政策通過家庭渠道的傳導機制
(7)金融穩定的微觀基礎
(8)中國家庭高儲蓄的原因及影響
(9)刺激中國居民消費需求的措施


我們明尼蘇達人口中心的 IPUMS International 項目提供了 1982 年和 1990 年的中國人口普查 1% 樣本,行政區划具體到地級。此外還有其他 70 多個國家的人口普查數據可以免費下載。

如果對美國問題感興趣,IPUMS USA 和 IPUMS CPS 絕對不容錯過。IPUMS USA 公開的 complete count 數據最新更新到 1880 年美國人口普查。我們現在手上正在處理 1940 年美國人口普查的 complete count 數據,預計在 2017 年上線。如果研究者有需要的話可以和我們聯繫,獲取最新的原始數據。我們還提供在線分析 1850 - 2012 年美國每年的 ACS 樣本和每十年的人口普查 1% 樣本的功能,免費註冊後即可使用。

除美國外,North Atlantic Population Project 項目還提供了加拿大、英國、冰島、挪威和瑞典的 complete count 人口普查歷史數據。下載都是免費的。

暫時處於公測階段的 Terra Populus 項目則整合了世界各地的人口與環境數據,其中包括地理、氣象等多方面的信息。

講個有意思的事情。美國人口普查數據的原始記錄有一部分是從摩門教的 LDS Church 那裡拿來的。為什麼 LDS Church 會有這些資料呢?因為摩門教認為,如果你受了洗禮,那麼你也可以為你已經死去的祖先洗禮,並且與你的祖先在天堂重聚。因此,摩門教徒的一大愛好就是拚命去搜集各種與自己祖先有關的資料。事實上,世界上最大的系譜網站 http://Ancestry.com 的數據很多都是從 LDS Church 那裡得到的。


謝謝知乎圓桌的邀請 @Joe De。我很多年前做過兩個,都是地級市層面的,一個方言資料庫,一個市委書記資料庫。

方言資料庫:最開始寫paper並沒有想到用這個,手裡本來只有統計局地級市層面的經濟數據,文章寫了幾個版本後發現賣點不夠,故事講的不夠新穎,模型也並不算創新,審稿人不認帳。後來打算改變策略,引入新的變數,也就是這個方言,從而把原本只寫"政治邊界與經濟影響"的故事改成了"政治與方言(做為文化的一個proxy),誰對經濟的影響更顯著"這麼個故事。

資料庫本身是基於縣級層面的數據,大概2,477個縣的方言,通過不同的歸類方法(aggregate),最終得到對應地級市層面的主要方言。數據方面主要來自於中國語言地圖集現代漢語方言大辭典等著作。這個資料庫,與其說是自己(和一位認真負責的助研 - 南大的小夥子,目前已脫離學術去了華泰)一點點的收集和系統化,不如說是基於前人多年的辛苦成果,我們將其電子化(量化)。換了個講故事的策略後效果還是顯著的 - 論文經過1年多的反覆修改,最終發在了Journal of Comparative Economics:Economic integration in China: Politics and Culture。

方言資料庫一瞥,以及基於這個方言數據畫的中國方言地圖(其中一張):

官員資料庫:這個的研究方向一開始就定好了,所以曲折不多,投稿等相對都比較順。最開始的啟發來源於國內關於官員晉陞那層看不見的天花板的討論(比如人民網的官員天花板困局),以及張軍和周黎安等老師關於中國地方官員晉陞錦標賽模式這方面的研究等。對這方面有興趣的朋友可以移步我另一篇回答:錢糧衚衕:有什麼分析中國經濟的好書推薦?,裡面介紹了張軍老師的一本書:《不為公眾所知的改革》。

這本書寫的很真實,讀的時候就感覺好像在和作者聊家常一樣,舒服自然...就像張軍自己說到的,這本書就好像一本回憶錄,從莫干山會議年輕經濟學者們是如何激烈爭論價格改革的,到巴山輪會議上經濟學家討論當時的中國應該怎樣調控正在經歷通貨膨脹的宏觀經濟,再到深圳特區試驗的前後,通篇充滿有意思的故事和照片,讀起來感覺暢快有料。

如果更偏學術一點的話,可以讀讀:張軍和北大周黎安老師合編的《為增長而競爭 - 中國增長的政治經濟學》,讀後能夠對這個領域的研究有一個比較快速詳細的了解。

話說回來,這個官員資料庫也是地級市層面的,收集了1990年到2011年期間23個省份234個地級市898位市委書記的個人公開信息,同時還做了幾十份問卷調查。數據來源一般都是人民網,百度以及各地方政府網站。如果有些信息已經看不到了,會通過google cache或者其他渠道獲得。

不得不說的是,我比較幸運,在做這兩個資料庫的時候都遇到了極其給力的助研。官員資料庫的助研認真,耐心而且專業(華政的一個小姑娘,後來回歸老本行讀了法律),不光是巨大的官員信息收集工作(資料庫和變數等已經提前設計好),還有官員的官職等分類工作:收集需要的是耐心和責任心,確保了數據的完全與準確;分類就比較難了,需要對中國政治系統有較深的了解,對於不同官員的官職級別,異地交流等都有比較清晰的認識,如此,才可以準確的分類並追蹤樣本期間官員的調動和晉陞等過程。資料庫不僅收集了基本的信息,如性別,年齡,民族,出生地,教育經歷等,也包含了各種政治相關信息。基於這些數據,我們就可以創建衍生變數,來詳細了解官員這些年的晉陞路徑,以及是否有一些潛在的規律可循。

官員資料庫一瞥:

論文最後發在了Modern China,有興趣的朋友可以移步:Career Backgrounds of Municipal Party Secretaries in China

想說的是,其他答案提到的相對公開或常規的微觀資料庫對於研究或練手還是有價值的,獲取也相對容易。然而,如果講故事的水平還不夠高,或是噸位不夠,或者是方法/ 模型還沒到驚為天人的份兒上,那就靜下心來,花些時間自己做個資料庫,對於研究或發表還是有幫助的 - 哪怕僅僅是設計資料庫以及信息收集的過程,中間也會學到很多,這本身就是一種學習與鍛煉。

憋不住多廢話兩句,雖然自己動手獲取微觀數據既花時間也未必有直接的收益(論文發表),然而我還是比較鼓勵有生之年有志之士多少要嘗試一次。做個未必準確的類比(重在體會精神):我現在不做學術了,在金融業,工作原因平時會接觸大量的數據,有些部門(比如某些銀行的壓力測試部門),他們利用大型數據是直接拿來就放到模型里用,數據背後對應的每一家公司或是業務,他們完全沒概念,數據對於他們來說就是數字,沒別的,更別提數據本身的質量問題等,也因此在最終得出壓力測試結果的時候,我總是持有保留意見(但是只要能忽悠央行就算過關) - 這類如果放在學術圈兒,有點類似那些拿來公開數據套幾個模型就跑不深挖的人。還有一些部門,也做大量的數據收集和模型分析,然而這些部門會先把對應的公司或業務和不同的部門反覆討論,搞懂數據本身再跑模型,這個過程有點像自己收集微觀數據一樣,雖然費時費力,但是對於數據本身會有更深刻的認識,解釋力也會變強。

無論怎樣,我覺得,不管你傾向於直接獲得CHIPs或CHNS,還是願意自己動手建個獨特的資料庫,抑或把兩者結合起來使用,重點不在於你用什麼做什麼,而是本身對研究的態度

想混,怎麼搞都能過關;想嚴肅點兒,態度決定一切


謝邀。
請移步:
https://www.dropbox.com/s/h7ozr8y11qi8q2n/Data%20List.pdf?dl=0

請讀者注意:本微觀數據清單由廈門大學王亞南經濟研究院歐振中教授和李雲森博士編撰。如需轉載、引用,請寫明由王亞南經濟研究院提供。


http://www.icpsr.umich.edu/icpsrweb/landing.jsp
推薦密西根大學的micro data center。中國數據的也有不少。不過我不太清楚是不是你所在的機構有subscription才行,因為我一直可以用。


如果你想成為一名優秀的學者,而非完成學期作業的本科生,那麼請繼續往下看。

最好的方法,是自己擁有獨有的數據集。包括但不限於自己安排田野調查、電子化沒人用過的歷史方誌年鑒、爬蟲獲得網路上的數據等。

次好的方法,對學生來說,是進入一個好學校,找到一個好老闆,從老闆那裡拿數據;對已經入行的人來說,可以找到有數據的人並與他們合作。

花時間申請公開數據,在已經被做濫的數據里翻找別人沒做過的問題,或者是在別人已經研究過的問題上用新的數據做一點邊際上的貢獻,是最沒效率的辦法。

如果你想要做出能發表在 一流期刊上的研究,那最好別指望CHNS、CHIPs、CFPS、CHFS、CGSS、CHARLs……這一類公開可得的數據能被你挖掘出什麼東西來了,98到07的微觀企業資料庫也別報太大希望,淘寶上都有人賣呢。

用那些數據寫一點簡單的報告,或者在知乎上答答題,估計是沒問題,但如果要衝刺頂尖刊物,還是用一些別的數據吧,比如05、10人口普查全樣本,歷年全國流動人口動態監測,85年到09年甚至12年城調隊數據全樣本,96到10農村固定觀察點全樣本,04年08年經濟普查、歷年海關數據以及他們的合併數據。這些數據分布在國內各大院校手中,每一個數據我都至少能隨口說出兩三個擁有他的人。這些非公開可得的數據並不是遙不可及的,只要有心,有足夠的行動力,就一定能拿到。

如果手裡實在只有那些大眾數據,那最好去找一些國外數據來做些基準,至少提高下門檻吧。比如美國的PSID、CPS、SCF、NSFG,歐洲的HFCS,都很容易申請。如果做貿易,就別用nber公布的那50年comtrade了,自己把comtrade下載下來再按照feenstra的文章整理成nber那樣,一點都不難。如果手裡只有00年人口普查,那至少可以去ipums找點82和90的普查做縱向比較,或者也可以找點別的國家做橫向比較啊。

如果這些都不願意,就不要做實證研究了。


珠玉在前,忍不住回答一下。

非常贊同前文回答的觀點:能夠以較低成本獲得的微觀數據,其價值通常已經被國外一流研究挖掘殆盡。

但是能夠以較低成本獲得的微觀數據,也是可以通過加工轉變為高質量的微觀數據。

舉兩個例子:

一是通過完善和比對,建立上市企業高級管理者資料庫

該資料庫是基於一個國家級科研項目的需要,背靠國家某金融實驗室。資料庫的建立目的是描繪中國經濟領域高級管理人員的任職、調動和晉陞情況。

該資料庫的建成,可以刻畫(但不僅限於):

1、中國上市公司高級管理人員的性別、學歷、任職經歷等顯性狀況。

2、中國上市公司高級管理人員的政治資源、地方背景等隱性狀況。

3、研究中國經濟政策的微觀滲透方式,如2008年經濟刺激政策下的高級管理人員調整。

4、研究灰色經濟問題,如多重代理問題。

原始數據源自國泰安資料庫——上市公司高管背景資料。有興趣的研究者可以下載試試,該資料僅僅為背景資料,涉及的是某一時間節點上,上市公司的高級管理者的資料。

原始數據存在以下問題:

1、需要追蹤上市公司高級管理者的任職升貶等變動情況

2、需要選擇指標對高級管理者的政治身份進行描述(該項查述僅來源於公開信息)。需要注意的是,大部分情況下,國泰安資料庫的背景資料是不提供該管理者的政治身份,需要逐一核實該管理者是否為地方、中央政協委員,是否為中央、地方人大代表、是否曾經任職於政府及事業單位等機構,是否在高校擔任行政職務,等。更為甚者,需要對該高級管理者的直系親屬進行上述查證。

3、存在一定的數據缺漏。

經過6-7位top2名校金融碩士接近兩年的整理,該資料庫最終成型。

課題相關研究的第一波成果被Journal of Banking and Finance接受,即將在2018年發表。

二是高頻數據的清洗可能會得到意外的驚喜

在利率衍生品的研究中,中國的管制利率是讓人頭痛的問題。特別是中國利率市場分割,導致SHIBOR的代表性堪憂,嚴重影響了利率衍生品的定價和風險管理問題。

在涉及該研究的時候,通過數據清洗,可以發現中國管制利率並不是單純的政策調整下的跳躍模型可以模擬的。

因此,核心是獲得能夠預測利率非正常跳躍的前置變數。

經過多輪對現有宏觀和微觀的數據清洗,我們驚喜地找到了利率跳躍的前置引導變數,該前置變數可以高度解釋利率的跳躍問題。也就較好地解決了中國管制利率情況下的利率模擬問題。

所以,獲取合適的微觀數據就如同美食的烹飪。

獲得微觀數據僅僅是購買了原料。

獲得珍貴甚至頂級的一級食材當然是最棒的。

然而這種機會對於一般人而言,是可遇不可求。

所以不妨嘗試將普通原料通過腌制和調整升級為高級原料,進而通過烹飪,一樣可以得到令人讚歎的美食體驗。


轉一篇經驗貼,寫的比較實在:如何找數據/交易數據 baidu.com 的頁面

數據被譽為新時代的石油,隨著大數據市場的發展,數據開始流通,越來越多人也開始挖掘數據的價值。本文儘可能全面地介紹國內的數據源、搜索數據的方法以及數據交易的平台,幫助數據工作者們快速全面地找數據。文中涉及的數據交易方式包括API數據介面、數據包下載、數據定製等,涵蓋免費的公開源數據以及付費數據。

工具/原料
1.機器:文中談論的數據均為「大數據」範疇,供機器處理的格式,非人眼讀取
2.介面:API數據需要自備介面才能使用,通常按調用量收費
3.處理:想榨取數據的價值,需要大數據技術和工具,文中提到的部分平台提供大數據技術的交易,或者需要大數據工具的時候直接搜索一下

一、統計數據

1.國家統計局/國家數據
最正統、最官方的數據,數據範圍涵蓋各行各業,時間跨度也較大,可下載為各種常見格式
2.政府各部門
政府網站通常有統計數據,但不同部門數據量有多有少,目前為止數據並不算深入,但隨著數據開放政策的深入,相信政府網站會成為很好的數據源
部門列表可以在中國政府網找,下文中的各行業數據都可以在相關的部門網站找到數據,就不一一列舉了
3.行業協會
數據需要申請或購買,公開的並不多,但不失為一個選擇
4.諮詢公司
諮詢、金融、市場調研公司,尤其是業內頂尖的,通常有自己的數據,但同樣並不免費公開,部分數據可購買
5.年鑒
大部分主要行業都有自己的年鑒,數據比較寶貴,只是給機器用之前還需要處理;價值高的年鑒通常需要付費獲取;這裡推薦一下人大經濟論壇,氛圍較好

二、數據交易平台

【政府牽頭】
1.地區性數據交易平台:貴州、上海、北京、江蘇、武漢、哈爾濱、海南等
2.模式:部分採用會員制,提供交易的場所以及必要的技術支持,收取交易費;部分僅提供在線交易平台
3.特點:享有龐大的政府數據資源,並且聯合各行業的龍頭企業
(此處參考「北京秋」的文章「走馬觀花:國內各路大數據交易平台現狀」)

【API平台】
1.列表:apistore、京東萬象、聚合、阿凡達、showapi、haoservice、極速數據、apix、通聯數據商城
2.模式:按調用量收費
3.特點:即時性很好,質量相對有保障,並且可以更大程度保護數據所有者的權益

【淘寶模式】
1.列表:數糧、數據寶(、淘寶)
2.模式:數據商入駐,創造良好的交易環境、鼓勵交易
3.特點:數據範圍較廣、態度開放,比起到處搜羅數據方便很多,有潛力進一步發展

【數據包定製/下載】
1.列表:數多多、大海洋、發源地
2.模式:以數據下載和定製為主
3.特點:有一定的固定用戶不斷提供新鮮數據,可以定製採集

【其他】
1.列表:數據堂、優易數據、數據淘
2.特點:目前的數據平台(包括未列舉的和不斷出現的新興平台)都比較有自己的特點,希望這些平台能夠共同推動數據市場的成熟

三、各行業數據源

【財經數據】
1.經濟資料庫:CEIC、國泰安、銳思、資訊行
2.監管部門:證監會、上交所、深交所(巨潮)、股轉系統、大商所、鄭商所網站
3.金融市場網站:中國貨幣網、中國債券信息網、上海期貨/黃金交易所
4.財經終端:不少免費版的財經/股票終端都可以導出數據,屬優質數據源
5.門戶網站:如新浪財經可以下載大量的證券數據
6.通聯:類似quandl提供不少財經api介面
7.量化交易平台:近幾年新興的技術產品,可以在這類平台上獲取大量歷史數據
8.投融資:IT桔子、清科資料庫
9.國外資源:WITS,WORLD BANK,IMF,YAHOO,Quandl(大量財經api介面,可導出各種格式)等

【貿易數據】
1.海關總署、海關統計資訊網、海關信息網有不少數據,部分免費(商務部網站中有大量數據,但目前不能下載或調用)
2.綜合性網站:慧聰、卓創資訊,但可惜大部分數據只能瀏覽
3.數據商:可以在百度和上面提到的數據平台上找到不少這類的數據撮合商(一般高質量的數據需要付費獲取)
4.國外數據:WTO,UN COMTRADE有大量高質量的數據

【第一第二產業】
1.農業數據:目前以統計數據為主,行業門戶網站和細分領域網站(如中華糧網)的數據通常無法直接調用,只能在線瀏覽,但不妨保持對這些網站的關注
2.農業數據提供商:如艾格農業、布瑞克,但目前數據的總體質量達不到預期
3.工業數據:和農業數據的情況類似,也只有少數數據商,如鋼聯、煤炭資源網等
(傳統領域的數據,隨著物聯網技術的發展,獲取難度會降低、應用價值將提高,預計在未來會有不錯的上升空間)

【其他傳統行業】
1.地產數據:CRIC、中指是主要信息商
2.物流運輸:快遞行業得益於電商的帶動,有不少API介面,可以百度之;但包括交通運輸部、海事局在內的網站,都很難得到有價值的物流數據
3.地圖數據:目前可以找到不少地圖api介面(如百度、高德、騰訊),但地圖數據商並不多(代表企業有四維圖新、中科宇圖等)
4.吃穿住行:此類數據主要出現在上面提到的api介面平台(如天氣、交通、酒店等)

【互聯網企業】
由於行業的天然屬性,IT企業都較重視自身的數據,因此在公開源很難找到相關的數據源,大部分知名企業選擇以api介面的形式(或營銷行業的DMP)供外部合作夥伴調用自身的數據,例如淘寶api、攜程api、豆瓣api等

【科研數據】
這部分數據的共享性質更突出,而且數據體量較大,未來作者會在合適的時候單論一篇;目前也已經有一些相對活躍的數據流通領域(如遙感數據,已經有中國資源衛星應用中心、遙感集市、地理空間數據云等平台撮合交易)

隨著大數據市場的發展,數據價值將被不斷挖掘出來,數據資源也會不斷豐富,獲取渠道日新月異,本文內容有限,僅拋磚引玉


http://www.data.gov 政府的一個資料庫。我感覺挺好的哈哈哈…


中國的追蹤調查數據還是太少了,另外比較近的大數據微觀調查也很匱乏。


因為目前的老大是做應用微觀計量的,於是我最近順手把一些看到的微觀資料庫整理到了一起,也包括前面幾位答主提到的,不過誠如前面幾位大佬所說,個人也感覺很多大牛們的數據都是動用各種手段四處搜刮而來,比如我的一些同學就在天天給我院某男神教授做苦力搞數據,不過對目前的我來講,似乎還沒考慮那麼多。。。

鏈接:http://pan.baidu.com/s/1nuIzihb 密碼:77bc


如果對發展中國家的微觀數據有興趣的話,可以看我自己的一個匯總。我寫論文的時候數據來源基本都是從這兩個資料庫尋找的。

發展經濟學-微觀家庭調查數據匯總


可以參見http://ncueco.ncu.edu.cn裡面有微觀資料庫和宏觀資料庫的整理,找找就知道啦。


推薦閱讀:

如何在短時間內快速入門 Social Network Analysis?
為什麼女人會在夏天的時候穿裙子?是什麼時候開始,裙子被當作女性的專屬?
女性傍大款這種行為是否應該鄙視?
「一夫一妻」制是道德還是理性選擇的產物?
有哪些十二年前(2005 年左右)看似不靠譜的預測成真了?

TAG:社會科學 | 數據 | 社會學 | 經濟學 | 計量經濟學 |