在勞動經濟學的研究中,能力一般用什麼代理變數來研究?
本題已收入知乎圓桌 ? 日常經濟學 · 我為什麼這麼窮,更多「勞動經濟學」、「貧富差距」相關話題歡迎關注討論
從因果關係(causal relationship)的角度看,使用代理變數(proxy variable)要滿足的條件還是蠻苛刻的。
以工資方程(wage equation)為例,假如你認為一個人的工資水平是由受教育年數和能力「導致」的,並且你想知道受教育年數對工資的局部作用(partial effect)。你手上有受教育年數的數據,但是沒有能力的數據。現在假設你有某種考試成績的數據,並且這種成績可以反映能力,那麼考試成績就可以成為一個潛在的代理變數。如果考試成績滿足代理變數的兩個假設,你就可以直接用普通最小二乘法(ordinary least squares)來估計這個式子:,得到的是相合的(consistent)。
下面是代理變數必須滿足的兩個假設,其中表示線性投影,表示條件期望:
第一個假設意味著,一旦你知道了考試成績後,一個人的受教育年數和能力之間就不存在任何相關性了。第二個假設意味著,一旦你知道了受教育年數以及能力的數據後,一個人的考試成績對於工資收入就沒有任何解釋力了。
大家可以思考一下這兩個假設是不是符合現實。這裡我談下對第二個假設的一點看法。假如有兩個受教育年數和能力相同的人參加高考,第一個人發揮正常進了清北復交,第二個人發揮失常進了二本。第一個人在大學期間認識了不少在投行券商工作的校友,搭建了許多人脈,於是一畢業就找到了一份年薪百萬的工作;第二個人則沒有這樣的機會,而且還在就業市場上受到了「非 211/985」的歧視,最後只找到了一份月薪三四千的工作。那麼問題就來了:當是某種入學考試的成績時,第二個假設還能成立嗎?IQ test score。由於能力的不可觀測性,如果假設能力不隨時間變化,可以用面板回歸解決這一問題。另外有研究專門關注human capital formation,那就是更複雜的結構模型,參見heckman的系列研究。
還得看你的survey裡面有問到什麼了吧……
比如很多用美國NLSY(national longitudinal survey of youth )數據做的研究都用AFQTscore (後來被叫做Armed
Services Vocational Aptitude Battery (ASVAB) score)來作為對能力,或者至少是認知水平(cognitive ability) 的代理變數. 該測試本來是針對參軍入伍人員的一個基本讀寫能力的測試,後來被包括到了NLSY問卷當中。因為該測試一般是在17 18 歲左右完成的,所以理論上這是一個針對個體進入勞動力市場之前的一個能力測試。和樓上講得一樣,一般是使用面板回歸。
這樣的處理方法是如此的普遍以至於有專們有人發技術性的文章指導怎樣標準化NLSY79 (紙質答題) 和NLSY97 (電腦答題)的兩代人測試的結果:http://www.econ.yale.edu/~fl88/AFQTmatch.pdf 。最後給出一個類似新舊托福成績換算的一個表。
關注了這個問題很久。
在勞動經濟學裡,「能力」是最常見也是最容易想到的數據問題,一來因為它不可觀測,二來無法客觀衡量,三來能力到底是變的還是不變的至今沒有定論。對這個問題有很多解決方法,其實題主只問了代理變數,關於代理變數,現在最高票的答案已經寫得很全面了。但在勞動經濟學裡,對「能力」應當進行更深層的挖掘。
代理變數(proxy variable)解決的是「能力」跟因變數的相關關係(correlation),比如像著名的mincer 方程,認為能力可以直接用教育和工作經驗表示,就直接把教育和經驗作為收入的回歸項:
要是這麼簡單就解決了,勞動經濟學還玩個啥啊。首先,教育和工作經驗能不能表示能力是個問題,比如還有人際交往能力、情商之類之類其他的「能力」可以影響收入吧;其次,就算教育和經驗能體現能力,更為重要的是模型中「能力」的內生性問題(endogeniety),還是以mincer方程為例,能力也可以不通過受教育年限或者參加工作的方式而在收入上直接體現,你比如說比爾蓋茨……?高能力的人可以直接獲得高收入,所以mincer方程被很多人攻擊再攻擊。
然並卵。因為根本是以子之矛攻子之盾。
所以其實目前的通說觀點是,沒有一個非常好的通用的解決「能力」的計量方法。
所以教給大家一個裝逼的好辦法,看到了勞動經濟學研究微觀個體收入的論文,就說存在能力的內生性問題,十有八九都能蒙對。
然而作者可能說:我的假設里已經怎麼怎麼解決了內生性問題,基於一個什麼什麼假設。
然後我們就說:你這個假設也不大對,比如能力還能影響什麼什麼。
(我們學術seminar拯救冷場的大招都教給你們了。。。)
由簡到易闡述一下解決「能力」的常見方法:
1.儘可能多地加入控制變數(control variable)
假設體現「能力」的所有項目都可以被觀測,那其實我們可以直接作為回歸項來做回歸,就能直接剔除能力的影響。
然而我們不能。。。但一般模型里都會把年齡、性別、地區、教育等等常見可觀測的影響能力的變數都作為control variable來做回歸。
曾經見過一個paper里回歸了爸爸的教育水平媽媽的教育水平爺爺奶奶姥姥姥爺的教育水平。。。
2.代理變數
代理變數就是用一個能觀測的值,假裝,我們觀測到了「能力」。這個模型的成敗取決於你的故事講的好不好。
最常見的代理變數就是IQ。
還有一些考試的分數,比如有人提到的AFQT,但是其實AFQT的好處不僅僅在於它的分數可以近似地衡量參加者的能力,更多的是因為AFQT有一個比較好的面板數據的資料庫,它的考試題目「不能完全體現能力」是幾乎每個用這個資料庫做回歸的作者在summary里都要提到的一點。
這些考試的特點是:1.衡量項目相對其他考試更為全面,2.參與者不會在參加考試的過程中得到能力的提升(不然就不準了。。。)3.參與者的選擇比較隨機。
所以我國高考作為代理變數就。。不太好。。在論文被用作代理變數的時候經常被人吐槽。
3.固定效應模型(Fixed effect)和隨機效應模型(Random effect).
這個模型下我們假設能力是不變的,具體回歸式和兩者的差別可以自己去翻書,每本講Panel data的書都會有。
應用這個模型的時候,就是我們比較常見的,用同卵雙胞胎做樣本的研究,會假設同卵雙胞胎的能力是相同的,那他們之間收入或者其他表現得差別就已經剔除了能力的影響。
同樣的,這倆模型可以考慮使用同家庭的/同班的/同地區的樣本。
4.工具變數(IV)
看到的論文里用IV的也很多。工具變數就是能影響「能力」,但只能通過影響能力來影響因變數而不會直接影響因變數的一些可觀測變數。
經常找一些很匪夷所思的變數來做工具變數。大多是一些外生的政策變動,因為影響是比較隨機的,所以提供了比較好的社會實驗數據。
比如勞動經濟學裡很有名的那篇《Vietnam Era Draft Lottery》就是因為美國越戰徵兵用了隨機抽數的方法。。。
研究教育對收入的影響的時候,為了控制能力對教育的影響,用了孩子的出生季節(Quater of Birth)...
比如普及義務教育,大學擴招政策……都可以算是比較好的IV...
5.RDD模型(regression discontinuity design)
RDD模型主要是假設在threshold值附近的樣本的能力是差不多的。
比如說司法考試及格是360分,我們會假設其實考359和考361的人,能力是一樣或者說是差不多的(嗯我就是359的那一批)。。。
可能司法考試及格的人,從此成為人生贏家,而沒及格的就哭著繼續考。這個差別就是這個及格線給我們的一個數據模型,比如用收入差別回歸出來的係數,就是司法考試的影響,而沒有能力的擾動。
這個我個人覺得開始入職初期 只能做個60%參考(但需要有個門檻線);工資待遇應該在試用期後變數的兌現; 做到什麼成績給多少績效比較合適。 所以後期很重要;至於一定要參數化 ,我到認為不是試卷,而是試卷加實踐案例一起,這個案例由面試公司給出;
能力是太多維度決定的複雜的命題。在勞動經濟學裡,「能力」是最常見也是最容易想到的數據問題。使用數理統計和大數據訓練模型做出的才是實時和可靠的。但大數據里採集數據(含維度選擇)和降維又是需要業務知識(含人力資源學,心理學,社會學)。得出結論又是歷史結論,不是定理,對未來只是預測(準確度是概率問題)。
母親教育水平,智商測試數,這是常見代理
推薦閱讀: