眼見不一定為實——談談因果識別
什麼是因果性(causality)?什麼是相關性(correlation)?不論是在日常生活中還是在經濟學研究中,我們總會關心兩個變數間的關係。一個變數增加了,另一個變數如何改變?如果說我們通過收集數據,看到一個變數隨著另一個變數的增加而增加,是不是可以說他們有因果效應了呢?如果沒有搞清因果性與相關性的差別,那麼不論在分析問題時搜集了多少樣本,得出來的結論都是不可靠的,為什麼?從定義上來區分這兩者對於我們來說沒有實際意義,我們便直接從例子入手好了。
這張圖的橫坐標為年份,左豎坐標為患自閉症的兒童,右豎坐標為草甘膦(一種農藥)使用的劑量。這幅圖裡代表患自閉症兒童數量的黃色豎線和代表草甘膦劑量的紅色折線幾乎呈現出一個完美的相同趨勢。這時候,發現這一結果的人大可將結果發到網上,痛批農藥的使用給孩子心理健康造成的不良影響,從而導致了兒童自閉症數量的增加。但是,經濟學家會說,且慢,如果這個結論是成立的話,下面這幅圖又應當如何解釋呢。
這幅圖的橫坐標同樣是年份,右豎坐標是被確診自閉症的人數,但是左豎坐標代表什麼?有機食品的銷售規模。等一下!難道說一直以來認為對人有好處的有機食品,其實也會對人造成心理上的不良影響?從概率上來說,這可能會行得通。但是我們可能會更傾向於解釋說,不論是農藥的使用規模還是有機食物的使用規模,都會隨著經濟的發展而逐步增加。在另一方面,經濟發展後,城市的壓力可能會使得人們更加容易患自閉症。如果說這個邏輯行得通的話,我們上面提到的農藥使用規模,有機食品的銷售規模和自閉症的人數之間便不是一個因果性的關係,而是存在一個相關性的關係。道理很簡單,並不是農藥或者有機食品造成了自閉症的出現,而是因為經濟發展使得這三者幾乎等比例地增長,才造成了上述兩圖的出現。
關於相關性和因果性有趣的例子還很多。比如說,我們發現有許多人是在醫院去世的。那麼我們是應該說醫院導致了患者的死亡,還是說患者是因為本身已經患重病才進的醫院,最後導致去世呢?所以各位以後聽到醫鬧的人說「好好一個人,怎麼進了醫院就死了呢」這樣的話時,請默默地在心裡複習一遍因果性和相關性,並在心裡默默鄙視他們對公共秩序造成的混亂。在掌握因果性和相關性後,如果你想搞個大新聞,只要在網路上利用數據進行大量的重複匹配,你就能發現一些聽起來就很荒謬的關係了。
拱門造成的經濟效應和當年計算機科學博士的畢業人數
美國小姐的年齡和蒸汽開水等燙傷致死人數
游泳池溺死人數與電影Nicolas Cage上映次數
在花大力氣講著重講相關性和因果性的區別後,我們還應當更加了解經濟學研究中更為有趣而神秘的因果性了。我們關心的問題是,加入一個自變數,是否會對因變數造成影響?更進一步說,每改變一單位的自變數,會對因變數造成多大程度上的影響?從我個人角度看來,因果性實在是太酷了!每一個因果性都在幫助我們認識這個世界,每一個因果性都是自然的一條法則。儘管從英國哲學家大衛休謨看來,因果性也並不可靠,如他的名言「明天的太陽從何方升起」,但這暫時超出我們的討論範圍了。
在實證經濟學中,最經典的因果性問題之一便是,教育會不會對收入造成影響?每上多一年學,又會使一個人的收入提高多少呢?在實證經濟學中,最為常規的方法便是收集數據,通過建立回歸模型,我們來看看在控制一些其他的變數(如父母收入,所在國家地區等)之後,我們來看看平均而言,多上一年學的人是不是真的會比少上一年學的人收入更高。但是,這種方法也有其問題,儘管隨著計量經濟學的發展,我們的因果識別的水平更加高了,可還是有些問題是很難解決的。比如說,選擇偏誤(selection bias),多上一年學的人之所以工資高,是因為他們本身能力就高,就算他們少上一年學,他們還是會比其他人收入水平要高;其次,可識別性(identification),決定收入的重要因素是個人能力,但是個人能力這個因素我們非常難去量化,那麼也就無從進行比較了。就算我們儘可能地控制住變數,總會有可以爭論的地方。這時候我們便想,要是有一個這樣的情景,我們能夠觀察到同一個人多上一年學和少上一年學的收入,那不就解決問題了嗎?可惜,這樣的情景是反事實的(counter-factual)的。因為既然一個人多上了一年學,他便不可能少上一年學了。除非你能夠在平行宇宙中找到另一個一模一樣的人,而恰好兩人所有條件都相同,只有教育年限不同,那麼你便可以說,他們之間的收入效應是由於受教育年限不同所引起的。
平行宇宙這種連物理學家都還沒達成共識的東西,經濟學家還是不抱有太大期望的。經濟學家決定在研究社會問題時,借鑒一下在自然科學領域已經廣泛使用的隨機對照試驗(Randomized Controlled Trials, RCTs),來解決我們最頭疼的選擇偏誤。但是貪多嚼不爛,在下一篇文章中,我們再來詳細討論RCTs罷!
等等!我還有最後一個問題。這篇文章的出現,是不是真的對你理解相關性和因果性產生了影響呢?:)
Reference:
1.Imbens G W, Rubin D B. Causalinference in statistics, social, and biomedical sciences[M]. CambridgeUniversity Press, 2015.
2.Angrist J D, Pischke J S. Mostlyharmless econometrics: An empiricist"s companion[M]. Princeton universitypress, 2008.
3.Oh, no! GMOs are going to make everyone autistic!
4.xkcd: Correlation
推薦閱讀:
※尋租是什麼意思?通俗的回答一下就行。
※尋租究竟是什麼意思?為什麼價格歧視、收集優惠券也是尋租?
※中國的未來是拉美化還是台灣化?
※教你Machine Learning玩轉金融入門notes
※「規模經濟」與「範圍經濟」能否分別理解為「垂直兼并」和「平行兼并」的原因?