如何理解「由於使用燃煤取暖，中國 5 億北方居民預期壽命將縮短 5.5 年」？

11-16

7月8日發表在《美國國家科學院院刊》（PNAS）的一篇論文，向已經逐漸意識到空氣污染危害的中國民眾再次展現了殘酷的現實：以淮河為界，燒煤供暖的中國北方地區空氣污染水平高於中國南方，北方5億居民因嚴重的空氣污染，平均每人失去5年壽命。

論文下載地址：
Evidence on the impact of sustained exposure to air pollution on life expectancy from China』s Huai River policy

這篇文章由清華大學的李宏彬、北京大學的陳玉宇和另外兩位作者共同完成。前兩位完成了這篇論文的主要部分。這個回答首先介紹他們的研究方法，再談一談研究者和媒體對這篇文章的引申。

1，科學家是如何得出「由於使用燃煤取暖，中國5億北方居民預期壽命將縮短5.5年」這個結論的？

首先要說的是這篇文章使用的RD方法（regression discontinuity design），即斷點回歸方法。斷點回歸方法是最近的政策評估中非常重要的一個方法，他可以在沒有隨機性的情況下識別出政策的效果。

在早期的研究中，要識別一個處理（Treatment）的效果，我們必須擁有隨機性，比如兩組隨機分開的小白鼠，一組加上某種處理，一組沒有處理，最後觀察兩者的區別。為什麼我們那麼需要隨機性呢？因為研究的基礎需要幾組十分類似的群體，他們的任何特徵都服從一個相同的分布，無論是性別、年齡、教育、健康程度……這樣，我們才能確定幾組對象之間出現的差別是來自於實驗處理的差異，而非某些個人特徵。從一個大樣本中嚴格隨機抽取的樣本，正好滿足這樣的同分布假設。

但對於政策研究來說，我們不可能找到這樣隨機分開的兩組人，而且也無法用實驗的方法來獲得結果——你能將隨機分開的100人放在乾淨空氣中，將另外100人放在骯髒空氣中並觀察一段時間嗎？

一些研究者面對這種缺乏隨機性的情況，採用了增加控制變數的方式。比如，把性別年齡教育健康程度全部放進回歸式中，然後聲稱，兩組人之間由於性別年齡教育健康的不同而造成的差別都已經去掉了，剩下的就是這個政策的效果了。

可是，這很容易遭到批評，而且是沒完沒了的批評。為什麼不控制工資高低？婚姻狀況？從事行業？只要沒有隨機分開，任何特徵變數的差異造成的結果，都可能混淆在政策結果中，你不控制這個變數，政策的效果就仍然沒有識別乾淨。遭到批評的研究者只能繼續加變數，沒完沒了的加變數。

更關鍵的是，前面說的還是可以量化的東西，努力程度？性格特徵？甚至，智商？這些不可觀測的變數可能影響更大。舉一個例子，科學家想知道上了「一本」大學對學生未來的工資有什麼影響。上了一本和沒上一本的大學生，顯然不是隨機分開的兩個群體。當然也沒法用控制變數的方法來消除「一本」之外的影響，因為肯定有一些不可觀測的變數是你控制不了的。控制變數法至此完敗。

但科學家並沒有束手無策，他們找到了RD方法。所謂RD方法，就是觀察那些在一本線上下2分的學生，看「上一本」和「沒上一本」的學生的未來工資差異。這個想法的天才之處在於，高考的上下5分，實在是一件隨機性非常大的事情。讓這批學生重新考一次，不少學生的情況可能就要逆轉。對於這5分區間內的學生來說，一條一本線，就像一個天然的分割線，將兩組人隨機分開了。

退一步說，即使我們將高考視為一項沒有隨機性的考試，RD方法還有另外一個假設——連續性假設。那些剛好上了一本的學生，比起差幾分沒上一本的學生，可能要聰明一點；也可能家庭環境好一點，請了好一點的家庭教師；也可能更努力一些，多做了幾道習題。但注意，如果我們將智商、努力程度、家庭環境等等變數都視為連續的變數，那麼上了一本的學生，比起沒上一本的，也只是多了那麼「一點點」。

於是，我們可以開始觀察這批學生的工資了。RD方法的所有目光，都聚焦在了那個「間斷點」上。首先看一本線下1分的學生，和線下2分的學生，線上2分的學生和線上1分的學生，是否有工資差別？直觀上想，可能沒有，可能前者比後者高10塊，這說明在沒有其他顯著差別時，各種連續變數產出的工資，也應該是一個連續變數。但我們再看線上0分的學生，和線下1分的學生時，顯著的工資差異出現了，乖乖，差1000塊。

線上0分的學生，和線下1分的學生，各種特徵都應該是差不多的，即便有差別，在連續性假設下也應該是很小很小的差別，那麼產生這樣顯著的工資差異，只能由前者上了一本，而後者沒上一本來解釋了，因為這是兩者間唯一的區別。於是，科學家們說，「上一本」這個事情，可以增加大學生大約1000元工資。

我們回到這篇論文上，作者正是觀察到了這樣一條天然的分割線：淮河以北地區，政府提供了暖氣，用燒煤的方式進行，而淮河以南則沒有。那麼，淮河兩岸十分接近的兩個地區，理論上來說也應該服從這樣的「連續性」假設，也就是各種變數都差不多，唯一的區別就是有沒有燒煤。於是作者發現，由於燒煤，淮河以北的空氣總懸浮物比淮河以南多了 $247.5mu g^3$

而空氣污染造成的結果，淮河兩岸的人均壽命差異則是驚人的5年。

同時，不考慮空氣污染，用其他變數預測出來的人均壽命則幾乎沒有差別。這說明了連續性假設是成立的，淮河兩岸的兩個十分接近的地區幾乎擁有相同的特徵。作者還發現，淮河以北的超額死亡率，正是由和空氣污染相關的心肺疾病相關，並進而與空氣總懸浮物相關，而與謀殺、自殺等因素無關。

至此，作者終於給出結論：燒煤將使空氣總懸浮物大幅度上升，並使中國北方地區的居民人均壽命降低5年。

2，「由於使用燃煤取暖，中國5億北方居民預期壽命將縮短5.5年」這個結論有什麼問題？

如果看完上面那段，你感到心服口服，感嘆科學家真聰明，RD方法真奇妙，進而相信了這個結論，那……你可能不是從事學術工作的。

這項研究主要存在以下三個問題。

第一個問題：連續性假設是否對所有變數都成立？

淮河分界線兩邊的城市，真的在所有變數上都是連續的嗎？作者在Figure4中控制了許多變數，並驗證他們都是連續的，但那些沒有控制的變數呢？我們可能可以說說高考差5分的學生沒有什麼顯著差別，但一條河流兩旁的城市，我們就很難說他沒有顯著差別。由於河流兩側的流速不同，地勢不同，我們常常能發現一條河兩側的氣候特徵相差較大，甚至作物種植不同，這些都會導致死亡率的差異，也有可能造成空氣總懸浮物的不同，而且他們都沒有被控制在作者的圖中。

也就是說，淮河這個間斷點，在識別燒煤取暖對空氣污染以及死亡率的作用上，還不夠乾淨。

第二個問題：無法消除的自選擇性

還是從「一本和工資」的故事開始講。科學家們雖然能研究一本線上的學生和線下1分學生的工資差異，可卻忘記了一個問題：可能有好些剛好越過一本線的學生，並不是因為他考上了一本，而是他老爹有一些手腕，買通了官員，將他兒子的分數改了。而且，又不好太張揚，於是，就改一個躺在一本線上的分數。所以，他們的工資差異，還有一部分來自那些躺在一本線上學生的「有手腕的老爹」。

對於這一項研究來說，所謂的自選擇，就是遷移。一些在淮河以北的居民可能發現，淮河以北空氣太差，他還是搬到淮河以南吧。而另一些淮河以南的居民感到沒有暖氣太冷，於是他選擇搬到淮河以北。於是，搬到淮河以南的人，更注重自身健康；搬到淮河以北的人，由於體弱而怕冷。如此，兩岸居民的分布就出現了差異，其壽命差異，有一部分就來自這些不可觀測的自選擇效應。

第三個問題：小範圍的有效性

回到上一本和工資的那個例子上。「科學家們說，「上一本」這個事情，可以增加大學生大約1000元工資。」這句話，就有問題。你最多只能說：一本線上2分的學生，能因為上一本這個事情，增加約1000元的工資。舉一個極端的例子，一個因為家庭情況不允許復讀，而且本來可以超過一本線100多分，甚至可以上清華北大的學生，卻因為試卷丟失而少了一門成績，從而沒上成一本。對他來說，「上一本」這個事情，可能就不止1000元工資的差異了。這個例子的意思是，RD方法得出的結論，僅僅在他所研究的那個小範圍內有效。超出這個範圍太多，就沒有那麼有效了。

同樣的，我們可以說「淮河以北，且緊鄰淮河的地區，因為燒煤取暖導致的空氣總懸浮物增加，損失了5.5年的壽命」。但將結論推到北方所有地區，就有問題。比如，也許從淮河向北，人們擁有一個隨緯度升高而逐漸上升的「空氣總懸浮物耐受能力」，但科學家卻無法觀察到這點，「5.5年壽命差異」的外推便失效了。

鑒於以上三個缺點，燒煤取暖到5.5年壽命差異這個邏輯鏈條，我們都不能夠完全相信。更別說將這個壽命差異推廣到整個北方地區了。當然，我們也不能矯枉過正，全盤否定這項研究的意義。
這一項研究的重要意義在於：
1，消除了無休止的口水仗，識別了空氣污染和健康之間的因果關係。要知道在使用RD方法之前，「空氣污染有害論」者還在不停地增加控制變數，「空氣污染無害論」者還在argue不可觀測的健康特徵呢。
2，雖然有上述提到的幾個問題，但他們的數據選取讓我相信這幾個問題都不是特別嚴重，我們大致可以下定論，淮河以北十分接近的幾個城市，由空氣污染所導致的壽命減少大致是5年左右。這是一個十分醒目的結果，會引起一批人的重視。
3，上一點私貨。鑒於兩位主要作者都是經濟學家，這個研究，是經濟學帝國主義的又一次擴張。以後，在這樣的自然科學刊物上，來自經濟學家的貢獻可能會越來越多。因為經濟學最關注的就是因果識別，經濟學的好些識別方法，早就溢出到了社會科學的其他領域，也正在逐漸蔓延到一些和政策相關的自然科學領域。前陣子的人類學家大戰經濟學家事件也只是經濟學帝國主義的一個縮影，作為經濟學研究人員，我感到十分高興。

作為一個來北方上學的南方人，我想說，沒有暖氣，我多活那5年幹嘛？

2013年7月8日，北京大學，清華大學及美國的四名研究人員在PNAS上發表了題為&的文章。文章中，作者搜集了中國境內90個環境監測點的空氣懸浮顆粒物（TSP）信息，145個CDC疾病監測哨點（DSP）的人口死亡率信息，國際氣象組織的氣候資料，以及統計年鑒中的經濟數據。基於這些數據，作者使用斷點分析（RD）方法，得出空氣污染導致人均壽命縮短的結論。具體地說，作者假設淮河兩岸附近的人群，其基因型及生活習性基本相同，則影響其壽命的因素，主要是外界環境因素。基於以上假設，通過數據統計計算，作者宣稱，計劃經濟時代，由於國家政策向淮河以北地區提供免費供暖，淮河以北地區（下稱北岸或淮河北岸）的TSP比淮河以南地區（下稱南岸或淮河南岸）高出55%，約184ug/m3，期望壽命降低5.5年。作者認為，每增加100ug/m3的TSP，人均壽命縮短3年。作者進一步宣稱，淮河以北地區的北方中國，由於空氣污染而減少的期望壽命達到了25億人年的驚人數字。

為了討論方便，請大家點開原文 http://www.pnas.org/content/early/2013/07/03/1300018110.full.pdf 和補充材料 http://www.pnas.org/content/suppl/2013/07/03/1300018110.DCSupplemental/sapp.pdf

儘管環境污染影響人類健康是一個盡人皆知的命題，但其具體數量仍是一個謎。量化環境污染對人類健康的影響，有助於建立控制污染的政策和經濟手段。筆者認同這篇文章研究的目的，也贊同對環境污染加以控制，然而，這個研究犯的錯誤之多之嚴重，使得它的結論完全無效。

具體地說，作者犯了以下幾個錯誤:

1. 樣本大小並不一致，在回歸模型中，人口多的樣本，權重增加。實際上，環境對壽命的影響作用到單個個體，人口數再大，也不會有差異。理論用錯了。

2. 淮河兩岸相同緯度差的樣本實際上不存在，回歸模型中，以緯度作回歸，距離淮河緯度差之差異嚴重扭曲曲線。理論又用錯了。

3. 綜合1、2兩點，嚴格的比較是選取淮河兩岸相同緯度差內期望壽命數據，合在一起，作成對比較。但這樣還能「做出「顯著性么？筆者表示謹慎懷疑。

4. 作者對回歸模型的方程選取是隨意的而非嚴格的。

為什麼說這是隨意選取的呢？讓我們先了解一下擬合方程是怎麼選取的。我們知道在統計中，為了將現實觀測值（這裡是期望壽命）和目標變數（這裡是TSP濃度，緯度，等等）建立聯繫，一般都要寫出函數來進行擬合。然而，哪些函數更符合實際情況，我們並不得而知。比如在本文這個例子里，二次方程和三次方程同樣都可以擬合緯度-期望壽命數據。那麼，如何判斷某個函數比別的函數更具有解釋力，又不至於過度擬合呢？統計學中用AIC BIC這兩種函數來表徵函數擬合質量。一般認為，AIC最低的擬合函數模型，最有可能是最好的模型。當然，總有我們沒能設計出來的模型。但至少想得到的也得測一下。

AIC: 赤池信息量準則Akaike information criterion
BIC: Bayesian information criterion

作者在補充數據中提供了AIC（補充表9，10，11）。我們看到，在表S9中，最好的擬合是三次方程，在S10中變成了二次方程（三次方程連TSP都弄不出來顯著性）。也就是說，在淮河一線5度範圍內，三次方程的擬合是一個過度擬合，不具有彈性--即使放到全國範圍內，去掉期望壽命最高最低的幾個點，馬上我們就能看到它不符合實際情況。

我們還可以看到，沒有一個方程完全滿足所有變數的AIC最小這一條件。因此，我們可以認為，這幾個變數很可能就不能用同一條方程加以解釋。

實際上，地理位置不僅有緯度還有經度，還有很多很多別的因素。假如把所有因素都放進去考慮，我想他們連三次方程都搞不出來了。在這我們先不討論他們是否要引入其它變數，只就事論事討論他們能否從手頭的數據推出結論，就不展開了。但這裡的數據至少顯示，他們選取一個三次方程是不對的，是過度擬合。

假如在回歸模型里挑選線性、二次方程而非三次方程，肉眼都能看出來無所謂斷點。即使所謂斷點成立，按最好的情況，斷點也不在他號稱的淮河一線，用肉眼都能看出來斷點如果存在的話應該在淮河以北5-8度。因此這實際上是為了契合他的結論，人為操作出來的斷點。

5. 同樣地，假如數據之間存在相關性，則其間可能有聯繫，但這個聯繫的邏輯順序是未知的。A和B同時存在，既可能是A導致B，也可能是B導致A，還可能是原因C同時造成了A和B。為了統計推斷這個邏輯順序，也要用到AIC測試每個邏輯順序模型。這就引出了下一點：緯度、TSP及實際期望壽命是三個變數，其關係有可能是緯度→TSP→壽命、緯度→壽命→TSP、緯度→TSP以及緯度→壽命。

首先，可能性2並非完全無可能，比如天氣變冷導致人容易病，因為人總是生病，所以生火取暖增多，這是有可能的。即使我們排除可能性2，但可能性1和可能性3並未檢驗AIC BIC，也未提供原始數據表，根本不能排除可能性3。在這個意義上，無法排除這樣一種可能性，就是緯度增高同時造成TSP增多以及期望壽命變化，但這兩者是互相獨立的，並無聯繫。因此，宣稱所謂因果關係是過度解釋，把自己想說的話硬塞到數據嘴裡去。這是本文中最重大的一個問題。

6. TSP與實際期望壽命的關聯做不出來，隨便一看圖和數據表就能知道。這是為什麼作者操縱數據用三次方程和斷點分析的原因。淮河以北全部人群的實際期望壽命甚至高於南岸（表1）。看他的補充圖3就能發現，實際上這組數據一條直線就能拉平，因為在這個鄰域內曲線可以直化。之所以拉了兩條直線，我也不明白這是為什麼，是故意的么？

這在補充表S10中更為明顯。實際上如果選（全國數據擬合最優的）三次方程，那淮河兩岸5度以內的TSP根本就沒有顯著差異，所謂「心呼吸系統死亡率」卻有（參考一下7，你會覺得更不可思議）。如果按照他們的邏輯，這說明了心呼吸系統死亡率高跟TSP一點關係都沒有。

看他的補充表S9可知，實際上他們已經做了線性回歸，根本做不出來結論，二次也做不出來，只好往三次推。

7. 作者主觀歸類死因。將心臟病、腦血管病、肺癌、呼吸系統疾病歸為一類，其它癌症、暴力死亡與其它疾病歸為一類。參考其補充數據表可見，淮河北岸人群只有腦血管疾病和肺癌的死亡率高於南岸，呼吸系統疾病死亡率甚至低於南岸。而其它類型癌症的死亡率，北岸均比南岸高，如果按照作者的假設，TSP不導致其它癌症，則不能說明TSP導致肺癌發病率高，因為總體癌症發病率北岸就比南岸高，而癌症的原因遠不止TSP一個，也就是說有可能有TSP以外的其它因素（比如重金屬污染，溫度差異，濕度差異，醫療水平差異，等等）導致所有癌症（包括肺癌）發病率在北方上升。因此，這組數據完全可以作另一種與作者的設想相反的解釋，而作者「忽略了「他並未檢驗這種可能性。

====好了分點討論說完了====

讓我們來總結一下: 作者先假設了5中的可能性1成立（假設1），然後用這個假設，設計模型公式，接著回歸曲線，假設4中的檢驗都對其有利（實際上從數據能看出這是不對的），隨意挑選一個三次多項式（假設2），由1、2、4中引入的偏見，錯誤地根據淮河劃分數據（假設3），錯誤地引入人口和緯度權重偏差（假設4），得到了圖3的斷點結果，即TSP對期望壽命的影響權重極大，其分界線剛好在淮河。接著，作者循環論證，用之前拿到的公式參數，去掉TSP變數，當然能得到錯誤的預測期望壽命圖4。再接著，作者如7所說，胡亂歸類死亡原因，使用公式2去檢驗，自然得到他想要的結果表3。再接著，作者以淮河兩岸的數據過分外推，假設其影響對全國都成立（假設5），得到了驚人的全北方中國減少壽命XXX年的結論。

在這個流程中，作者作了四個毫無根據的假設，犯了三個嚴重的數據操縱錯誤，犯了一個循環論證邏輯錯誤，錯誤地誘導讀者得到結論。這還不是他們錯誤的全部。

盡最好的努力說，這是一篇極有創意的文章，其錯誤之多、假設之大膽、論證之武斷，令人驚訝。在不向外延伸討論其它變數的情況下，保守地討論本文的數據，也不能支持原文作者的結論。這個結論的正確與否，有待進一步檢驗研究。無論最終數據支持或不支持本文觀點，這篇文章的質量也不能改變，it is as thin as a paper[引他人說法]。

就substantive issue而言，最大的問題是在實際操作中，集中供暖的分界線並不是淮河。淮河流經四省。豫南沒有集中供暖。湖北幾乎沒有集中供暖（據說只有十堰有，但那是特殊原因，因為有二汽）。安徽只有淮北少量地方（也是巨型國企導致的）集中供暖。江蘇省也幾乎沒有集中供暖，唯一實現市區集中供暖的是徐州。但這是前些年（2010年左右）的事，有興趣可以查新聞。且徐州已經很難說在斷點的分界線上了（眾所周知淮河無下游，但即使以蘇北灌溉總渠為界，離徐州都還有相當距離）。
省內分集中供暖區和非集中供暖區的是陝西、河南、安徽、江蘇四省。陝西基本以秦嶺為界，沒有爭議。河南實際上以黃河為界，黃河以南基本上只有大國營單位可能配備供暖。安徽不太清楚，但據我所知皖北供暖並不完全（這一點請安徽的朋友補充）。江蘇前面已經說過了。也就是說實際上的集中供暖分界線不是秦嶺-淮河、而是秦嶺-黃河-江蘇山東省界。這離淮河還是比較遠的。
根據我看到過的資料，黃河以北才是強制供暖區。黃河以南淮河以北屬於可供可不供的。但實際上這一地帶大部分城市和單位是不搞集中供暖的。具體實施到什麼程度還望方家賜教。不過有一點基本可以確定，淮河一段並非是嚴格的供暖分界線。李陳等的斷點觀察結果有較大可能是omitted variable bias導致的，因為眾所周知，秦嶺-淮河一線是公認的南北分界線，線兩側還有許多其它重大人文與自然地理差異。

補充：根據正文的圖表（Evidence on the impact of sustained exposure to air pollution on life expectancy from China』s Huai River policy，figure 1)，李陳等定義的淮河下游顯然是以淮河入江一段算的，也就是說他們文中秦嶺－淮河線的最後一段是淮河入江水道－長江這條界線。那問題顯然就更大了。第一這肯定不是集中供暖界線（如果有蘇中如揚州、泰州、南通的朋友可現身說法，有沒有集中供暖，如果有小範圍的集中供暖，是什麼時候實現的）。實際上的集中採暖界線是秦嶺-黃河-山東江蘇省界，與文中的秦嶺-淮河-淮河入江水道-長江一線南北差距幾百公里。第二長江下游兩岸的其它差異或者說unobserved heterogeneities簡直太多了，omitted variable bias更嚴重。
另外秦嶺以西那一段實際上是西藏與新疆和青海的邊界。實際上南疆和青海屬於內陸或高海拔地區，冬天也是要供暖的。當然由於這一段兩側基本沒有觀測點，問題不大。

簡單說在陝西以東，實際生活中的集中供暖邊界（秦嶺-黃河-江蘇山東界）比該文使用的界線（秦嶺-淮河-淮河入江水道-長江下游）偏北二到四度。該文主要結果用的bandwidth是上下一度，那顯然是成問題的。Appendix里報告了上下五度的結果，也是顯著的，但五度這個帶寬未免過寬了，五個緯度可是555公里。

當然也不能全怪李宏彬和陳玉宇。我見到的全國性媒體對集中供暖界線的報道幾乎沒有說對的，甚至還有如這篇（看緯度還是看溫度——南方該不該供暖氣？）上下文自相矛盾的（前面說供暖界線是秦嶺淮河，後面又說黃淮平原上的徐州不屬於供暖區）。還是對於「上有政策下有對策」的國情估計不夠。

補充：方法上也確實有模型選擇arbitrary的問題。年初的Research and Politics上發表了哥倫比亞大學著名的統計學家Andrew Gelman和Adam Zelizer合著的一篇文章，批評了陳李一文使用的方法（http://rap.sagepub.com/content/sprap/2/1/2053168015569830.full.pdf）。

Gelman and Zelizer的解讀極其言簡意賅。一言以蔽之，就是陳李得出的結論嚴重依賴於他們選擇的估計所使用的函數形式。壽命縮短5.5年（標準誤2.4年）是三次多項式的估計。高次多項式的優勢在於更加通用，缺點在於噪音大且往往不可靠（"[t]he higher-degree polynomials have
the advantage of being more general but the disadvantage
of yielding noisy and often implausible estimates."）。如果使用線性模型，估計結果是1.6年（標準誤1.7年），統計上不顯著。

雖然作者（陳李）出於數據的考慮，給出了使用三次多項式估計的理由，但Gelman and Zelizer認為仍有可疑之處：即秦嶺淮河分界線以北這條曲線在最初幾個緯度實際上是上升的。因此可能存在遺漏變數問題。他們沒有點明的是，這正與之前談到的substantive issue有關。如果我們將RD調整到實際生活中的集中供暖分界線，即北移兩到三個緯度（一個緯度大約是111公里），即使使用三次多項式，結果也很有可能是不顯著的。

Reference:
Gelman, Andrew, and Adam Zelizer. 2015. "Evidence on the deleterious impact of sustained use of polynomial regression on causal inference." Research Politics 2(1):1-7.

給大家看看北京和烏魯木齊的空氣質量指數圖。
北京的：▼

烏魯木齊的：▼

這一對比，比較明顯的是，在冬季，因為燒煤取暖等原因，污染等級高了很多。

我冒昧說一句啊，如果不燒煤，又有人燒不起別的，凍死的，或者因為寒冷影響活不久的......這個怎麼算

**************
既然說五億人，那麼從在北方的，從中樞富貴到下層百姓，想必都是包括了的，你們以為人人都能燒得起煤嗎？

這篇論文的數據推不出結論不是因為RD方法。無法立足主要有兩點
1. 為了構造間斷點，居然用緯度的三次方去擬合。緯度和燃煤取暖最多只呈弱相關性，用緯度而不用人均燃煤量或者空氣污染指標本身就缺乏說服力。而且三次方擬合會極大的放大噪音，這屬於人為製造斷點。
2. fig3已經假設淮河緯度為間斷點來計算壽命差，這種擬合誤差極大。如無此假設，重新擬合，間斷點將在淮河以北三到四度附近。

這就跟專家說冰凍西瓜不好，會讓營養流失一樣，我想說，我吃西瓜是為了營養嗎？

可變的因素太多了。而且和以前的研究結果不洽合。

1，我承認第三圖看起來很連續性，第二圖的不連續性實在是看不出來啊。
2，簡單說，正確做法，應該把第二圖獨立出來，交給第三者，看他能否划出淮河的線，能否畫出連續線斷點。

好吧：拿到第二圖：
1，我會先算平均值，咦，平均值居然是北邊的壽命比南邊長。（嚴寒有利壽命）
2，淮河南北怎麼有點差別呢？淮河南邊居然比北邊壽命長。（反例？矛盾？）
3，原來淮河北邊有暖氣，南邊沒暖氣，也就是南邊實際比北邊更加寒冷。（再次證明#1結論）
4，我的結論：嚴寒有利壽命，比上面的經濟學家合理多了。

我覺得這是股票分析師用K線圖來看出硬幣頭尾的規律來了。

簡單反駁該文章的結論：如果北方因為污染而減少5.5歲的話，也就是說北方沒有污染就會比南方
高6歲的壽命。如果這是緯度引起的，就必須去解釋美國南北緯度壽命一致。（美國人不燒煤。）
6歲差不多是男女的壽命差，看看各個環境男女統計數據的差異，可見這個差異是多大了。

這麼驚人的結論需要更加驚人實證的證據。就本案例看，幾個教授為了出名把連節操君推倒了。

現階段，沒有更好的清潔能源出現之前，在東北不燒煤取暖，很多人壽命會縮短50年！

我感覺這是一個陰謀，這個研究肯定和羅斯柴爾德家族有關，這些研究人員或者研究很可能就是他們背後資助的。美國的石油財閥很害怕中國提高燃煤比例，降低對石油製品的依賴，中國的煤炭資源實在太豐富了，用幾萬年都沒有問題。如果中國一直用煤，石油財團如何掙錢？不管你信不信，反正我是信了，呵呵。

淮北本身就是產煤區，空氣污染一直就很嚴重，沒有暖氣的時候也是常年各種煤渣漂浮,希望有關專家學者本身去實地考察再做研究。

杜絕燒煤，用愛取暖。

關於這個問題，重要的還是想想如何更有效的供暖，合理利用能量吧。
把燒暖氣時開窗子的問題解決了，能有很大用。

據無數平民體驗，如果不供暖，我們根本活不過這個冬天.......

研究新能源是必要的，主要是現在沒有合適的能源代替這個，如果有的話中國早換了！

「叫你們不努力，只能在中國北方燒煤。如果你們努力，就能去法蘭西斯坦享受用愛發電供暖。就算你們不努力，你爹媽努力，你也可以去加拿大啊。。。。。」

我去這是我大二的課程選題啊。
當時做了一篇Critical Review，針對的是本題所提論文的簡化（估計是先前）版本，即針對供暖政策對空氣污染的研究，兩文基本研究方法重合度高，review也主要是針對論文研究方法、數據處理的討論。放上渣文以供參考。
主要「攻擊」點為：

TSP測量
缺失因素舉例

）人口
）工業比例

斷點回歸設計

Review最後提到了對壽命影響的進一步研究——即本題提到的論文——在TSP測量方法上做了改進，但Review其他批判性觀點仍然適用。同時也有其他答案提到的「自選擇問題」，但並未展開闡述。

說起來這門課程的教授剛好是論文作者之一的「閨中密友」，期末扔給我們一堆paper讓來「找茬」，想必paper有什麼問題大家也略知。至於之後的壽命研究，我覺得經濟意義還不如我看的這篇。
所以有時候我就是不太理解現在的學術世界。。。反正我也不是搞學術的，攤手。

@chenqin 提到的就文章採用的斷點回歸方法而言，我覺得其它變數的連續性這一點有一個很大的遺漏，也就是暖氣帶來的溫度的影響。即供暖不止帶來了河兩側污染程度的斷點變化，也產生了居住溫度上的斷點。

所以河流兩側既有污染物的顯著差別，也有居住溫度的顯著差別。但仔細想想似乎溫暖的居住環境有利於人的壽命？這樣的話可能文章的5.5年還低估了污染物對壽命的負面影響。不知道在相關領域有沒有研究人的生活溫度和壽命的關係，希望有這方面的大牛來補充。

然而不供暖可能活不過冬天……

中國地圖！！！！請作者及讀者看看文中地圖，我拒絕和人分享或討論這篇文章。不能拿著北大、清華的錢，沒有中國台灣省。以上。