下列圖表可以說明全球變暖是因為海盜減少而引起的么?
1. 上圖中Y軸數據(全球平均氣溫)和X軸數據(海盜案件數)呈現近乎線性的關係,似乎表明兩者之間存在某種必然的聯繫。用此數據進行回歸分析,可以想像肯定會得到顯著的回歸係數和很高的R-square值。
2. 但是如果兩者之間真的存在強聯繫(如因果關係),這結論又不太合乎人們的生活常識。所以問題是:這裡能否通過計算Pearson correlation或者做線性回歸,給出兩者具有因果或者強相關性的結論?如果是,如何解釋它們的結論與生活常識的矛盾之處(以及這個問題是否會危及這些統計學方法本身的可信度);如果否,為什麼(應用這些方法有什麼限制在這裡被違反了)?
對,相關性不等同因果性,但是多數答案沒有給出怎麼繼續證明這兩個變數沒有相關性。
很簡單,假設y是氣溫,x是數量,那麼你的那張圖實際上是y對x做回歸。
單純這樣的回歸只是相關性,為了說明因果,你有非常非常非常多的工作要做。
首先,是不是有第三個因素同時影響了x 和y?比如x和y都有時間趨勢,那麼你是不是要在這個回歸裡面加一個t?控制了趨勢之後,是不是還有正相關?
其次,如果你控制了很多其他變數,還是相關,那我會問你,你這張圖是時間序列數據,x和y是不是平穩?如果不平穩,是不是協整?
或者,你給x找個工具變數試一下?
我來細化一下上邊某大神,原諒我不知道如何用手機@你。
相關性不代表因果性,這句話很多人喜歡說,但是這不代表我們無法甄別真正的因果關係和虛偽的相關關係,尤其是這種顯然的謬誤。
有一些讀過一些書的半吊子,例如邏輯思維,聽到一些奇特的相關性,不禁大驚小怪,認為人類的認知方式和知識體系都完蛋了,殊不知其實已經發展出一套可以很好解決這種問題的方法了。
例如這種偽因果的一個巨大缺陷是,無法保證其他情況不變。
也就是氣候和海盜的關係,不能排除是影響氣候的其他因素也在影響海盜,例如我舉一個非常非常不科學的例子,由於工業化的發展導致氣候變暖,又由於工業化的發展導致人們防範海盜的技術提高或者當海盜的機會成本提高(不當海盜去找工作活的更好),於是海盜減少了,那麼海盜和氣候的關係就不能判定為因果了。
因為沒有保證工業化水平不變。
如何保證其他情況不變呢?自然科學可以做嚴格的控制實驗,但是社會科學不行,只能在數據上下功夫。
例如你做了一個氣候和海盜數的回歸,發現係數為負且顯著,但是且慢,請加入其他影響氣候的因素,看看這時候海盜的係數還是為負且顯著嗎。因為加入其他變數做回歸,就相當於先對這些變數回歸,然後用海盜數回歸殘差,去解釋氣候變化中未被這些變數所解釋的部分,也就是虛擬了一個其他條件不變的環境,只考慮一個變數變化的偏效應。
從這個例子看,我們可以以氣候為被解釋變數,以海盜數量和工業化水平為解釋變數,這樣就如同先用工業化去解釋氣候,再用海盜數量去解釋那些未被工業化水平所解釋的氣候變化,也就是虛擬出一個工業化水平不變的情況下,單單減少海盜數量對時候有啥變化的控制實驗。
(當然這裡真正的做社會實驗也是可以的,你可以再某一天忽然剿滅大量海盜,或者花錢雇一大堆人去當海盜,由於一天時間內工業化是沒有太大變化,你看看氣候有沒有大變化。)
如果這一步完成了,還沒有完,因為還需要考慮太多太多其他問題,尤其是時間序列。(再考慮反向因果關係更沒完)但是我認為絕大多數這種荒謬的相關性到這裡就完了。
你看,大自然的神奇或許僅憑數據分析就給破解了。
最後吐槽一下,雖然說是僅憑數據分析就解決了,但是如何處理其他情況不變,需要找到影響氣候變化的儘可能多的因素,這就是氣象學的專業問題了。很多人認為計量經濟學是統計而不是經濟學,就是因為他們沒有意識到,建模的依據是經濟理論!
不要老講什麼「相關性不等於因果」了,LZ想問的是:「這裡的相關性是否純屬巧合」。如果不是,常識上說太不可思議了;如果是,那麼相關性分析還能信嗎?
答案是:
可能性1:
純屬巧合,這是「偽相關」現象。
對於有限的樣本量考慮很多個隨機變數,即使這些隨機變數來自的總體相互獨立,兩兩計算樣本相關係數後,還是有很高的概率發現其中有高度「相關」的一對變數。
但是如果把這一對變數拎出來,增大樣本量(不斷地繼續抽樣),那麼大數律會保證你幾乎一定會意識到其實他們是獨立的。之前的「強相關」純屬巧合,其出現的原因是樣本量與所考慮的變數數目相比太少。
LZ放的圖就是一個典型的例子,在很多以「大數據」為噱頭的民科書里也有類似的例子,這種圖的作者經常把這些純屬巧合而「強相關」的變數對單獨拎出來展示,而省略了為了發現這種強相關性所搜索的大量其他變數。這種處理方法是統計學上是絕對不允許的。
正確地做相關性分析,必須事先確定要分析哪些隨機變數之間的相關性,然後再對這些隨機變數抽樣;不能倒過來先抽樣,再去找強相關的隨機變數。
可能性2:
確實相關,相關性的背後是latent變數。
比如有可能兩者都跟新航路開闢以來全球現代化有關,但並不存在直接的因果關係或互相影響。假設全球變暖由工業化導致,海盜案件數目增加由貿易增長和海盜裝備水平上升(工業化)導致,工業化和貿易增長都歸為「現代化」這個大趨勢的一部分,那麼可以看出兩者相關性雖強卻是間接相關。
這種情況下,增加樣本量,相關性應該依然顯著,提示著該相關性值得深入研究,有可能帶來對社會規律的新理解。1820與1860年的海盜數量弄反了,這張圖正是飛天麵條神教故意拿來諷刺智能設計論者操縱數據的行徑的。
不是有格蘭傑因果關係檢驗嗎?
不過這奇葩的橫坐標軸真是醉了……相關性不等於因果性.
海盜數量和氣候變化產生相關性,不代表海盜數量變化導致氣候變化.
要想證明海盜數量導致氣候變化,必須在排除導致氣溫變化的其他因素後,證明海盜數量變化這個單一因素總是會對氣溫變化產生影響.
你出生你爸在家門口種棵樹,你的長大是樹長高引起的?
因為都只有一個trend
當然,可以兩個數據都detrend一下再看看
想要說明稍微有效的相關性要麼至少需要每個都有幾個周期,要麼為hypo和null hypo建立模型,做可證偽性檢驗
The true logic of this world is the calculus of probabilities. -- James Clerk Maxwell
可能性總是有的,但一個解釋想被廣泛接受,要看這種它能否鑲嵌進我們的世界圖像,以及相信這種可能性的人有多大話語權。RAmen!飛天麵條大神保佑你~
這個圖是飛天麵條神教的惡搞的啊~本來就是不想關的事情~~~
我試著從更加抽象、更加形而上的視角來探討一下這個問題。
題主的疑惑涉及到一個哲學家們非常熱衷思考的一個問題上——到底什麼是因果關係。
無數先賢對此有啟發性的討論,讓我們來看看:
- Locke(1690)原因就是可以使一些其他的事情、想法、物質、或樣式開始出現,而結果就是它從其他事情中獲得一個開始。
- 休謨(1748)對因果概念有一個經典的剖析:1,因果在時間上毗連( Contiguity);2,因果在時間上有順序性,即先因後果(Succession);3,因果之間是必然聯繫,即有因必有果(Necessary connection)。因此,他提出了,世界上沒有任何聯繫是我們能夠感知的,我們感知到的都只是離散事件的片段,但是我們永遠無法觀察到它們之間的聯繫。(也就是說,我們能看到兩件事相伴發生,但是我們沒法證明它們就是因果,也許是偶然呢?)
- 對此困境,有多種不同的解決辦法:
- 羅素:既然因果不能從經驗上觀察,也難以從邏輯上推導,那麼就乾脆從科學術語中把因果去掉。
- 康德:提出了哲學二元論,即人類知識有兩個來源,感覺經驗和 純理論,他認為純理論是超驗的,與經驗世界有不可逾越的鴻溝,這種純粹理念就包括邏輯概念、因果概念和物理規律。
- 約翰 斯圖亞特 密爾,提出了著名的因果歸納的邏輯——密爾邏輯,包括求同法、求異法、剩餘法和共變法。(他提出的一種歸納因果關係的辦法,在目前科學的實驗中,求異法仍然是一個重要的實驗邏輯;即,讓影響結果的所有可能條件都相同,只改變其中一個我們想要研究的原因,看結果如何變化。)
到了現代,我們對於自然科學和社會科學的規律認識有了一個大致的共識(不能說它是絕對正確和完善的,只能說在科學的角度,它是目前的最優解):
自然科學中的因果關係通常是決定性的;
社會科學中因果關係是概率的。
題主提出的問題就是一個社會問題。我的關注點也主要是社會問題,所以從社會科學的因果關係來說。
社會是複雜的,影響一個結果出現的因素太多太多,幾乎難以窮舉。所以社會科學得出一個結論說A是B的原因,只可能在概率條件下去說——因為根據求異法,我們難以把所有條件都考慮到,無法得到像物理實驗中常常說到的那種「理想狀態下」的條件。
所以,就算我們得到了一個統計上十分顯著的結果,我們也要謹慎地去看待,二者真的是否是因果關係?
- 你很好的排除了所有其他的因素的影響了嗎?
- 你的研究範式的設計是符合邏輯,沒有缺陷的嗎?
- 你是否遺漏了中間變數?是否有沒有排除的干擾變數?
- 等等
舉個例子,我們如果去做一個基於數據的分析,比較中國的獨生子女和非獨生子女的能力,幾乎可以肯定獨生子女的各方面能力都要強。
但是,你能直接下結論就說,獨生子女政策能提高人的能力嗎?
你通過邏輯分析和實證調查就可以發現,這中間有干擾變數。由於獨生子女政策在上個世紀末,在城市執行得很好,但是廣大農村卻沒有完全實施,所以我們調查得來的數據大部分獨生子女是城市人口,而非獨生子女是農村人口。
所以,當我們推論的時候,到底是說,是否為獨生子女影響了個體的能力?還是居住在城市還是農村影響了個體的能力?
顯然是後者。因為,相對於農村,城市有好的設施和條件等資源,能夠促進人的發展。
這就是一條合理的邏輯推論。
在早期,我們的社會科學體系還不發達的時候,我們研究的一個很重要的方法就是思辨。
為什麼?正是因為社會科學中因果關係是概率的。我們必須從邏輯上考慮清楚我們討論的兩個變數是否真的可能有因果關係。當理論體系不發達,前人沒有討論過相關的問題,所以我們要思辨,要思考,要討論,搞清楚邏輯思路,才能去做調查去分析數據。
所以到後來,我們越來越多的理論建立了起來,到現在科學研究幾乎不再用思辨的方法。但是,取而代之的,是文獻搜集的方法,我們要從前人的理論中吸取他們的邏輯思路,然後才能繼續我們的數據分析。
所以,回到題主的問題。在這個社會問題上,題主你見過有科學文獻指出過海盜的數量和氣溫的關係的任何說法嗎?或者,你自己通過思辨,你能大概推理出海盜減少是通過什麼樣的機制來影響氣溫的?如果你通過思辨想明白了機制,找出了中間變數,那麼你就可以動手去收集中間變數的數據,然後做更複雜的數據分析了。說不定二者真的有關係。只是很有可能中間隔得邏輯線比較長,最終氣溫變化只能很小一部分可以用海盜減少來解釋。
看到那麼多洋洋洒洒的長篇討論我真的笑了,不知道參與話題的人們有多少人了解飛面神教有多少人承認自己是FSM的子民。海盜是一群可愛的萌萌的人兒,他們只是喝著酒唱著歌尋找傳說中的寶藏,半醉半醒間也許還會給你講述飛面神教先吃、海盜船長莫西在莎莎醬山上創立八條戒律的故事。要有幽默感,他們還會告訴你。也許不會說什麼認真你就輸了,但是我們不妨來唱一首讚美詩吧,然後再高聲呼喊:RAmen!
飛面神教信徒前來膜拜。
確實很難斷言二者沒有相關性,但也難以斷言二者有相關性甚至有因果關係。
我們也可以現學現賣提出一個類似的「理論」:羽絨服(泳裝)和熱飲(冷飲)的銷量總是呈現出相似的變化趨勢,所以可以判斷穿羽絨服(泳裝)會刺激人們喝熱飲(冷飲)的慾望。
顯然,我們憑生活經驗就能判斷氣溫變化才是上述現象的根本原因。
而在常識無法到達的領域,則須知「不能證偽」不等於「可以證實」,很多詭辯都會混淆這二者以達到歪曲事實的目的。
分辨出這種謬誤是客觀認識世界的前提,這也正是「海盜數量與全球變暖」這幅圖片的初衷。類似的例子還有「粉紅透明獨角獸」、「羅素的茶壺」,以及擁有無數可見及不可見信徒的「飛面大神」。
PS:海盜數量數據奉飛面大神神諭由神職人員酌情調整,凡人與小盆友請勿模仿。
當A與B表現出相關性時,我們可以有四個推論
1)A導致B
2)B導致A
3)C導致A,B
4)純屬巧合
一個合理的推理既需要邏輯支持,又需要數據支持。
推論4)純屬巧合 對這張圖表就是不錯的解釋。
或許推論3)也有一定道理。比如說,【C】人類文明程度提高,工業日漸發達,對海盜的打擊力度加大,人們從事海盜工作的意願降低;同時發達的工業造成碳排放逐年增長,加劇了溫室效應。
儘管看起來很符合邏輯了,但這種說法還是需更廣泛的證據支持才有說服力。
那,題圖看來確實是單純的相關性。
可是要證明因果關係你就得
A與B貌似相關 =&> 排除各種干擾項的影響(工具變數/固定效應/傾向值匹配/時間序列的修正etc.)=&> 統計意義上的因果關係
統計意義的因果關係+理論支持 =&> 現實中很可能有因果關係
再加上A先B後 =&> 有可能A引起B
所以你看讓人頭疼的問題從來就是證明因果關係存在而不是不存在啊。
大部分偽因果在第一步就能完敗。退一萬步說你把統計學那堆檢驗都做出來了,也不能由此建立因果。
因果關係來源於邏輯,理論,甚至哲學,而不是統計數據。
非要反例的話,隨便找一個規律增加/減少的變數,都能做出這種圖的。
有條件的話,可以拖一堆人去當海盜,然後觀察一下全球變暖的步伐有沒停止
如果發現兩個看起來沒什麼關係的東西有相關性,先擴大樣本量,排除掉因為數據量太少帶來的偏差。
第一步做完以後如果確實仍然有非常強的相關性。那麼找其他的變數來幫助判斷其因果性,設全球氣溫是變數A,海盜數量是變數B,找一個確實已知是導致全球變暖的原因之一的變數C,和確實導致海盜減少的變數D。然後計算A、B、C、D兩兩之間的互信息,即可在一些情況下判斷是否A與B存在因果性。
譬如C導致A(已知),且假定A導致B,則C與B的互信息必定是這三者兩兩之間互信息中最小的,因為信息在傳播過程中是越傳越少的。如果不是最小的,那麼說明A不是B的原因。同理,D導致B,若假定B是導致A的原因,則D與A之間的互信息必定是這三者兩兩之間最小的,若不是最小,則B不是導致A的原因。
如果A和B已經被大量數據說明非常可能是相關的(很大的時間、空間、數據量範圍下都有很強相關),且前述的兩方面都證明CB的互信息和DA的互信息均不滿足我們所預設的AB之間有因果性而推出的性質,則可以說A和B非常可能是被某個其他的變數E同時影響的,而它倆之間不存在因果性。
但是凡是涉及到現實的事情,我們只能說在概率上來講得到以上這些結論的可能性比較高,並不能下絕對的結論。認真讀過巴比的《社會研究方法》,社會研究類的好書啊,現學現賣……
再告訴你一個駭人聽聞的栗子吧~
冰棍銷售額和溺水死亡率呈高度正相關!
詳析模式就是,發現某一組變數相關,於是控制住第三個覺得是cause的變數,可以分析出初始相關的真正關係。
結論可能是:復證、辯明、闡明、標明。
詳細的我就不手機打了,有興趣的去搜搜~
還有一個栗子,烏鴉數量和生育率呈正相關。
研究者控制住變數"城鄉",得出結論:烏鴉數量和生育率是辯明的假相關。
因為鄉村烏鴉數量比城市多得多。而鄉村生育率也高得多。
烏鴉多的城市也有,但是很少,生育率也是低的。
題目中的海盜和全球變暖也是辯明關係,也就是假相關。必然有一個變數同時影響海盜和全球變暖向著同方向發展,只不過不能控制這個變數。
我不專業地推測這是由於工業化現代化造成就業機會大量增加,海盜這個職業越來越不吃香, 而工業化會帶來環球變暖!工業化同時影響海盜和全球變暖的情況,是一個先驗變數。但是這個變數不能像其他社科研究里的同類變數那樣被控制進行研究。
社會研究有趣的地方就在於發現這些看似因果的相關關係,再去找出真正的因變數吧~
這個問題應該由樓主自答,而我們是沒有資格來回答的。
因為舉證責任在於提出不可證偽宣稱的人。
樓主如果認為這二者之間的因果關係是一個不可證偽的真理,那麼應該由作者舉證論證這一理論,而不是由我們舉證推翻。退一萬步講,如果我們真的無法採用統計學原理來說明樓主所提的問題呢?(因為此問題本身就出自無神論者惡搞的飛行麵條怪物神教,所以為了達到惡搞效果才選擇了一個很容易被證偽的論斷),例如,MH370悲劇是由於中國社會目前的信仰缺失,如何用統計學加以反證?
所以說,用統計學解決此問題只能是治標不治本。還是用無上萬能與榮光的飛行炸醬麵佛祖施捨予人類的禮物——哲學來解釋吧。
悄悄地和樓主說一句,我家地下室有一頭巨龍。但是它不對任何其他人顯形,所以你們都看不到它,只有我能。
那麼你如何證明那沒有?好吧,你不能證明是吧,那就是有咯。
同理還有一個哲學典故,「羅素的茶壺」,自行百度吧。
朋友來了,回聊。-
1. 因果判斷屬主觀,沒有客觀標準。
2. 真正的問題是,題主您對「因果關係」的判斷標準是什麼。
3. 如果這樣7個data point,已經足以認定「因果關係」,那麼有兩個後果要考慮:
a. 非常多的變量組合,都應該認定為有因果關係(比如你長高導致了印度GDP增長);以及
b. 「因果」意義減弱,因為太多東西都有「因果關係」——以後您說「A導致了B!」,可能沒人當回事了。
4. 如果您接受以上兩個後果,是可以認定海盜減少引起氣溫變暖的。
5. 因果判斷的數據不足(我認為),不代表關係不存在,更不是說這不值得研究。實際上,「絕對沒有因果關係」的變量組合,是很難找的(更難證明)。土星光環裡的一粒塵埃也對你我有萬有引力呢,很小罷了。
海盜一定影響了全球氣溫,只是,(我認為)我們現有的信息不足,未可判斷是增益還是減損、程度有多大、原理為何。
6. 如果您想通過說理宣傳「海盜?變暖論」,可考慮闡述從證據到結論的鏈接,比如這樣——
海盜會干擾航運,因此,海盜減少,會導致航運發達。
輪船燃燒化石燃料,因此,航運發達,就會增加二氧化碳排放。
因此,海盜減少,增加航運,導致輪船排放升高,從而導致全球變暖。(僅作舉例)
推薦閱讀:
※這類信息圖是怎麼製作的?大概用到些什麼軟體?
※國雙數據中心的《2015 汽車行業報告》中的圖表是用什麼軟體做出來的?
※怎樣提高數據敏感性和數據的分析能力?
※互聯網分析師是幹什麼的?
※如何通俗易懂地解釋「協方差」與「相關係數」的概念?