如何使用線性回歸探索數據?數據分析初學者指南
在數據分析中,哪些變數對結果起到直接作用?哪些變數起的是間接作用?
1.母親年齡、父親年齡,哪個影響妊娠周期?
現在,我們已經知道,父親年齡的增長會縮短妊娠周數,並且,母親年齡的增長會縮短妊娠周數。
但是,年輕的媽媽不是通常都和年輕的父親生育後代么?同樣的,年紀大一些的媽媽也常常和年紀較大的父親哺育下一代。我想說,這個樣本數據中的父親年齡和母親年齡是不是成正相關?看一下,下面這張父親年齡(X軸)和母親年齡(Y軸)的散點圖。
父親年齡和母親年齡確實是成正相關,這意味著,當父親年齡增長時,母親的年齡也在增長。
下面是父親年齡和母親年齡的相關性視圖。通過視圖分析,我們能夠看出這二者之間的相關係數為 0.75,這意味著兩個維度的數據中度正相關。
現在我們有了一個新問題:當我們說父親的年齡影響了妊娠周數的變化時,父親的年齡是否獨自影響了妊娠周數?讓我們設想一個例子。
一位年紀較大的父親最近有了孩子,並且相比較於平均水平,嬰兒出生較早(妊娠周數較短)。
現在問題來了,這是否是父親年紀較大造成大的呢?亦或是,他的妻子、伴侶的年紀碰巧也比較大,也許這個才是嬰兒早於平均值出生的真正原因?所以,預期說父親的年齡直接影響了妊娠周數,不如說父親的年齡影響了母親是年輕還是年老,而後,母親的年齡最終影響了妊娠周數的長短。為了回答這個問題,我們將父親年齡和母親年齡一同作為預測的變數,重新建立回歸分析模型。
這樣做的原因呢?嗯,答案是我們要換一種方式解釋係數估計。當我們擁有多個預測變數時,我們可以將變數的每個係數理解為:「當其他變數值保持不變時,給定變數的增減,會導致目標變數的增加或較少一定的值。」這句話的前提條件很重要。這意味著我們可以說,例如,在母親年齡保持不變的情況下,父親的年紀增長一歲,將會導致妊娠周數的增加或減少。所以,基本上,我們可以把母親年齡的潛在影響從父親年齡的影響中分離出去。相似地,把這兩個變數作為預測因子時,我們可以把父親年齡的潛在影響排除,單獨估計母親年齡的影響,讓我們試一試。
2.父親的年齡和母親的年齡
把父親年齡和母親年齡都當做預測因子重新構建線性回歸模型。
這是係數圖示。注意父親年齡是灰色,這意味著它的P值大於0.05。正如我們在以前的文章中了解到的知識。我們無法得出父親年齡對妊娠周數有顯著影響的結論。
但是,P值是0.06。P值實際上表明,當父親年齡和妊娠周數無關,而母親年齡相同時,妊娠周數有 6% 的概率發生改變。對於某些情形來說,6% 的概率已經相當低了。除此之外,大名鼎鼎的閾值 5% 和 6% 有很大差別嗎?只有1 %的差別!但這不是重點。我想說明的是,父親年齡的p值與只有父親年齡的模型中的p值相比確實增加了很多,在超過閾值的情況下,我們並不能斷言,當母親年齡相同時,父親的年齡真的影響了妊娠周數。讓我們來看一下母親年齡的 P值。和父親年齡的 P值相比,確實低了很多。
母親年齡的 P值告訴我們,當父親的年齡保持不變時,妊娠周數發生變化卻不是母親年齡這個因素導致的概率非常低。
因此,母親年齡比父親年齡更能可靠地解釋妊娠周數的變化。這意味著我們可以解讀為,母親年齡更直接的影響了妊娠周數。在前面的分析中,父親年齡對妊娠周數的影響可能是因為它碰巧和母親年齡有較強的相關性。所以,我們的發現如下。母親年齡的係數估計值為 -0.02,這意味著在父親年齡保持不變的情況下,母親年齡增加一歲會使妊娠周數縮短 0.02 周。
3.父親年齡是一個假變數嗎?
現在,我們發現母親年齡比父親年齡更有可能影響妊娠周數的變化,這是否意味著父親年齡對妊娠周數根本就沒有任何影響?
為了回答這個問題,讓我們來看一看模型的總結數據。
在這裡,R Squared (決定係數)現在顯示0.0015,這比只有母親年齡的模型要高出 0.00066。數值幾乎翻倍了。這可以理解為,母親年齡無法解釋妊娠周數的變化範圍,但增加了父親的年齡就可以得到解釋。
好了,關於 R Squared, 我們這裡還有些注意事項。當你添加更多變數時,無論他們是否真的可以解釋目標變數的變化,R Squared 幾乎總是上升。為了解決這個問題,我們提供了一個 R Squared 的調整版 Adjusted R Squared,添加更多的變數它會做出懲罰:當你添加的變數無助於解釋目標變數的變化時,它就會下降。因此,如果父親年齡根本沒有起到作用,則 Adjusted R Squared 的值可能下降或保持不變。以前只有母親年齡的模型的該項值為 0.00066,現在具有母親年齡和父親年齡的新模型的該項值為 0.00149。所以,這個 Adjusted R Squared 也增加了一倍以上!因此,我們可以解釋為,添加父親年齡對解釋妊娠周數的變化有一些作用。此外,衡量增加變數的作用的另一個指標是 AIC(Akaike Information Criterion,Akaike信息標準)。我們將在後續的專題中討論這個問題。還有一件事是關於這個模型的質量的。具有母親年齡和父親年齡的新模型的 P值比只具有母親年齡的 P值要小很多。這意味著這個模型在解釋妊娠周數的變化方面變得更加可靠。4.結論
基於目前我們所做的調查,我們已經知道母親年齡比父親年齡能更可靠的解釋妊娠周數的變化。這使得我們相信,相比較於父親年齡,母親年齡可能是影響妊娠周數的一個直接原因。
翻譯:Leo
審校:林意靈原文地址:https://blog.exploratory.io/a-beginners-guide-to-eda-with-linear-regression-part-2-82e063bc753,有刪減
系列直播課,正在進行中
關注集智AI學園公眾號
獲取更多更有趣的AI教程吧!搜索微信公眾號:swarmAI集智AI學園QQ群:426390994學園網站:http://campus.swarma.org商務合作和投稿轉載|swarma@swarma.org推薦閱讀:
※數據分析之數據可視化
※「機器學習」和「MHKQ因子擇時模型」相關前沿研究丨優礦金工深度報告5月篇
※Graph圖演算法 Hits&Page Rank
※【Live預告】如何從0開始通過參加Kaggle拿到Amazon實習Offer?
※為什麼有些公司在機器學習業務方面傾向使用R+Hadoop方案?