#R語言#美國40年的經濟數據分析報告

寫在前面的廢話:這是上學期的一次R語言的數據分析作業,涉及到統計學裡非常基本的知識,使用R,用到了rattle(這是個非常簡單又友好支持很多數據格式的R包,支持基本的統計量,菜單式操作強烈安利)和ggplot2(這個畫圖很優美的~),下學期不斷學習R~fighting~

【一、數據來源】

美國經濟運行的情況對世界各國的發展都有影響。選取美國1967-2007這40年間的經濟數據作為本次數據分析報告的分析對象,該數據屬於時間序列數據。該數據集包括:

l Date(日期,1967-2007這40年間每個月統計經濟數據的時間)

l PCE(personalcomsumption expenditure,inbillions of dollars,個人消費支出)

l POP(totalpopulation,inthousands,人口數量)

l psavert (pearson savings rate,個人儲蓄比率)

l unemploy(number of unemployed inthousands,失業人口數量)

l uempend(median duration ofunemployment, in week,失業持續時間)

(數據來源於美聯儲經濟數據research.stlouisfed.org。)

【二、數據總體分析】

首先,對除了Data以外的其餘5組數據作數據的集中趨勢的測度,從總體看發現平均數和中位數是相對比較接近的。眾數在這裡沒有什麼代表意義,PCE和POP沒有眾數,其餘3個變數的眾數不具有代表性。

從平均數看,這40年來,美國PCE(個人消費支出)為38024億,人口數量為2.48億,個人儲蓄比率為6.5,美國的失業人口為700萬左右,失業時長為7個星期。

從中位數看,美國PCE(個人消費支出)為33032億,人口數量為2.4億,個人儲蓄比率為7.5,美國的失業人口為690萬,失業時長為7個星期。

得出結論,平均數和中位數的相關性比較好,可以代表該組數據的集中情況。

(這是用rattle做的,rattle的這個界面並不美觀,TT可以考慮放到最後的appendix里其實)

下面分析該組數據的離中趨勢,反映各變數遠離其中心值的程度。因為PCE、POP兩個變數的眾數缺失,故不分析異眾比率。以標準差來看數據的偏離程度,以變異係數來消除數據水平高低和計量單位的影響。從Table3中發現,美國的人口、失業情況較穩定(變異係數分別為0.229064,0.262175),而個人消費支出波動比較劇烈(變異係數為0.711823),個人儲蓄比率波動比較劇烈(變異係數為0.518345)。這也反映了美國經濟運行情況對於個人經濟生活的影響。

對美國這40年的經濟運行狀況做一個分布形狀的描述,在rattle中得到Table 4峰態係數(Kurtosis)和偏態係數(skewness)的結果。

從峰態係數上看:PCE, POP,psavert, uempemd為扁平分布,unemploy為尖峰分布。

從偏態係數上看:PCE, POP,uempmed這3個變數為右偏分布,而psavert,unemploy呈左偏分布。

【三、數據個量分析】

下面使用了R3.2.5里的ggplot2包,ggplot2包里的qplot函數相比於R自帶的plot函數功能更強大,做出來的圖更美觀。Table 4顯示了美國40年里失業人口數量的直方圖,8000萬左右是失業人口數量的頻數最大的時候,而1億以上的失業人口數量出現次數較少,基本服從正態分布,中間頻數大,兩邊的頻數小。

下面畫出失業水平隨時間變化的兩張折線圖(Table6,7)。我們可以從圖中直觀地看出美國80年代的滯脹和2008年的次貸危機等金融危機發生使得失業人口迅速上升,對應的失業星期的時長也增加。從兩張圖的對比中看,兩個變數之間大部分波動一致,但是在最後一個峰值到來之時,失業的比例比前一個峰值低,但是失業的時間卻更長。失業比例雖然低,但是08年的美國人口數量遠超80年代的人口數量,失業人數上升,失業時間變長,說明次貸危機帶來的影響大而持久。

Table6和7中顯示數據的趨勢情況並不明顯,觀測數據的眾多使得折線圖中時間變化的方向感並不明顯,有很多數據緊密的排列在折線圖。將它們放在一張類似散點圖中來表示失業率和失業時間長度之間的關係Table8。下面一張圖是失業率和失業時間長度之間關係路徑圖,通過一些參數和顏色的設置使得失業的趨勢變得明顯,發揮R可視化的作用。得出結論,失業率在40年中是曲折地上升。

【四、數據相關分析】

基於圖錶帶來的信息,從相關係數的角度分析失業率和失業時間之間的關係,在R中運行pearson相關係數的結果,unemploy(失業人口數量)和uempend(失業持續時間)的線性相關係數達到了0.8694063,說明這兩者高度正相關。而另外一組數據, PCE(個人消費支出)和psavert(個人儲蓄比率)為-0.8694063,高度負相關,這也符合宏觀經濟學裡的原理,收入等於消費+儲蓄,消費支出的增多會帶來個人儲蓄比例的下降,反之也成立。

【五、結論與建議】

美國國家經濟的興盛和衰敗和美國人民的生活水平息息相關。政府應該在金融危機到來之時,控制失業率,採取各種行動來復甦經濟。同時,以前的時間序列數據可以用來預測未來的經濟運行情況,這是數據分析給現實生活帶來的最大藝術。

逃~ :)


推薦閱讀:

柱形圖,百分比堆積柱形圖,簇狀柱形圖等圖表統統「一網打盡」!
【學習心法】一張圖了解數據分析/挖掘的精髓
大數據精準營銷|如何與用戶談一場不分手的戀愛?
Python數據分析之基情的擇天記
數據 | 沒錢沒資源,怎麼做調研(一)

TAG:R编程语言 | 数据分析 | 经济学 |