ggplot2高階案例應用——美國家庭金融資產配置變化

今天瀏覽新聞,看到一個關於美國居民家庭金融資產配置的調查,主要介紹1974年~2016年美國居民和非居民部門家庭金融資產配置比例分布演變的數據。

數據顯示,在所統計的現金和活期存款、定期存款、養老基金、保險計劃、共同基金和貨幣基金中。

1974年,一個典型公民把8%的金融資產放在現金和活期存款,35%放在定期存款,0.1%放在貨幣基金,3%放在共同基金,47%放在養老金。到2016年,這些數字演變為2.5%、22%,2.7%、31%和53%。

在這43年中,活期存款的比重降低了5.5%,銀行存款的比重整體下降了8.5%,貨幣基金的比重超過了活期存款,共同基金和養老金合計增加了34%。

這是一個典型的時間點結構對比數據,我之前曾經用Excel做過一個類似場景的圖表,今天使用R語言重新演示此案例。

以下過程我將使用上述案例數據演示製作此類帶有連接帶的堆積柱形圖:

library("ggplot2")nlibrary("showtext")nlibrary("Cairo")nfont_add("myfzhzh","方正正粗黑簡體.TTF")n

#原始數據:

mydata<-data.frame(n Class=c("現金和活期存款","定期存款","貨幣基金","共同基金","養老基金"),n Y1974=c(8,35,0.1,3,47),n Y2016=c(2.5,22,2.7,31,53)n)nmydata$Class<-factor(mydata$Class,levels=c("現金和活期存款","定期存款","貨幣基金","共同基金","養老基金"),ordered=T)n

以上這種案例圖,中間的連接帶與兩側的柱形圖顏色系列是不同的,所以如果按照多邊形去構造,需要分成兩波來製作,第一波是含有數據信息的兩個柱形圖,第二波是中間的連接線,為了更好的設置間距,柱形圖和中間的鏈接線都是用ggplot2函數中的geom_rect()圖層進行構建。

geom_rect()的規則是根據每一個多邊形的邊界點進行形狀構建,所有我們需要獲取15個矩形塊中不重複的24個坐標點。

根據以上思路,先構造兩側柱形圖的數據源;

bar1<-data.frame(n Class=c("現金和活期存款","定期存款","貨幣基金","共同基金","養老基金"),n xmin=rep(0,5),n xmax=rep(5,5),n ymin=c(0,cumsum(mydata$Y1974)[1:4]),n ymax=cumsum(mydata$Y1974),n Year="Y1974",n )nbar2<-data.frame(n Class=c("現金和活期存款","定期存款","貨幣基金","共同基金","養老基金"),n xmin=rep(25,5),n xmax=rep(30,5),n ymin=c(0,cumsum(mydata$Y2016)[1:4]),n ymax=cumsum(mydata$Y2016),n Year="Y2016"n )n

mydata1<-rbind(bar1,bar2)nmydata1$Class<-factor(mydata1$Class,levels=c("現金和活期存款","定期存款","貨幣基金","共同基金","養老基金"),ordered=T)n

構造標籤:

mydata1$label_x=rep(c(2.5,27.5),each=5)nmydata1$label_y=mydata1$ymin+(mydata1$ymax-mydata1$ymin)/2nmydata1$value<-c(mydata$Y1974,mydata$Y2016)n

構造中間的連接帶數據源:

midrect<-data.frame(Class=mydata$Class)nmidrect$id<-1:nrow(midrect)nmidrect$ystart<-c(0,cumsum(mydata$Y2016[1:(nrow(mydata)-1)]))nmidrect$yend<-cumsum(mydata$Y2016)nmidrect$start<-bar1$yminnmidrect$end<-bar1$ymaxn

轉置並構造中間的連接帶單個多邊形四角坐標點:

midrect_data<-data.frame(t(midrect[,c("start","end","yend","ystart")]),stringsAsFactors=FALSE)nnames(midrect_data)<-midrect$Classnmidrect_data$order<-1:4n

將這些坐標點數據轉成長數據:

midrect_data_final<-gather(midrect_data,Class,lat,-order)nmidrect_data_final$long<-rep(c(5,5,25,25),5)nmidrect_data_final$Class<-factor(midrect_data_final$Class,levels=c("現金和活期存款","定期存款","貨幣基金","共同基金","養老基金"),ordered=T)n

#繪圖過程:

color<-c("#0579AD","#0899DA","#519F46","#A2D293","#C7C8CC")nCairoPNG(file="E:/微信公眾號/公眾號——數據小魔方/2017年9月/20170922/bump_bar.png",width_=1200,height=900)nshowtext.begin()nggplot()+ngeom_rect(data=mydata1,aes(xmin=xmin,xmax=xmax,ymin=ymin,ymax=ymax,fill=Class),colour="white")+ngeom_text(data=mydata1,aes(x=label_x,y=label_y,label=paste(value,"%")),family="myfzhzh",size=5,colour="white")+ngeom_text(data=NULL,aes(x=c(2.5,27.5),y=c(98,115),label=c(1974,2016)),size=10)+ngeom_polygon(data=midrect_data_final,aes(x=long,y=lat,fill=Class),colour="white")+nylim(0,115)+nguides(fill=guide_legend(title=NULL)) +nscale_fill_manual(values=color)+nlabs(title="美國居民和非營利部門的金融資產分布與社會融資成本n(1974年至2016年)",n caption="備註:金融資產數據來自於美聯儲發布的美國國家資產負債表年報,貸款利率數據來自世界銀行官網。"n )+ntheme_void(base_size=18,base_family="myfzhzh") %+replace%ntheme(nlegend.position=c(.25,.95),nlegend.direction ="horizontal",nplot.title=element_text(size=35,hjust=0),nplot.caption=element_text(size=20,hjust=0),nplot.margin=margin(10,0,10,0,unit="pt"),nlegend.text=element_text(size=20)n)nshowtext.end()ndev.off()n

Hellobi Live | 9月12日 R語言可視化在商務場景中的應用


推薦閱讀:

通過對周進行編號計算周環比(WOW)
[數據分析與可視化 1] - 圖表設計
DataHunter榮獲2017年度大數據行業優秀創新產品獎
ray的數據新聞學習日記(五):其實想成為數據新聞記者究竟需要學什麼?
DataHunter創始人程凱征:數據可視化的趨勢和應用

TAG:R编程语言 | 数据可视化 | 数据分析 |