標籤:

《R語言實戰》第六章學習筆記

1.條形圖

1.1簡單條形圖

使用代碼 barplot(counts,main="Horizontal Bar Plot",xlab="Frequency",ylab="Improvement",horiz=TRUE)製造一條水平條形圖:

1.2堆砌條形圖和分組條形圖

如果 height 是一個矩陣而不是一個向量,則繪圖結果將是一幅堆砌條形圖或分組條形圖。若 beside=FALSE (默認值),則矩陣中的每一列都將生成圖中的一個條形,各列中的值將給出堆砌的「子條」的高度。若 beside=TRUE ,則矩陣中的每一列都表示一個分組,各列中的值將並列而不是堆砌。

堆砌條形圖:

分組條形圖:

1.3均值條形圖

條形圖並不一定要基於計數數據或頻率數據,可以使用數據整合函數並將結果傳遞barplot() 函數,來創建表示均值、中位數、標準差等的條形圖。

1.4條形圖的微調

將上述的水平條形圖做一些微調,首先是將y軸上的標籤旋轉,縮小字體大小,修改標籤文本,增加y邊界的大小:

原圖:

修改後:

1.5棘狀圖

棘狀圖對堆砌條形圖進行了重縮放,這樣每個條形的高度均為1,每一段的高度即表示比例。

2.餅圖

扇圖:

3.直方圖

可以使用如下函數創建直方圖:hist(x)

其中的 x 是一個由數據值組成的數值向量。參數 freq=FALSE 表示根據概率密度而不是頻數繪製圖形。參數 breaks 用於控制組的數量。在定義直方圖中的單元時,默認將生成等距切分。

4.核密度圖

plot(density(x))其中的 x 是一個數值型向量。

5.可比較的核密度圖

其中,顏色向量,這裡的 colfill 值為 c(2, 3, 4) 。然後通過 legend() 函數向圖形上添加一個圖例。第一個參數值 locator(1) 表示用滑鼠點擊想讓圖例出現的位置來互動式地放置這個圖例。第二個參數值則是由標籤組成的字元向量。第三個參數值使用向量 colfill 為cyl.f的每一個水平指定了一種顏色。

5.箱線圖

箱線圖(又稱盒須圖)通過繪製連續型變數的五數總括,即最小值、下四分位數(第25百分位數)、中位數(第50百分位數)、上四分位數(第75百分位數)以及最大值,描述了連續型變數的分布。

5.1 使用並列箱線圖進行跨組比較

箱線圖可以展示單個變數或分組變數。使用格式為:boxplot(formula, data=dataframe),其中的 formula 是一個公式, dataframe 代表提供數據的數據框(或列表)。一個示例公式為 y ~A ,這將為類別型變數 A 的每個值並列地生成數值型變數 y 的箱線圖。公式 y ~ A*B 則將為類別型變數 A 和 B 所有水平的兩兩組合生成數值型變數 y 的箱線圖。添加參數varwidth_=TRUE 將使箱線圖的寬度與其樣本大小的平方根成正比。參數horizontal=TRUE 可以反轉坐標軸的方向。

5.1.1使用並列箱線圖重新研究了四缸、六缸、八缸發動機對每加侖汽油行駛的英里數的影響

代碼中mpg ~ cyl,意味著生成關於y是mpg,x是cyl。

5.1.2箱線圖靈活多變,通過添加 notch=TRUE ,可以得到含凹槽的箱線圖。若兩個箱的凹槽互不重疊,則表明它們的中位數有顯著差異。

5.1.3多個分組因子繪製箱線圖

5.2 小提琴圖

vioplot() 函數的使用格式為:vioplot(x1, x2, ... , names=, col=)其中 x1, x2, ... 表示要繪製的一個或多個數值向量(將為每個向量繪製一幅小提琴圖)。參數names 是小提琴圖中標籤的字元向量,而 col 是一個為每幅小提琴圖指定顏色的向量。

小提琴圖基本上是核密度圖以鏡像方式在箱線圖上的疊加。在圖中,白點是中位數,黑色盒型的範圍是下四分位點到上四分位點,細黑線表示須。外部形狀即為核密度估計。

6. 點圖

dotchart(x, labels=)

其中的 x 是一個數值向量,而 labels 則是由每個點的標籤組成的向量。你可以通過添加參groups 來選定一個因子,用以指定 x 中元素的分組方式。如果這樣做,則參數 gcolor 可以控制不同組標籤的顏色, cex 可以控制標籤的大小。

分組、排序、著色後的點圖:

推薦閱讀:

初識數據分析
遊戲運營數據分析(測試期):用戶分層和留存分析
XGBoost調參技巧(二)Titanic實戰Top9%
我為什麼決定學習數據分析
華為P10與小米6誰更受用戶青睞

TAG:数据分析 |