Seaborn入門系列(三)——boxplot和violinplot
微信公眾號:iPythonistas
如有問題或建議,請公眾號留言
Seaborn是基於matplotlib的Python可視化庫。 它提供了一個高級界面來繪製有吸引力的統計圖形。Seaborn其實是在matplotlib的基礎上進行了更高級的API封裝,從而使得作圖更加容易,不需要經過大量的調整就能使你的圖變得精緻。但應強調的是,應該把Seaborn視為matplotlib的補充,而不是替代物。
註:所有代碼均在IPython notebook中實現
boxplot
箱形圖(Box-plot)又稱為盒須圖、盒式圖或箱線圖,是一種用作顯示一組數據分散情況資料的統計圖。它能顯示出一組數據的最大值、最小值、中位數及上下四分位數。因形狀如箱子而得名。在各種領域也經常被使用,常見於品質管理。圖解如下:
接下來我們介紹Seaborn中的箱型圖的具體實現方法,這是boxplot的API:
seaborn.boxplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, orient=None, color=None, palette=None, saturation=0.75, width_=0.8, dodge=True, fliersize=5, linewidth_=None, whis=1.5, notch=False, ax=None, **kwargs)
我們從具體的實例出發
%matplotlib inlineimport pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltplt.rc("font",family="SimHei",size="15") #解決中文亂碼問題
本文所使用的數據集是鳶尾花卉數據集
data.head(6)
x,y:dataframe中的列名(str)或者矢量數據
data:dataframe或者數組
sns.boxplot(x=data["pw"],data=data)
palette:調色板,控制圖像的色調
fig,axes=plt.subplots(1,2,sharey=True)sns.boxplot(x="catagory",y="pw",data=data,ax=axes[0]) #左圖sns.boxplot(x="catagory",y="pw",data=data,palette="Set3",ax=axes[1]) #右圖
hue(str):dataframe的列名,按照列名中的值分類形成分類的條形圖
sns.boxplot(x="color",y="pl",data=data,hue="catagory",palette="Set3")
order, hue_order (lists of strings):用於控制條形圖的順序
sns.boxplot(x="catagory",y="pw",data=data,palette="Set3",order=[2,1,0])
orient:"v"|"h" 用於控制圖像使水平還是豎直顯示(這通常是從輸入變數的dtype推斷出來的,此參數一般當不傳入x、y,只傳入data的時候使用)
fig,axes=plt.subplots(2,1)sns.boxplot(data=data,orient="v",palette="Set3",ax=axes[0]) #豎直顯示sns.boxplot(data=data,orient="h",palette="Set3",ax=axes[1]) #水平顯示
fliersize:float,用於指示離群值觀察的標記大小
fig,axes=plt.subplots(1,2)sns.boxplot(x="color",y="pl",data=data,ax=axes[0]) #fliersize默認為5sns.boxplot(x="color",y="pl",data=data,fliersize=20,ax=axes[1])
whis:確定離群值的上下界(IQR超過低和高四分位數的比例),此範圍之外的點將被識別為異常值。IQR指的是上下四分位的差值。
fig,axes=plt.subplots(1,2)sns.boxplot(x="color",y="pl",data=data,whis=1,ax=axes[0]) #左圖sns.boxplot(x="color",y="pl",data=data,whis=2,ax=axes[1]) #右圖
width:float,控制箱型圖的寬度
fig,axes=plt.subplots(1,2)sns.boxplot(x="color",y="pl",data=data,width_=0.3,ax=axes[0]) #左圖sns.boxplot(x="color",y="pl",data=data,width_=0.8,ax=axes[1]) #右圖
violinplot
violinplot與boxplot扮演類似的角色,它顯示了定量數據在一個(或多個)分類變數的多個層次上的分布,這些分布可以進行比較。不像箱形圖中所有繪圖組件都對應於實際數據點,小提琴繪圖以基礎分布的核密度估計為特徵。具體用法如下:
seaborn.violinplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, bw=scott, cut=2, scale=area, scale_hue=True, gridsize=100, width_=0.8, inner=box, split=False, dodge=True, orient=None, linewidth_=None, color=None, palette=None, saturation=0.75, ax=None, **kwargs)
實例所用的數據集如下:
data.head(6)
在這裡就不再介紹x,y,hue,data,order,hue_order,palette參數的用法,這些參數的用法和之前介紹的圖形的用法是一樣的,如有需要可以查看之前的內容。
先來畫一個小提琴圖:
sns.violinplot(x="gender",y="age",data=data)
split:將split設置為true則繪製分拆的violinplot以比較經過hue拆分後的兩個量:
fig,axes=plt.subplots(2,1) ax=sns.violinplot(x="color",y="age",data=data,hue="smoker",split=True,ax=axes[0]) #上圖,拆分後的圖ax=sns.violinplot(x="color",y="age",data=data,hue="smoker",ax=axes[1]) #下圖
scale_hue:bool,當使用色調變數(hue參數)嵌套小提琴時,此參數確定縮放是在主要分組變數(scale_hue = true)的每個級別內還是在圖上的所有小提琴(scale_hue = false)內計算出來的。
fig,axes=plt.subplots(2,1)ax=sns.violinplot(x="color",y="age",data=data,hue="smoker",split=True,scale_hue=False,ax=axes[0]) #上圖ax=sns.violinplot(x="color",y="age",data=data,hue="smoker",split=True,scale_hue=True,ax=axes[1]) #下圖
orient:"v"|"h" 用於控制圖像使水平還是豎直顯示(這通常是從輸入變數的dtype推斷出來的,此參數一般當不傳入x、y,只傳入data的時候使用)
fig,axes=plt.subplots(2,1)sns.violinplot(data=data[["height","weight","age"]],orient="v",ax=axes[0]) #上圖sns.violinplot(data=data[["height","weight","age"]],orient="h",ax=axes[1]) #下圖
inner:控制violinplot內部數據點的表示,有「box」, 「quartile」, 「point」, 「stick」四種方式。
fig,axes=plt.subplots(2,2)sns.violinplot(x="color",y="age",data=data,inner="box",ax=axes[0,0]) #鋼琴圖內顯示箱型圖(左上)sns.violinplot(x="color",y="age",data=data,inner="quartile",ax=axes[0,1]) #鋼琴圖內顯示四分位數線(右上)sns.violinplot(x="color",y="age",data=data,inner="point",ax=axes[1,0]) #鋼琴圖內顯示具體數據點(左下)sns.violinplot(x="color",y="age",data=data,inner="stick",ax=axes[1,1]) #鋼琴圖內顯示具體數據棒(右下)
scale:該參數用於縮放每把小提琴的寬度,有「area」, 「count」, 「width」三種方式
fig,axes=plt.subplots(3,1)sns.violinplot(x="color",y="age",data=data,scale="area",ax=axes[0]) #如果為"area",每把小提琴將有相同的面積(上圖)sns.violinplot(x="color",y="age",data=data,scale="count",ax=axes[1]) #如果為"count",小提琴的寬度將根據該小組中觀察的數量來縮放(中圖)sns.violinplot(x="color",y="age",data=data,scale="width",ax=axes[2]) #如果為"age",每把小提琴將有相同的寬度(下圖)
cut:float,距離,以帶寬大小為單位,以控制小提琴圖外殼延伸超過內部極端數據點的密度。設置為0以將小提琴範圍限制在觀察數據的範圍內(即,在ggplot中具有與trim = true相同的效果)
fig,axes=plt.subplots(2,1)sns.violinplot(x="age",y="gender",data=data,ax=axes[0]) #上圖sns.violinplot(x="age",y="gender",data=data,cut=0,ax=axes[1]) #下圖
width:float,控制鋼琴圖的寬度(比例)
fig,axes=plt.subplots(2,1)sns.violinplot(x="color",y="age",data=data,ax=axes[0],width_=0.5) #上圖sns.violinplot(x="color",y="age",data=data,ax=axes[1],width_=0.9) #下圖
這已經是Seaborn入門系列的第三篇文章了,相信大家已經大概了解Seaborn的作圖過程,也可以體會到用Seaborn作圖相比於matplotlib更加簡單。以上內容是我結合官方文檔和自己的一點理解寫成的,有什麼錯誤大家可以指出來並提提意見,共同交流、進步,也希望我寫的這些能夠給閱讀完本文的你或或少的幫助!
推薦閱讀:
※Python3.5.1(64位)安裝beautifulsoup4.4.1不成功怎麼回事?
※Python3網頁抓取Non-BMP character not supported in Tk怎麼解決?
※據說Python中tuple的速度比list快,如果tuple中包含有list元素,tuple是如何保持比list快的?
※Python 3.3 中 input() 返回值類型是什麼?
※新手遇到笨辦法學python第13題?