不同需求下可視化圖形選擇(翻譯)
原文鏈接:不同需求下可視化圖形選擇(翻譯)
微信公眾號:機器學習養成記 搜索添加微信公眾號:chenchenwings
機器學習工程師George Seif的文章《5 Quick and Easy Data Visualizations in Python with Code》部分內容翻譯。重點說明了散點圖、線圖、直方圖、條形圖和箱型圖的適用條件。
前言
數據可視化是數據科學家工作的重要組成部分。在項目開始階段,人們需要做探索性數據分析(EDA)來獲得數據的深層信息。強大的可視化功能可以幫助人們更簡潔清晰的了解數據,尤其是大量的、多維度的數據。在項目快結束時,用一種直觀簡單的方法,讓不具備很強專業知識的人明白相應結果,也是非常重要的。不同的分析與展示目的,需要選擇不同的可視化圖形,下圖展示了不同的需求,建議選擇的可視化圖形。
散點圖
散點圖可以直觀展現原始點的分布和兩個變數間的關係,並可以通過標記不同顏色,觀察不同類別數據的關係,如下圖:
通過對一些參數進行設置,如point size,我們可以觀察三個變數間的關係,如下圖:
線圖
線圖可以表示兩個具有相關性的變數,一個變數隨另一個變數變化的情況。從下圖,我們可以清楚地看到,所有專業的百分比隨著時間的推移有很大的變化。如果用散點圖來表示這類問題,圖像會非常混亂,很難理解數據的變化趨勢。線圖在這種情況下是完美的,因為它們快速地展現了這兩個變數的協方差(百分比和時間)。
直方圖
直方圖可以有效的展現數據點的分布情況。下圖為IQ的分布直方圖,可以明顯看出,分布集中在中央區域,並且我們可以清楚的了解IQ分布的中值,同樣,還可以看出他是服從高斯分布的。直方圖可以清楚的看到每個區間內頻數的差異。使用直方圖可以幫助我們看到「更大的圖景」,因為如果我們使用散點圖而不是直方圖,那麼在可視化中可能會有很多噪音,很難看清到底發生了什麼。
條形圖
當你試圖把只有少數(通常<10個)類別的分類數據可視化時,條形圖最有效。如果類別太多,條形圖會很雜亂以致於理解困難。條形圖很容易根據各個條形觀察出不同類別數據的差異,不同類別的數據很容易區分並且能設定不同的顏色。條形圖分為三種:普通條形圖,分組條形圖,和堆積條形圖。分組條形圖可用來比較多重分類變數,堆積條形圖可用來反映某一變數上,不同類別的組成情況。三種條形圖的樣式可依次參見下圖:
箱型圖
之前提到的直方圖可以展示數據的分布情況,但如果我們需要更詳細的分布信息時,就要用到箱型圖。箱型的上下兩條邊分別表示四分之一和四分之三分位點,箱內的線表示中值,虛線條上的條線從盒中伸出以顯示數據的範圍。
推薦文章:
《無問西東》豆瓣短評分析
《無問西東》豆瓣短評分析【二】
k折交叉驗證(R語言)
聚類(二):k-means演算法(R&python)
小案例(一):商業街抽獎
小案例(二):麵包是不是變輕了
小案例(三):調查問卷
小案例(四):銷售額下滑
微信公眾號:機器學習養成記 搜索添加微信公眾號:chenchenwings
http://weixin.qq.com/r/CEjawvrE_aeGrb6h9x0a (二維碼自動識別)
掃描二維碼,關注我們。
如需轉載,請在開篇顯著位置註明作者和出處,並在文末放置機器學習養成記二維碼和添加原文鏈接。
快來關注我們吧!
推薦閱讀:
※明略數據的2018「行星計劃」是啥?
※用【指數加權平均】構造時間序列問題的特徵
※了解一點模型部署與上線
※《Python數據挖掘》筆記(七) 自動化文本摘要
※Python 數據分析(五):數據的處理