手把手教你Tableau高級數據分析功能(附數據集)
本文共4000字,建議閱讀8分鐘。
本文藉助高級圖表創建計算深入研究數據以提取對數據的分析,並了解R如何與Tableau相互集成和使用。簡介
「查看數據。 顯示圖表。 講故事。 吸引觀眾。」
Tableau是當今數據科學和商業智能專業人員使用的最流行的數據可視化工具之一。 它使您能夠以交互和多彩的方式創建具有洞察力和影響力的可視化效果圖。
它的用途不僅僅是創建傳統的圖表和圖表。 您可以使用它來挖掘可操作的數據解析,這要歸功於它提供的大量功能和自定義。
以其易用性和簡單的功能而聞名,製作如下所示的富有洞察力的儀錶盤只需點擊幾下滑鼠:
在本文中,我們將看到一些超越拖放功能的高級圖表。 我們將創建計算以深入研究數據以提取對數據的分析。 我們還將看看R如何與Tableau相互集成和使用。
本文假定您掌握豐富的使用Tableau的知識,例如基本圖表形成,計算,參數等。如果您不這樣做,我會建議先參考以下文章,然後再返回此處:
- Tableau for Beginners - 簡化數據可視化
https://www.analyticsvidhya.com/blog/2017/07/data-visualisation-made-easy/
- 中級Tableau指南 - 適用於數據科學和商業智能專業人員
https://www.analyticsvidhya.com/blog/2018/01/tableau-for-intermediate-data-science/
目錄
1. 高級圖形 - 可視化超越「顯示我」
- 運動圖
- 凹凸圖
- 甜甜圈圖表
- 瀑布圖
- 帕累托圖
2. 在Tableau中引入R編程
1. 高級圖形 - 可視化超越Show Me
幾乎所有的Tableau用戶都知道各種基本圖形,例如介紹儀錶板中顯示的那些圖形。 這些圖表可以使用Tableau的「Show Me」功能輕鬆完成。 但由於這是一篇面向高級用戶的文章,因此我們將超越「Show Me」並探索需要額外計算的圖表。
首先,讓我們快速瀏覽一下我們將在接下來的幾節中做什麼。 以下是我們超市的銷售額和利潤的一些基本分析。 簡單的圖表可以達到與主板中的相同的目的,但我認為您會對這些圖表的宏偉感到興奮和激動。
(https://github.com/pavleenkaur/TableauTutorial-On-AnalyticsVidhya/blob/master/Sample-Superstore.xls/)
1.1動態圖表
在開始之前,先看看Hans Rosling的世界經濟圖表展示(https://www.gapminder.org/tools/#_chart-type=bubbles)。 點擊播放鍵,看到魔法在你面前展開。
有興趣自己做一個類似的圖表展示嗎? 不要擔心如何做這些動畫!你所看到的被稱為動態圖表。 使用此功能,您可以實時查看數據中的變化。
因此,我們首先下載可在此處找到的Superstore數據集(https://github.com/pavleenkaur/TableauTutorial-On-AnalyticsVidhya/blob/master/Sample-Superstore.xls)。
現在讓趨勢線如下圖所示對你來說應該很容易:
但是本節我們首先要學習的是如何使下面的趨勢線運動(gif動圖):
https://s3-ap-south-1.amazonaws.com/av-blog-media/wp-content/uploads/2017/08/23131759/2.gif
所以讓我們開始吧!
- 導入您的數據集,並創建上述趨勢圖。 我們的X軸是訂單日期(月份格式),銷售額和利潤是度量值。
- 您只需將「訂單日期」拖到「頁面」功能區,然後再次更改格式以與X軸匹配。
- 將標記類型從自動更改變更為圓形。
- 轉到「顯示歷史記錄」,然後選擇「追蹤」以查看趨勢變化。 瞧! 您的動態圖表已準備好啟動。
- 按箭頭按鈕查看動作,更改「顯示歷史」定製項,速度項等:
1.2凹凸圖
假設你想探索Superstore各個部門的銷售額(整整一年)。 其中一種方法是:
然而備選方案如下:
雖然折線圖能夠顯示每個細分部門之間的銷售差異,但凹凸圖(上圖)給出了更清晰和簡明的相同結果圖。
這些圖表通常用於了解多年來特定產品的受歡迎程度如何變化。
現在讓我們嘗試自己創建一個:
1)首先,我們需要考慮度量單位,根據這些度量單位我們對我們的測量維度進行排名。 這裡我們採取的度量單位是銷售量,測量維度是部門。
2)您需要計算模塊的幫助才能製作凹凸圖表。 所以快速創建一個如下所示的計算。 我們將對每個細分部門的銷售總額進行排名:
3)現在將「訂單日期」拖到列中並將格式更改為月。 在標記窗格中將「Segment」拖動到Marks Pane里的顏色。 最後將「Rank」拖到行。
4)在你現在可以看到的圖表中,排名是根據月份數量分配的。但是,我們需要他們在細分部門的基礎上。 因此,右鍵單擊行中的排名,然後轉到編輯表格計算。
5)由於我們希望使用細分部門計算,請將配置更改為:
您將獲得的圖表看起來不像儀錶板中的圖表,因為它缺少標籤。 讓我們在雙軸(Dual Axis)的幫助下快速修復:
6)再次將排名拖到行上並重複步驟4)和5)以得到:
您在Marks Pane中看到了Rank和Rank(2)嗎?我們將使用這些來創建帶圓圈的標籤。
7)要將上述內容轉換為雙軸圖表,請右鍵單擊第二個圖表的Rank軸並選擇雙軸。
8)在Marks Pane中,Rank或Rank(2),然後將標記類型更改為圓形而不是自動。
9)這裡的排名按降序排列。 要將其更改為升序,請右鍵單擊左側的Rank軸 - >編輯軸 - >反向比例。 對右邊的Rank軸重複同樣的操作。
10)最後,將「銷售額」拖放到標籤 - >快速表計算 - >總計百分比上,以獲得我們期望的凹凸圖。
1.3甜甜圈圖
圓環圖是初級圖的另一種表現形式。 坦率地說,它是一個中間有一個洞的餅圖,但它有助於更加強調各個細分市場,如下所示:
讓我們了解這個區別的不同之處。
1)我們將從一個簡單的餅圖開始描繪每個細分部門的利潤:
2)要創建餅圖的雙軸,將measure的number of records拖動到rows兩次。 通過右鍵點擊它們並選擇最小值代替默認總和來更改每個綠色藥丸的度量:
3)選擇Marks Pane中的第二個餅圖,並將其中的每個度量/維度拖出。 減小圖表的大小,並將顏色更改為白色(儘管此處未顯示):
4)要創建雙軸,右鍵單擊第二個餅圖的Y軸,然後選擇雙軸,以獲得圖表。
現在你必須明白,以上所有圖表雖然在最終外觀上都不相同,但都是從「顯示我」功能的核心圖表中獲得的。 但是等一下,它還沒有結束。 我有更多要展示給你。
1.4瀑布圖
瀑布圖的名稱來自於其類似的方向和流動。在這裡,我們繪製了Superstore多年來的運行銷售情況,您可以在2013年中和2014年初看到兩個小紅色區域,表明銷售額實際下降了,並且還有多少。
這意味著這些圖表被用來分析一個度量的累積效應,並且看它是如何作為一個整體增加和減少的。 為了更好地理解這一點,讓我們想像它。
瀑布圖是折線圖的衍生物,因此我們將從該圖開始:
注意:這裡的X軸是訂單日期(以月 - 年格式並轉換為離散型), Y軸是利潤
1)右鍵單擊綠色的Profit Pill,然後選擇Quick Table Calculation - > Running Total。
2)將標記類型從自動更改為甘特條:
3)創建一個名為NegProfit的計算欄位:
4)將這個NegProfit拖到Marks框架中的Size上,得到:
計算的欄位用於填寫甘特圖中的空間。 利潤中的負值將向下延伸,而正值則會向上延伸。
圖表中每個小條的長度表示利潤從一個月到下一個月的變化量。
5)最後,將利潤拖到顏色:
6)您可以繼續前進,將顏色更改為兩步變化,並清楚地查看上升和下降:
您將獲得的圖表也可以非常容易地以條形圖的形式表示。 請注意,我在這裡將顏色分置,以使其凸顯出來:
但我相信你會同意使用瀑布圖是一種更直觀的表示數據的方式,特別是看看多年來度量的變化,例如銷售和利潤。
1.5帕累托圖
下面我已經將一個流行的80-20數據分析原理可視化出來。 如果你還沒有聽說過它,讓我試著用例子來解釋它。我們會經常觀察到超市的大部分銷售來自少數幾種產品。
人們不能指望麵包和雞蛋與蛋糕有相同的銷售數字,對吧? 這正式被稱為80-20原則,這意味著80%的銷售額來自20%的產品。 在我們的超市裡,這個原則可以在下面的圖表中看到,其中大部分銷售是由電話和椅子生成的:
這是一種相當流行的可視化,帕累托圖通常用於風險管理,以確定對項目造成最大負面影響的最常見問題; 但正如我們將看到的,它也可以有其他應用程序。
讓我們看看它是如何完成的:
1)我們將從下面的圖表開始。 這具有作為X軸的子類別和作為Y軸的銷售。 圖表按降序排列:
2)接下來,將銷售額拖放到圖表上,直到您看到綠色突出顯示的條形和最右邊的虛線軸:
3)在此處下降銷售以創建雙軸。 將第一個圖表的標記類型更改為條形圖,將第二個圖表更改為直線,最終得到:
4)右鍵單擊第二個綠色銷售藥丸,並為其添加運行總計算:
5)剩下的只是改變配色方案,並且您的帕累托圖表已準備就緒!
2.在Tableau中引入R編程
我喜歡Tableau的一個原因是,它不僅僅是一個工具,而且意味著只需拖放操作即可創建漂亮的圖形。隨著2013年Tableau 8.1的發布,出現了許多新的功能。
R編程的引入使得更豐富和動態的可視化得以實現,這是主要特徵之一。 R編程可與Tableau一起用於聚類、預測等技術。
我想通過Clustering開始對R和Tableau的探索,所以我使用了超流行的Iris Dataset(https://github.com/pavleenkaur/TableauTutorial-On-AnalyticsVidhya/blob/master/iris.csv)。 它包含不同的功能來區分3種類型的flowers,即Virginica,Setosa和Versicolor。 正如你在下面的圖片中看到的那樣,R編程整合很容易創建這三種物種的集群:
如果你有興趣,可進行一下操作。首先,深入了解基礎知識和安裝過程,然後深入研究可視化問題!
以下描述了Tableau和R之間的控制流程,以實現此集成:
R腳本作為表計算寫入Tableau,並發送到R的R服務包。在此模塊執行必要的計算並將結果返回給Tableau。
注意:為了正確理解並使用此功能,您必須具備R及其各種語法的一些知識。 對於相同的你可以參考以下教程:
Learn Data Science in R from scratch:
https://www.analyticsvidhya.com/blog/2016/02/complete-tutorial-learn-data-science-scratch/
現在讓我們看看這個集成的步驟:
1)安裝R (https://cran.r-project.org)
2)安裝Rserve軟體包
在R命令行中運行以下命令:
3)配置Tableau以在R中運行
打開Tableau - >幫助 - >設置和性能 - >管理R /外部連接。 使用以下默認信息填寫欄位並選擇測試連接:
所以,現在你已經準備好了適當的配料,讓我們開始吧!
如上圖所示,您可以使用Tableau的表計算與R進行通信:
如果您向下滾動功能列表,您將遇到以下四種情況:
當計算區域中包含這些函數時,Tableau會自動理解該腳本適用於R.
我希望你最初興奮的製作集群仍然存在! 我們繼續。
1)從這裡下載Iris數據集。
https://github.com/pavleenkaur/TableauTutorial-On-AnalyticsVidhya/blob/master/iris.csv
2)在Tableau中導入數據集,並製作下圖:
3)在這裡,您可以通過不同的度量獲得總和。要獲得離散值,請轉至分析,並取消選中聚合度量,以獲取:
4)最後,要形成群集,請在標記窗格中將類維度拖到顏色上:
我們上面有一個散點圖,它顯示了分為3個不同群集的數據點群集。
現在讓我們嘗試與R一樣,並比較我們將得到的兩個可視化。 我們將使用最常見的聚類演算法K-Means:
1)從與上面第2點相同的散點圖開始。
2)創建一個新的計算欄位並填寫以下內容:
為了清楚起見,上述計算是:
3)最後,將新形成的Field Cluster拖放到Marks Pane中的Color,以使您的集群準備就緒!
雖然有一些重疊,但這兩個可視化確實看起來相當準確。
這是將R與Tableau集成的潛力的一個小要點。 它的應用程序是無限的,我相信你一定已經開始考慮可以與之交互的不同方式。
結束筆記
如果我說這就是Tableau的全部,這可能稍顯幼稚。隨著新版本的推出,新功能也將隨之推出。
不僅如此,人們總是在試驗和探索Tableau,並提出新的視覺效果。在很多博客里,人們也發布了其數據實驗。可以搜索一下。
您還可以在Tableau官方圖庫頁面上查找每周更新的可視化圖像(https://public.tableau.com/en-us/s/gallery)。 建議你繼續參考這些帖子,創建自己的視覺效果,並與社區分享。
作為一名數據探索者,保持創意並保持最佳狀態!
原文鏈接:https://www.analyticsvidhya.com/blog/2018/03/tableau-for-advanced-users-easy-expertise-in-data-visualisation/
原文標題:A Step-by-Step Guide to learn Advanced Tableau – for Data Science and Business Intelligence Professionals
作者:Pavleen Kaur
翻譯:李清揚
校對:盧苗苗
推薦閱讀:
※Viz teardown | Race to Alaska
※Tableau 更新 | 10.3 vs 10.4 之格式設置
※Tableau Check list | 表計算
※NBA賽事分析
※Tableau10分鐘上手操作Kano模型