數據分析師如何用Tableau快速作出好看的圖表?

俗話說的好,

數據分析師有三寶:

SQL,Excel,PPT

不過,拔尖的數據分析師,

和普通數據分析師的區別

就差了一個Tableau!

素不素很想打優達菌呀~

我承認,這麼說是有點標題黨了,

但不可否認,

Tableau絕逼是目前數據分析領域的網紅!

如果你還不知道它,

或者還沒上手,

那要好好反思為啥自己老是被賣片的盯上了~

由於界面美觀、易於操作,Tableau 受到越來越多的親睞,無論是大到 Facebook、Airbnb 這樣頂級公司,還是像國內 Teambition 這樣的創業團隊,都能看到它的身影。如果你在知乎上關注了 Facebook 鄒昕大神的話,你也一定看過他關於「知乎大 V 是如何成為大 V 的?」的回答,整個分析就是用 Tableau 完成的。

Tableau 也成了檢驗一名數據分析師薪資水平的最新標準,隨便在招聘網站一查,都會看到這條要求:熟悉常用的數據統計和分析方法,熟練使用SQL,Excel,會使用 Tableau 的優先。

現實是不是很殘酷?不怕,你只需要學會了,就能領先一大步!

目前 Tableau 2017 年的可視化大賽正在進行中,上海站的比賽剛剛結束(優達菌曾邀請去年的上海站冠軍紀楊老師來做分享,這次就以今年冠軍 Young Lin 的作品「Chasing China Dream(圓夢中國)」為案例,用 R(ggplot2) 為輔助,和大家展示下 Tableau 在可視化方面的過人之處吧~

第一步:數據導入

本次可視化大賽數據格式為 excel,在 R 中我們借用 readxl 導入 excel 文件還算方便,但由於文件中大量欄位是中文,如果你的系統環境是英文的話,很有可能會出現亂碼的情況,這給數據的導入帶來一些麻煩。如果你的R也遇到出現亂碼的情況,可以在 R Console 中輸入 Sys.setlocale("LC_ALL", en_US.UTF-8) 進行編碼重置,並點擊 File -> Reopen With Encoding。

相對來說,Tableau 的數據導入順利的多。

Tableau 自身支持的文件格式有很多,包括:Excel、Text file (csv, tsv)、JSON 等等,也包括各種 Server。最重要的是,Tableau 對中文的支持非常不錯,可以免去數據分析師很多不必要的麻煩。(特別是寫 Python 的同學,一定懂我在說什麼吧!)

模仿1:模仿投資額與產業的關係圖

原圖解讀

這是 Young Lin 的第1張圖表,展現的是投資行業與投資金額的關係。這張圖表分為兩部分,首先是左上角的 Treemap,不同的方塊代表不同的投資行業,方塊的大小代表投資金額的多少。右下角是投資金額和時間的折線圖,與普通折線圖不同的是,在每一個折線的點上,都有一個餅圖呈現不同行業的投資金額比例。

當滑鼠移動到對應的數據點時(無論是左上角的 Treemap 還是右下角的餅圖或折線圖),都會有對應數據的動態交互顯現。

值得一提的是,該圖中不同行業的顏色選擇了漸進色,這點我覺得並不妥當。漸進色常用來表示有層級關係的分類(比如 1~10 的打分,比賽的名次),對於不同的行業名稱本身並不存在這樣的層級關係。但為方便對比,在用 R 作圖時仍採用該漸進色。

圖表復現

接下去我們來用 R 復現。由於 ggplot2 原生不支持 treemap,因此在這裡使用第三方工具 treemapify 來繪製。(剛開始就要藉助第三方工具,哭。。。)

(點擊放大查看)

treemapify 作 treemap 圖非常方便,兩行代碼就可以搞定,但是默認的視圖配色非常難看,且顏色越深反而代表投資金額越少,與直覺不符。因此,在該圖的基礎上繼續調整。

(點擊放大查看)

調整之後,顏色和圖例好看了一些,但總覺得沒有 Tableau 的配色好看(配色對直男來說真是說不出的痛)。另外,treemap 似乎也沒有非常方便地在方塊中呈現文字的方式。

接著再來看折線圖。在 R 中很難方便地作出折線圖和餅圖的結合(在此再次感嘆一下 Tableau 豐富的可視化表現形式,看上去就覺得很高級),因此退而求其次來畫堆積柱狀圖。

(點擊放大查看)

我們可以看到,堆積柱狀圖基本展示了 Tableau 折線+餅圖所呈現的信息,柱狀圖的高度代表每年的總投資額,色塊的長度代表每個分類的投資額。

但由於分類過多,將柱狀圖的顏色和圖例的文字聯繫起來有點困難。而在這個方面,Tableau 的優勢更加體現出來,將滑鼠移至對應的圖形上就可以彈出對應的行業分類和金額,非常方便 。

模仿2:投資輪次、投資機構和金額的關係圖

原圖解讀

這張圖所展示的是在不同的投資輪次中,不同投資機構的投資佔比。左右兩邊呈現的形式類似,左邊是種子輪到E輪的數據,右邊是F輪到 M&A 的數據(也包含 Others)。左上角還有一個下拉框篩選不同的投資行業,柱狀圖會根據不同的篩選而變化。

圖表復現

在原始的 excel 表格中,投資輪次並沒有被分組整合,因此在作圖之前我們需要基於以下關係被數據清洗。

  • 種子輪:種子輪

  • 天使輪:天使輪

  • A輪:『A+輪』, 『A輪』, 『Pre-A輪』

  • B輪:『B+輪』, 『B輪』

  • C輪:C輪

  • D輪:D輪

  • E輪:E輪

在 R 中,我們使用的方式是嵌套 ifelse 判斷。而在 Tableau 中,數據重命名優勢馬上可以體現出來,簡單的拖拽即可實現,再多的分組都可以輕鬆搞定。

以下是 R 實現的代碼,行數略微有些多。

我們用 R 大體上還原了這張關係圖,但在細節上還有一些不足。比如,Tableau 在柱狀圖上的文字可以根據背景顏色的深淺自動變換成黑字或者白字,來讓讀者看起來更清晰。

另外,它也隱藏了一些擁擠色塊上的文字,使圖表顯得更加整潔。這兩點雖然是細節,但在 R 中處理起來比較費勁。另外一點,Tableau 里可以非常方便地設置下拉框來篩選展示的數據,這點在 R 中雖然可以做,但需要使用 Shiny 的功能,對大部分分析師來說會比較麻煩。

模仿3:投資領域數量與投資回報的關係圖

原圖解讀

這張圖特別是左側的部分是所有圖表中我最喜歡的一張,你可能也已經發現,在左側的面積圖中間空白處放置了說明標籤,方便整潔地展現了不同投資機構投資的領域數量,有限的空間呈現了足夠多的信息,但又不會覺得冗雜。

在 R 中雖然可以同樣作出面積圖,但中間內嵌標籤卻非常困難。在這一方面 Tableau 完勝!

總結

對於數據分析師來說

Tableau 的優勢:

  • 操作簡便,不需要寫代碼,簡單地拖拽即可實現

  • 配色美觀,圖表樣式多樣,不用再頭痛用什麼顏色啦

  • 圖表交互性好,特別是聯動功能,可以最大程度地提升可視化的表現力

R 的優勢:

  • 比較全能,分析的整個流程都可以做(當然也需要寫代碼)

  • 可以通過 notebook 記錄整個分析的流程,方便內部存檔和交流

  • 數據量大仍然有辦法處理

Tableau 在可視化方面相對於 R 擁有很大的優勢,特別適合互聯網公司較快地工作節奏,可以在很短的時間內做出美觀易用的圖表。當然,R 雖然上手比 Tableau 更難一些,但它的能力更加全面,也能應對數據可視化之外的許多問題。

總之,如果你需要通過數據可視化將你的成果展現給老闆或同事的話,Tableau 將會是你的第一選擇。

最後說一句:

Life is short.

Use Tableau.


推薦閱讀:

入門機器學習到底需要多少數學知識
Tableau 冠軍推薦的10本數據分析圖書,果斷收藏!
你給我這麼多報表,讓我如何是好
2017上半年總結:數據分析轉行成功
三個月內如何快速學會辦公三大件 excel word ppt ?

TAG:数据分析 | TABLEAU | 硅谷 |