Tableau!為你轉身為你爆燈!為你打call日夜不分!

不知道看完大哥」如何成為數據分析師「的毒雞湯回答,有多少孩子已經默默放棄了治療...

量子數據:如何快速成為數據分析師?

今天,我想做一名善良的大哥,只安利三門課而已。也許成為數據分析師的道路還長途漫漫,但你可以先在Tableau可視化方面成長為一名小磚家。三門重磅級Tableau課程,包你從入門到放飛自我!

三門分別是,我說過八百萬遍的Coursera杜克大學的Tableau,和最近udemy上挖掘出來的Tableau基礎和進階課。

  • Coursera | Data Visualization and Communication with Tableau
  • Tableau 10 A-Z: Hands-On Tableau Training For Data Science!
  • Tableau 10 Advanced Training: Master Tableau in Data Science

杜克大學的Tableau(下面簡稱女神課),是氣質女神Dr. Jana Schaich Borg (斯坦福Neuroscience博士畢業)教的。

Udemy的兩門Tableau簡稱男神課,老師是澳洲小哥Kirill Eremenko~ 他是一個數據培訓網站(Super Data Science)的創始人兼CEO,在Udemy上有大量超高評價爆款課程。

比如說,下面這門大哥極力安利,史上對小白最友好的一門Machine Learning,也是小哥教的。小哥的特色就是,說話溫柔,條理清晰,step-by-step教學,對小白的關懷做到了極致...

強烈建議這三門課按照順序來上,女神課的教學從頭到尾就用一個工資數據集,跟女神從頭到尾練下來,對Tableau的功能會有個全面深刻的理解。學完這門課後,Tableau基本能達到中級偏上的水平。

最最重要的是,Coursera的課不僅旁聽免費,杜克女神還贈送土豪大彩蛋啊!!!至於彩蛋內容是什麼,大家自己去上課~

這門課的總結,可以看我寫的系列blog,第一篇鏈接在下面,剩下的自己在專欄里翻~

量子數據:Tableau初遇 | 外國數據猿在美帝的年薪有多少??

zhuanlan.zhihu.com圖標

接下來就是補細節,全面深化理解Tableau了!Udemy的男神課,7.5+9=16.5個小時的視頻教學,可謂非常全面非常良心!

*關於價格,當時我是兩門課打包20刀買的。

*所以我不是udemy的托兒,不是啊,真的不是啊...

如果有女神課的基礎,男神課的基礎課前半部分可以飛快地刷過。後半部分還是有蠻多女神課里沒有細講的亮點:

合併數據 (Joining & Blending Data)

Tableau的合併數據功能非常強大,不同類型的數據文件都可以在導入Tableau後進行join/blend。男神在這塊也講得非常細。

雙軸圖(Dual Axis Chart)

像下面這張雙軸圖,表現的就是三個商品類別每個月銷售情況和銷售預期的對比。

下面這張圖,表現的是技術類商品的真實銷售與預期銷售情況,下面的條形圖是由真實銷售減去目標得來,通過正負和顏色變化,可以更直觀地看出每個月是否達到了銷售目標。

計算 (Calculations)

剛認識Tableau的時候,以為拖拖+拉拉就是仙女最大的特色了,真是大大冒犯了仙女殿下... 其實仙女的計算功能(table calculation + calculation field)非常強大,非常實用啊!但計算也是Tableau中最難掌握的一部分了,要特別注意,是在數據的哪一個level進行運算...

基礎課中的計算內容不太多,但在進階課中,男神有非常非常詳細的解釋。

數據準備

Tableau的數據清理功能比較有限,但有些功能還是不錯滴~

// 透視表(Pivot)

官方文檔:對數據進行透視(從列到行)

有些原數據的格式不方便用於分析,需要要pivot一下做些改變。

選中年份那幾列,右鍵創建透視表:

Tableau中一鍵達成下面效果:

// 拆分欄位(Split)

官方文檔:將一個欄位拆分為多個欄位

比如說,下面Region一列里,有好些值是「XX,XX&XX」這樣的格式,看著就非常煩躁,也不利於我們之後的分析。

Tableau可以輕鬆根據符號拆分,你也可以自定義怎麼拆。

// 數據解釋器(Data Interpreter)

官方文檔:使用數據解釋器清理您的數據

有些時候,你的原數據表格比較髒亂,像下圖 一樣,開頭有空白行。

導入Tableau的時候,仙女就會不太高興。

仙女有一個自帶叫做Data Interpreter的功能,會盡量自動移除無關信息,盡量識別列名等有用信息。

至於自動識別得好不好,也要看仙女的心情。

所以,還是溫馨提醒大家,表格要先整乾淨利落了,再呈給仙女!

聚類分析(Clustering)

Tableau的主打功能不是分析,但作為一名顏值與實力並存的仙女,還是自帶一些好用又實用的分析功能,比如說,聚類分析!、

下圖中的150個點代表一家連鎖乾洗店品牌在150個城市的150家店,橫軸是市場營銷花銷,縱軸是收入。

在Tableau中,只需要輕輕一拖(把分析欄中的Cluster拖入散點圖),兩個根據k-means演算法生成的Cluster就誕生了,把150家店分成了兩類(根據各店的市場營銷花費和收入)。

除了市場營銷成本和收入,乾洗店老闆當然還要考慮每家店所在地的人口~

把Population的數據加進來以後,Tableau將150家店重新分成了3組(根據k-means演算法,Tableau計算的k最佳取值為3)。

此處應該是一個三維空間圖(有三個變數:營銷成本+營業收入+當地人口),大家自行想像一下~ 有些點在下面平面圖上看似重合,其實在三維空間上並沒有。

我們可以將分好的這三個組的信息保存下來,在地圖上看這三個cluster的分布。

趨勢線(Trend Line)

官方文檔:添加和編輯趨勢線 w3cschool文檔:Tableau 趨勢線

Tableau中自帶四種趨勢線模型:線性、對數、指數和多項式。但Tableau只能carry最最簡單的模型:一個自變數+一個因變數...

下面以線性舉例:我們可以在上面的視圖中加入趨勢線,用來研究各組營銷成本和營業收入的關係。在打廣告上撒錢,到底值不值得嘞?

只有藍組的線性回歸模型是significant,p-value小於0.01。公式告訴我們,營銷上每多投入一塊錢,收入上就會預計多7.3塊。

學到這裡,你可以照一下鏡子,再決定是否要繼續......

如果你摸了摸發涼的頭頂,依然義無反顧,不吃雞不回頭,那就深fu吸,高能,預警,Tableau終極大法來了!


男神的進階課還是有一定難度的,包含五大部分:

  1. Groups and Sets
  2. Advanced Table Calculations
  3. Advanced Data Prep + Analytics
  4. Creating Animations
  5. Level of Detail Calculations (LOD)

五個部分相互獨立,用了五個數據集來闡述,每個部分則包含10-15個小視頻。

Groups and Sets

虛擬的故事背景是,有一個土豪爸爸投資公司要從1000家創業公司中選取幾家來投資,需要數據分析師幫助他們決策。選擇創業公司的標準是高收入、低支出和增長率高。

下面這張酷炫的散點圖涉及到的Tableau姿勢有:

// 創建動態集(Dynamic Set)

// 通過參數控制集(Controlling Sets with Parameters)

// 美化儀錶板(Dashboard Tricks)

大家可以點開下面這個鏈接,查看這張可互動的可視化圖表,自己選擇成本/支出/增長率的cutoff值。圖中紅色鑽石形狀的紅點表示,根據你設置的cutoff,選取的最有潛力的創業公司。

1000 StartUps - Tableau Public (一定要點開!!!)

還想再說一點,男神女神課都沒有提到,如果使用的是Tableau Desktop版本,你可以在Tableau Public發布你的Dashboard作品。

事先要在Data Source頁面做好Data Extract,就是把數據集保存到本地。做Data Extract好處多多,包括做可視化分析的時候Tableau的運行速度會快一些。

Tableau - Server - Tableau Public - Save to Tableau Public

這個功能非常好用...... 方便老師查收我們的Tableau作業......

你也可以在Gallery中查看別人酷炫diao炸天的可視化作品:

Gallery - Tableau Public

Advanced Table Calculations

這一部分用的是(虛構的)煤炭碼頭五台reclaimer機器工作時間的數據,這些機器基本要保持日夜不息運作,每一分鐘的停工期(downtime)都相當於幾百萬甚至幾千萬的收入損失。數據分析師的任務就是做一個可視化,看看這五台機器的運行情況,如果某台機器在連續八個小時內有平均超過10%的時間在偷懶,就代表這台機器要被拖去斬了,哦不,維修。

俺有時候中文不太好,還是貼一下英文原文... A reclaimer-type machine requires maintenance when within the previous month there was at least one 8-hour period when the average idle capacity was over 10%.

Idle Capacity = (Actual Tonnage - Nominal Capacity)/Nominal Capacity

下面這張圖看上去很美,但過程略艱辛......

好在男神講得非常細,非常有耐心,各個需要注意的點男神都指出來了。

Level of Detail Calculations (LOD)

Tableau官方白皮書:了解詳細級別 (LOD) 表達式

既然說到了計算,我們先跳到Section 6來看一下Tableau中的LOD。LOD可以理解為,在低層級上聚合高層級的數據,或者在高層級上聚合低級層的數據...

舉一個以較低的詳細級別進行計算(LOD中的Include)的例子,數據是美國零售業的銷售數據。

當視圖是以州為level的時候,Tableau自動計算出了每個州的平均產品利潤。

所有本州商品的利潤總和/本州商品個數

像North Dakota州,單件商品利潤為57.4刀。

但如果我們想要讓視圖保留在州level,同時又想引入城市level的運算,就需要使用LOD。

我們細看一下上圖North Dakota州的2,334刀是怎麼來的,North Dakota州有三個城市的數據,三個城市的總利潤分別是4400、2678和-76。

(4400+2678-76)/3 = 2334

LOD是Tableau中的一個難點,大哥覺得自己講解得非常爛,羞愧地逃走......

大家還是去聽我男神講吧,男神教什麼都很清楚......

對了,需要提一句的是,男神在這塊還重點講解了Tableau的一個迷之函數 ATTR( ),這個迷之函數一度讓我紅紅火火恍恍惚惚,還在知乎上提問過......

有人能解釋一下Tableau里的ATTR( )函數嗎?

Advanced Data Prep + Analytics

這一section算是進階課中相對比較簡單的部分,用的是澳大利亞零售業的真實數據,涉及的Tableau姿勢點有:

// Box Plot

// Data Source Filter

// Timeseries Blending

// Forecasting

Creating Animation

這一部分是看著最高大上,其實最簡單的,課程時長也最短......

06年的時候,Hans Rosling教授在TED大會上用一個展現世界各國人口變化的可視化動圖驚艷了世界......

TED - The best stats youve ever seen

大哥也想給大家展示一下diao炸天的Tableau學習成果,無奈在Tableau Public發布的時候就是bug... 說我沒做Data Extract,然鵝大哥怎麼可能沒做呢!!

只能給大家看一下圖片了...

其實有各式各樣的動畫拖尾效果... 我選的這個比較浮誇,符合我內心的人設... 科科~


最後,大哥還有話要說......

  • 一定要勤做筆記,勤做筆記,勤做筆記啊!!!女神課我刷了三遍啊!!!因為前兩遍都沒有做筆記啊,看了就忘了啊!!!Tableau很tricky的啊!!!不做好筆記,很多操作下一秒就忘了啊!!!
  • 學軟體也好,語言也好,建議先快速入個門,再去查缺補漏啊!剛開始就學太細節,很容易就膩了。所以強烈建議先上女神課,速度入個門,再刷男神課和Tableau官網,慢慢補細節。系統入門之後再學細節,內容會吸收得比較快,效率高很多!
  • 奉上Tableau官網的免費視頻培訓,有些細節內容是三門課里沒有的,個人認為Calculation這部分可以重點再刷一遍,順便複習一下LOD。培訓視頻有的有中文版,挺多還沒有......

Tableau Training & Tutorials?

www.tableau.com

  • 強烈建議大家還是使用Tableau英文版,有些中文翻譯反而讓人恍恍惚惚...... 而且英文的學習材料還是比中文多多了......

不知不覺,這篇寫了兩三天......

你們確定不點贊嗎......


推薦閱讀:

大眾點評數據分析
R語言:表格的條形圖轉化
Origin(Pro):2016 半年免費學習版的【激活】與【再次激活】
關於大數據你應該了解的五件事兒

TAG:TABLEAU | 數據分析 | 數據可視化 |