Tableau!為你轉身為你爆燈!為你打call日夜不分!
不知道看完大哥」如何成為數據分析師「的毒雞湯回答,有多少孩子已經默默放棄了治療...
量子數據:如何快速成為數據分析師?
今天,我想做一名善良的大哥,只安利三門課而已。也許成為數據分析師的道路還長途漫漫,但你可以先在Tableau可視化方面成長為一名小磚家。三門重磅級Tableau課程,包你從入門到放飛自我!
三門分別是,我說過八百萬遍的Coursera杜克大學的Tableau,和最近udemy上挖掘出來的Tableau基礎和進階課。
- Coursera | Data Visualization and Communication with Tableau
- Tableau 10 A-Z: Hands-On Tableau Training For Data Science!
- Tableau 10 Advanced Training: Master Tableau in Data Science
杜克大學的Tableau(下面簡稱女神課),是氣質女神Dr. Jana Schaich Borg (斯坦福Neuroscience博士畢業)教的。
Udemy的兩門Tableau簡稱男神課,老師是澳洲小哥Kirill Eremenko~ 他是一個數據培訓網站(Super Data Science)的創始人兼CEO,在Udemy上有大量超高評價爆款課程。
比如說,下面這門大哥極力安利,史上對小白最友好的一門Machine Learning,也是小哥教的。小哥的特色就是,說話溫柔,條理清晰,step-by-step教學,對小白的關懷做到了極致...
強烈建議這三門課按照順序來上,女神課的教學從頭到尾就用一個工資數據集,跟女神從頭到尾練下來,對Tableau的功能會有個全面深刻的理解。學完這門課後,Tableau基本能達到中級偏上的水平。
最最重要的是,Coursera的課不僅旁聽免費,杜克女神還贈送土豪大彩蛋啊!!!至於彩蛋內容是什麼,大家自己去上課~
這門課的總結,可以看我寫的系列blog,第一篇鏈接在下面,剩下的自己在專欄里翻~
量子數據:Tableau初遇 | 外國數據猿在美帝的年薪有多少?接下來就是補細節,全面深化理解Tableau了!Udemy的男神課,7.5+9=16.5個小時的視頻教學,可謂非常全面非常良心!
*關於價格,當時我是兩門課打包20刀買的。
*所以我不是udemy的托兒,不是啊,真的不是啊...
如果有女神課的基礎,男神課的基礎課前半部分可以飛快地刷過。後半部分還是有蠻多女神課里沒有細講的亮點:
合併數據 (Joining & Blending Data)
Tableau的合併數據功能非常強大,不同類型的數據文件都可以在導入Tableau後進行join/blend。男神在這塊也講得非常細。
雙軸圖(Dual Axis Chart)
像下面這張雙軸圖,表現的就是三個商品類別每個月銷售情況和銷售預期的對比。
下面這張圖,表現的是技術類商品的真實銷售與預期銷售情況,下面的條形圖是由真實銷售減去目標得來,通過正負和顏色變化,可以更直觀地看出每個月是否達到了銷售目標。
計算 (Calculations)
剛認識Tableau的時候,以為拖拖+拉拉就是仙女最大的特色了,真是大大冒犯了仙女殿下... 其實仙女的計算功能(table calculation + calculation field)非常強大,非常實用啊!但計算也是Tableau中最難掌握的一部分了,要特別注意,是在數據的哪一個level進行運算...
基礎課中的計算內容不太多,但在進階課中,男神有非常非常詳細的解釋。
數據準備
Tableau的數據清理功能比較有限,但有些功能還是不錯滴~
// 透視表(Pivot)
官方文檔:對數據進行透視(從列到行)
有些原數據的格式不方便用於分析,需要要pivot一下做些改變。
選中年份那幾列,右鍵創建透視表:
Tableau中一鍵達成下面效果:
// 拆分欄位(Split)
官方文檔:將一個欄位拆分為多個欄位
比如說,下面Region一列里,有好些值是「XX,XX&XX」這樣的格式,看著就非常煩躁,也不利於我們之後的分析。
Tableau可以輕鬆根據符號拆分,你也可以自定義怎麼拆。
// 數據解釋器(Data Interpreter)
官方文檔:使用數據解釋器清理您的數據
有些時候,你的原數據表格比較髒亂,像下圖 一樣,開頭有空白行。
導入Tableau的時候,仙女就會不太高興。
仙女有一個自帶叫做Data Interpreter的功能,會盡量自動移除無關信息,盡量識別列名等有用信息。
至於自動識別得好不好,也要看仙女的心情。
所以,還是溫馨提醒大家,表格要先整乾淨利落了,再呈給仙女!
聚類分析(Clustering)
Tableau的主打功能不是分析,但作為一名顏值與實力並存的仙女,還是自帶一些好用又實用的分析功能,比如說,聚類分析!、
下圖中的150個點代表一家連鎖乾洗店品牌在150個城市的150家店,橫軸是市場營銷花銷,縱軸是收入。
在Tableau中,只需要輕輕一拖(把分析欄中的Cluster拖入散點圖),兩個根據k-means演算法生成的Cluster就誕生了,把150家店分成了兩類(根據各店的市場營銷花費和收入)。
除了市場營銷成本和收入,乾洗店老闆當然還要考慮每家店所在地的人口~
把Population的數據加進來以後,Tableau將150家店重新分成了3組(根據k-means演算法,Tableau計算的k最佳取值為3)。
此處應該是一個三維空間圖(有三個變數:營銷成本+營業收入+當地人口),大家自行想像一下~ 有些點在下面平面圖上看似重合,其實在三維空間上並沒有。
我們可以將分好的這三個組的信息保存下來,在地圖上看這三個cluster的分布。
趨勢線(Trend Line)
官方文檔:添加和編輯趨勢線 w3cschool文檔:Tableau 趨勢線
Tableau中自帶四種趨勢線模型:線性、對數、指數和多項式。但Tableau只能carry最最簡單的模型:一個自變數+一個因變數...
下面以線性舉例:我們可以在上面的視圖中加入趨勢線,用來研究各組營銷成本和營業收入的關係。在打廣告上撒錢,到底值不值得嘞?
只有藍組的線性回歸模型是significant,p-value小於0.01。公式告訴我們,營銷上每多投入一塊錢,收入上就會預計多7.3塊。
學到這裡,你可以照一下鏡子,再決定是否要繼續......
如果你摸了摸發涼的頭頂,依然義無反顧,不吃雞不回頭,那就深fu吸,高能,預警,Tableau終極大法來了!
男神的進階課還是有一定難度的,包含五大部分:
- Groups and Sets
- Advanced Table Calculations
- Advanced Data Prep + Analytics
- Creating Animations
- Level of Detail Calculations (LOD)
五個部分相互獨立,用了五個數據集來闡述,每個部分則包含10-15個小視頻。
Groups and Sets
虛擬的故事背景是,有一個土豪爸爸投資公司要從1000家創業公司中選取幾家來投資,需要數據分析師幫助他們決策。選擇創業公司的標準是高收入、低支出和增長率高。
下面這張酷炫的散點圖涉及到的Tableau姿勢有:
// 創建動態集(Dynamic Set)
// 通過參數控制集(Controlling Sets with Parameters)
// 美化儀錶板(Dashboard Tricks)
大家可以點開下面這個鏈接,查看這張可互動的可視化圖表,自己選擇成本/支出/增長率的cutoff值。圖中紅色鑽石形狀的紅點表示,根據你設置的cutoff,選取的最有潛力的創業公司。
1000 StartUps - Tableau Public (一定要點開!!!)
還想再說一點,男神女神課都沒有提到,如果使用的是Tableau Desktop版本,你可以在Tableau Public發布你的Dashboard作品。
事先要在Data Source頁面做好Data Extract,就是把數據集保存到本地。做Data Extract好處多多,包括做可視化分析的時候Tableau的運行速度會快一些。
Tableau - Server - Tableau Public - Save to Tableau Public
這個功能非常好用...... 方便老師查收我們的Tableau作業......
你也可以在Gallery中查看別人酷炫diao炸天的可視化作品:
Gallery - Tableau Public
Advanced Table Calculations
這一部分用的是(虛構的)煤炭碼頭五台reclaimer機器工作時間的數據,這些機器基本要保持日夜不息運作,每一分鐘的停工期(downtime)都相當於幾百萬甚至幾千萬的收入損失。數據分析師的任務就是做一個可視化,看看這五台機器的運行情況,如果某台機器在連續八個小時內有平均超過10%的時間在偷懶,就代表這台機器要被拖去斬了,哦不,維修。
俺有時候中文不太好,還是貼一下英文原文... A reclaimer-type machine requires maintenance when within the previous month there was at least one 8-hour period when the average idle capacity was over 10%.
Idle Capacity = (Actual Tonnage - Nominal Capacity)/Nominal Capacity
下面這張圖看上去很美,但過程略艱辛......
好在男神講得非常細,非常有耐心,各個需要注意的點男神都指出來了。
Level of Detail Calculations (LOD)
Tableau官方白皮書:了解詳細級別 (LOD) 表達式
既然說到了計算,我們先跳到Section 6來看一下Tableau中的LOD。LOD可以理解為,在低層級上聚合高層級的數據,或者在高層級上聚合低級層的數據...
舉一個以較低的詳細級別進行計算(LOD中的Include)的例子,數據是美國零售業的銷售數據。
當視圖是以州為level的時候,Tableau自動計算出了每個州的平均產品利潤。
所有本州商品的利潤總和/本州商品個數
像North Dakota州,單件商品利潤為57.4刀。
但如果我們想要讓視圖保留在州level,同時又想引入城市level的運算,就需要使用LOD。
我們細看一下上圖North Dakota州的2,334刀是怎麼來的,North Dakota州有三個城市的數據,三個城市的總利潤分別是4400、2678和-76。
(4400+2678-76)/3 = 2334
LOD是Tableau中的一個難點,大哥覺得自己講解得非常爛,羞愧地逃走......
大家還是去聽我男神講吧,男神教什麼都很清楚......
對了,需要提一句的是,男神在這塊還重點講解了Tableau的一個迷之函數 ATTR( ),這個迷之函數一度讓我紅紅火火恍恍惚惚,還在知乎上提問過......
有人能解釋一下Tableau里的ATTR( )函數嗎?
Advanced Data Prep + Analytics
這一section算是進階課中相對比較簡單的部分,用的是澳大利亞零售業的真實數據,涉及的Tableau姿勢點有:
// Box Plot
// Data Source Filter
// Timeseries Blending
// Forecasting
Creating Animation
這一部分是看著最高大上,其實最簡單的,課程時長也最短......
06年的時候,Hans Rosling教授在TED大會上用一個展現世界各國人口變化的可視化動圖驚艷了世界......
TED - The best stats youve ever seen
大哥也想給大家展示一下diao炸天的Tableau學習成果,無奈在Tableau Public發布的時候就是bug... 說我沒做Data Extract,然鵝大哥怎麼可能沒做呢!!
只能給大家看一下圖片了...
其實有各式各樣的動畫拖尾效果... 我選的這個比較浮誇,符合我內心的人設... 科科~
最後,大哥還有話要說......
- 一定要勤做筆記,勤做筆記,勤做筆記啊!!!女神課我刷了三遍啊!!!因為前兩遍都沒有做筆記啊,看了就忘了啊!!!Tableau很tricky的啊!!!不做好筆記,很多操作下一秒就忘了啊!!!
- 學軟體也好,語言也好,建議先快速入個門,再去查缺補漏啊!剛開始就學太細節,很容易就膩了。所以強烈建議先上女神課,速度入個門,再刷男神課和Tableau官網,慢慢補細節。系統入門之後再學細節,內容會吸收得比較快,效率高很多!
- 奉上Tableau官網的免費視頻培訓,有些細節內容是三門課里沒有的,個人認為Calculation這部分可以重點再刷一遍,順便複習一下LOD。培訓視頻有的有中文版,挺多還沒有......
Tableau Training & Tutorials
- 強烈建議大家還是使用Tableau英文版,有些中文翻譯反而讓人恍恍惚惚...... 而且英文的學習材料還是比中文多多了......
不知不覺,這篇寫了兩三天......
你們確定不點贊嗎......
推薦閱讀:
※大眾點評數據分析
※R語言:表格的條形圖轉化
※Origin(Pro):2016 半年免費學習版的【激活】與【再次激活】
※關於大數據你應該了解的五件事兒