數據分析師需要哪些技能(硬功夫)

經常有朋友通過微信向我提起,如何學習數據分析、如何轉行數據分析、如何快速的掌握數據分析技能等等類似的問題,由於在微信聊天窗口中無法通過一兩句來回復這類問題,這裡就寫一篇推文供大家參考。

這篇推文是站在個人的角度,分享自己從事數據分析崗位前後的一些經歷和感受,希望能夠對數據分析行業感興趣的朋友能有一點幫助。也歡迎各位看官提出你自己的想法和經驗,幫助到其他同行的朋友。

感受1:SQL很重要

SQL很重要!SQL很重要!SQL很重要!重要的事說三遍,資料庫查詢對於一個數據分析師來說真的是必備技能。沒有它,你的工作真的非常難找,往往在面試的時候,對方都會出一些資料庫相關的問題。資料庫之所以重要,那是因為你工作中所需要分析的數據基本都是來自於資料庫,如果你不會從資料庫查詢,就等同於「巧婦難為無米之炊」。

學習建議

資料庫目前在市面是有很多種,如Oracal、SQL Server、MySQL、Hive等,並不是都要一一學個遍,因為它是結構化的查詢語言,各種資料庫的語法都非常相似,可以說是一通百通。如果你想從事數據分析崗,但又沒有接觸過資料庫(學生或準備換行的朋友),建議你下載一個MySQL的社區版本(dev.mysql.com/downloads),然後買一本相對實戰且基礎的書籍(《MySQL必知必會》)進行學習。這本書一共介紹了30個章節的內容,你只需重點吸收資料庫的查詢、修改、刪除、插入、存儲過程等知識點,我認為通過這些知識點的吸收和應用,基本上可以滿足數據分析崗的面試要求了。

感受2:可視化顯水平

數據可視化的技能,也是數據分析師的必備要求,因為枯燥的數據表肯定不如一張張圖更吸引眼球,更何況這些報表更多的是給那些業務繁忙的Boss看。那報表的展現方式總不能每次發一個PPT給對方吧,如何讓對方隨時隨地的查看到你的報表呢?Tableau!

它有兩個強大的版本,一個是DeskTop版,即分析人員的可視化設計版本;另一個是Server版,即通過DeskTop將設計好的可視化報表上傳至伺服器,實現隨時查閱報表的功能,而這兩個版本的結合就能恰到好處的滿足隨時隨地查報表。最大的好處是你無需編程即可完成高質量的可視化任務,只需通過簡單的托拉拽,就讓數據可視化想怎麼玩就怎麼玩。目前越來越多的企業,在招聘時,都會要求或註明有Tableau的使用經驗。

學習建議

這裡推薦《Tableau數據可視化從入門到精通》一書,這也是我看的眾多Tableau書籍中比較好的一本,而且該書籍在售書平台上的評價也非常棒。該書一共16個章節,從基礎的工具簡介、數據讀取、欄位操作、函數使用到可視化實操,講到了很多細節方面的內容,最後還以兩個案例作為壓軸戲,分別是「網上超市運營分析」和「網站流量統計分析」。這兩個主題抓的非常貼切,一個從電商運營角度來思考常見的可視化問題;另一個則從網站運營角度來分析有哪些核心指標可供選擇和及對應的展現方式。這兩個角度都順應了互聯網時代下的需求,我相信當你讀完並操作完數裡面的案例,會對你的可視化能力有一個質的提升,也是進入數據分析行業的加分項。

感受3:Excel很普及

作為一個數據分析師或BI,其實很多工作內容都可以通過SQL提數和Excel的加工就可以任務完成,困難的是如何梳理好SQL的提數邏輯和靈活的應用Excel減輕你的工作量。之所以說它應用很普及,是因為它不僅僅是個裝數據的容器,更多的是會藉助於強大函數、可視化等幫你完成工作。

各式各樣的字元串函數(LEFT、RIGHT、MID、LEN、REPLACE、TRIM、FIND、SEARCH、CONCATENATE、REPT等)、數值函數(ABS、EXP、LOG、POWER、SQRT、CEILING、FLOOR、MOD、ROUND、SIGN等)、日期函數(DATE、YEAR、MONTH、DAY、WEEKDAY、WORKDAY、TODAY等)、統計函數(MIN、MAX、AVERAGE、MEDIAN、VAR.S、SUM、SUMIFS、COUNT、SKEW、NORM.DIST等)、匹配函數(ROWS、COLUMNS、MATCH INDEX、VLOOKUP)等可以讓你在數據處理過程中變的非常簡單而輕鬆;強大的可視化功能(如餅圖、條形圖、柱狀圖、折線圖、面積圖、散點圖、氣泡圖、雷達圖等)也會為你的數據分析助一臂之力,但面對大數據量時就顯得非常捉急,這也是無法跟Tableau媲美的;靈活的宏功能,可以避免我們不斷的做重複性工作,從而節約時間,提高我們的工作效率,宏語句是由一系列的命令和函數組織起來的,儘管它在工作中用的並不是那麼的頻繁,但一有機會,你去用它來開發報表或表計算的話,會大大提高你的成就感,當然,我希望你能夠會一些宏語句,這樣你身邊的朋友或同事都會覺得你很了不起呢!

學習建議

這裡向大家推薦《Excel函數與公式速查手冊》和《Excel2016寶典》兩本書。第一本書涵蓋了近600個函數的講解,而且這些函數都是藉助於一個個實例來完成的,有助於讀者的操作和理解,可以說,讀完這本關於函數的書就可以在工作中使用函數時顯得遊刃有餘;第二本光從書名就知道是一本知識點比較全面的書籍,該書涉及Excel的公式和函數、圖表可視化以及Excel的各種設置。個人建議可以把這兩本書當作工具來使用,沒必要系統的過一遍,當你需要某個知識點時,從目錄去查找相關關鍵詞,然後記得如何使用就可以了。

數據挖掘秀肌肉

我相信,當你找數據分析相關的工作崗位時,基本上都會看見對方要求你會數據挖掘或數據建模方面的能力,同時也會附上一條熟練使用Python、R等工具。此時你會掂量掂量自己,這方面的技能我會嗎?工具使用的熟悉程度能夠達到對方的預期嗎?我有哪些相關的建模經驗?

在面試或工作中比較常見的數據挖掘演算法有四類,分別是預測、分類、聚類和關聯,個人覺得前兩類的使用頻率會更高一些。這裡提幾個重要的挖掘演算法:線性回歸、Logistic回歸、決策樹、貝葉斯、SVM、隨機森林、K均值和關聯規則。希望不熟或不會數據挖掘的朋友可以先從這幾個著手學習,而且學習的時候先通過代碼完成落地,然後再去慢慢研究其理論知識。

學習建議

如果你是統計學或經濟學等類似專業的朋友,建議你去學習R語言,而如果你是計算機專業或理工科的朋友,則建議你去學習Python。因為這兩個工具的思維有一點點差異,畢竟R語言是由統計學家創建的(偏向於函數概念),而Python是由計算機學家創建的(偏向於類概念)。如果你選擇R語言的話,這裡推薦《R語言實戰》和《機器學習與R語言》這兩本書,前一本書偏向於語法編程,同時也會含有案例來說明統計學方面的知識點,後一本則通過實戰的方式來介紹常用的數據挖掘技術,能夠助你快速的進入R語言的挖掘狀態;如果你選擇Pythond的話,同樣介紹兩本書,即《利用Python進行數據分析》和《Python數據分析與挖掘實戰》,第一本更多的是介紹數據分析方面的Python庫,如numpy、pandas和matplotlib,這也是一本基礎書,第二本則是教你如何按部就班地完成每一個實戰案例,具有代入感,讓讀者學習起來很順暢;如果你還想補一補數據挖掘的理論知識,則推薦《數據挖掘概念與技術》,個人看了好幾遍,不是很難,有比較好的操作性。

OK,如上就是我從事數據分析崗位的一些學習經驗和感悟,希望對各位讀者有一點點的幫助。學習是一種投資,需要耐得下性子,坐得住板凳,敲得住鍵盤,同時,還要不斷的堅持。只有這樣,我相信一定會成為數據分析或挖掘的強者。


推薦閱讀:

R語言 數據Excel的導入與導出
tableau LOD 詳細級別表達式
玩轉Pandas,讓數據處理更easy系列3
吉利帝豪GS--車主洞察研究
2. 數據分析有哪些分類

TAG:數據分析 | 職業技能 | 學習方法 |