成為一名數據分析師,應該掌握怎樣的技術棧?
數據分析師是不易被人工智慧取代的新興職業,相比演算法工程師、人工智慧工程師而言比較好入門。學好數據分析,也可為進一步的數據科學、機器學習打下一定的基礎。
最近我知乎了各種如何學習數據分析之類的話題,get到了許多打開數據分析的正確姿勢,現在就好好歸納總結一哈。
一:編程能力
是否會編程是區別初級數據分析師和高級數據分析師的分水嶺。在這裡,我定位的是高級數據分析師,所以編程能力尤為重要,我把它放在了第一位。
有關數據分析的編程語言有Python和R語言。R語言傾向於統計分析、繪圖等。統計學家或者學統計學的喜歡用R語言,而我推薦學習Python,因為Python是面向未來的語言,無論從流行度、可用性還是學習難度來講,Python都是最好的入門語言。
當然,如果可以的話,再掌握一下R語言是最好不過的,學習嘛,永無止盡。
零基礎學習Python可以看看:
廖雪峰老師的Python(入門)教程:http://www.imooc.com/learn/177
廖雪峰老師的Python(進階)教程:http://www.imooc.com/learn/317
或者菜鳥教程上的Python教程:http://www.runoob.com/python/python-tutorial.html
或者W3Cschool上的Python教程:https://www.w3cschool.cn/python/
購買書籍的話,推薦:
《Python編程:從入門到實踐》 豆瓣評分:9.0 (入門)
《流暢的Python》 豆瓣評分:9.2 (進階)
當然,只有Python基礎肯定是不夠的,既然是學習數據分析,肯定就要有數據才行,數據從哪裡來,肯定是從互聯網上來。互聯網上的信息何其之多,必須要對其加以過濾處理,提取我們想要的信息。這就要用到Python爬蟲,這也是學Python一個很重要的目的和作用。
學習Python爬蟲肯定比學習Python基礎要困難一下,但好在網上的學習資源十分豐富,努力學習必定會有收穫的。
關於Python爬蟲的學習資源網上有很多,這裡我推薦:
爬蟲大神崔慶才的個人博客:http://cuiqingcai.com/,博客裡面滿滿的Python爬蟲教程,相當的厲害。
知乎大V:路人甲 ,他的專欄《學習編程》,關注人數達114k,裡面有很多學習Python的資源和總結,相當的給力。
關於Python爬蟲的書籍,目前我還沒有較好的書籍推薦,如果說實在要推薦的話,我推薦三本書:
《Python網路數據採集》 豆瓣評分:7.7
《Python爬蟲開發與項目實戰》 豆瓣評分:8.1
《精通Scrapy網路爬蟲》 這是十月份出的新書,豆瓣上還沒有評分。
知乎裡面有很多爬蟲大神,沒事多逛逛知乎總會有收穫的。
關於編程能力,是一個很深的概念,需要靠大量的擼代碼積累經驗。先暫且說到這些。
二:SQL
學習數據分析,最難最重要的就是編程能力,熬過去了,後面的就稍微簡單一些了。
既然是跟數據打交道,就免不了要使用資料庫。
目前主要有四種資料庫:
1:SQLite 是一個文件型輕量級資料庫,它的處理速度很快,在數據量不是很大的情況下,可以使用SQLite。
2:MySQL 是一個應用極其廣泛的關係型資料庫,它是開源免費的,可以支持大型資料庫,很多中小型企業都是用的MySQL。
3:MongoDB 是一個面向文檔的非關係型資料庫,它功能強大、靈活、易於拓展。
4:Redis 是一個使用ANSI C 編寫的高性能key-value資料庫,使用內存作為主存儲器。
它們各有優點,可以靈活使用,如果說非要選一個的話,我建議使用MySQL,因為它使用最廣泛。學習最主流的技術,可以在一定程度上發揮更大的作用。
關於SQL的學習資源:
推薦W3Cschool的SQL教程:https://www.w3cschool.cn/sql/
W3Cschool的MySQL教程:https://www.w3cschool.cn/mysql/
購買書籍推薦《SQL基礎教程》作者:MICK 豆瓣評分:9.0,好像這本書出了第二版了,建議購買最新版的。
三:數據分析能力
前面說了那麼多,都是為了數據分析做準備。數據分析就好比親手做一頓美食,現在食材有了(通過Python爬蟲採集),盛放美食的容器也有了(資料庫)。現在就差開火做飯了,寫到這感覺肚子餓了,哎呀,忍住。
對於數據分析,我還沒有過多的涉足,總之,多看書,多做項目。
這裡我推薦幾本書(都是放在我購物車裡還沒有買的書)
學習數據分析必看的書單:
《Python數據分析基礎》八月份的新書,豆瓣上還沒有評分。
《利用Python進行數據分析》2013年的老書,豆瓣評分:8.5
《Python數據處理》六月份的新書,豆瓣上沒有評分。
《用數據講故事》 豆瓣評分:8.7
雖然我還沒來得及看這幾本書,但是我想認真看了之後,對於數據分析的理解肯定會更加深刻的。
四:數據可視化
現在美食做好了,但不能一股腦的裝在碗里吧,美食講究色香味俱全。所以要給它作一個漂亮的造型,呈現在客人面前。這就是數據可視化。
數據可視化需要藉助工具,什麼工具呢?那就是大名鼎鼎的tableau!
什麼?你沒有聽說過tableau?現在聽我說了也不遲,哈哈。
tableau是一款世界級的商業智能工具軟體,tableau可以幫助我們快速的分析、可視化並分享信息。在福布斯2017年公布的《10大需求增長最快的職場技能》報告中,tableau高居第三,成為數據分析和可視化的職場必殺技。
說了這麼多,咱們還是好好聊聊怎麼學習tableau吧。tableau是一款收費軟體,先看一下它的價格吧:
果然優秀的軟體都是收費的,而且還貴的要死。
但是,tableau的良心之處在於:學生和教師可以免費使用tableau,只需要用我們的學生證信息去免費申請一個序列碼,然後就可以下載激活該軟體,有效期為1年,如果一年後還是學生的話,還可以用學生證再去申請一個序列號,然後再免費用一年。
tableau的下載地址:https://www.tableau.com/zh-cn/products/desktop/download
也可以自行百度,在其官網上利用學生證獲取序列碼。
如何學習使用tableau呢?這裡我推薦兩種方式:
1 觀看其官網上的入門教學視頻
共計80個學習視頻。
2 購買書籍來學習:
推薦書籍《人人都是數據分析師:tableau應用實戰》 豆瓣評分:7.3
努力通過以上學習,成為一名優秀的數據分析師就指日可待了。上面談到的四點傾向於商業數據分析,對於數據挖掘方向,需要掌握更多的數學和統計知識。
學習之路漫漫,切記不可懈怠!
五:GitHub技能
GitHub可以說是每個程序員必須掌握的技能,在面試找工作的時候,有GitHub項目,或者為某GitHub開源項目貢獻過源碼都是面試的加分項。之所以把GitHub放在最後講,是因為這不關乎數據分析的基礎學習,而是每個從事IT行業的程序員的必備技能。
GitHub的學習可以看廖雪峰老師的GitHub教程:https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000,講的特別精鍊。易於上手。
說了這麼多,如果對你有一點的觸動或者啟發,那我寫的這些就是很有意義了。
對於編程方面的書籍,我建議購買圖靈叢書系列的,質量很高。對於各大出版社,個人認為:人民郵電出版社>清華大學出版社>機械工業出版社。買得一本好書,會讓自己的學習更加順暢,所以要仔細甄別。
當然:紙上得來終覺淺,絕知此事要躬行。一定要多練,多擼代碼,不懂就看文檔,問度娘。
共勉!
每天學習一點點,每天進步一點點。
推薦閱讀:
※從入門到精通,數據分析師必看的14篇文章
※互聯網數據分析的思路、方法、數據來源和分析指標
※《紅樓夢》的作者有多少個,數據分析帶你來探索
※七周成為數據分析師:數據可視化:你想知道的經典圖表全在這
※大數據分析課程怎麼學習?大數據分析課程