數據分析師
11 人贊了文章
說來我正式接觸數據分析也快一年,對速成還是有一些心得。優秀的數據分析師是不能速成的,但是零經驗也有零經驗的捷徑。
以上的前提針對入門,目的是達到數據分析師的門檻,順利拿到一份offer,不涉及數據挖掘等高級技巧。我的方法傾向互聯網領域,不論是分析師這個職位,還是運營、產品的能力發展都是適用的。其他領域就仁者見仁了。
市面上有《七周七資料庫》,《七周七編程語言》。今天我們就《七周七學習成為數據分析師》。
沒錯,七周。
第一周:Excel學習掌握
如果Excel玩的順溜,你可以略過這一周。不過介於我入行時也不會vlookup,所以有必要講下。
重點是了解各種函數,包括但不限於sum,count,sumif,countif,find,if,left/right,時間轉換等。
Excel函數不需要學全,重要的是學會搜索。即如何將遇到的問題在搜索引擎上描述清楚。
我認為掌握vlookup和數據透視表足夠,是最具性價比的兩個技巧。
學會vlookup,SQL中的join,Python中的merge很容易理解。學會數據透視表,SQL中的group,Python中的pivot_table也是同理。這兩個搞定,基本10萬條以內的數據統計沒啥難度,80%的辦公室白領都能秒殺。
Excel是熟能生巧,多找練習題。還有需要養成好習慣,不要合併單元格,不要過於花哨。表格按照原始數據(sheet1)、加工數據(sheet2),圖表(sheet3)的類型管理。
專欄上寫了三篇Excel的文章,比較簡單,大體介紹了Excel應用,可以作為職場新人的指南。
第一篇數據分析—函數篇。主要簡單講解常用的函數,以及與之對應的SQL/Python函數。
第二篇數據分析—技巧篇。主要簡單講解我認為很有新價比的功能,提高工作效率。
第三篇數據分析—實戰篇。主要將前兩篇的內容以實戰方式進行,簡單地進行了一次數據分析。數據源採用了真實的爬蟲數據,是5000行數據分析師崗位數據。
下面是為了以後更好的基礎而附加的學習任務。
了解單元格格式,後期的數據類型包括各類timestamp,date,string,int,bigint,char,factor,float等。
了解數組,以及怎麼用(excel的數組挺難用),Python和R也會涉及到 list。
了解函數和參數,當進階為編程型的數據分析師時,會讓你更快的掌握。
了解中文編碼,UTF8和ASCII,包括CSV的delimiter等,以後你會回來感謝我的。
養成一個好習慣,不要合併單元格,不要過於花哨。表格按照原始數據、加工數據,圖表的類型管理。
如果時間還有剩餘,可以看大數據時代 (豆瓣),培養職業興趣。
再來一道練習題,我給你1000個身份證號碼,告訴我裡面有多少男女,各省市人口的分布,這些人的年齡和星座。(身份證號碼規律可以網上搜索)
第二周:數據可視化
數據分析界有一句經典名言,字不如表,表不如圖。數據可視化是數據分析的主要方向之一。除掉數據挖掘這類高級分析,不少數據分析就是監控數據觀察數據。
數據分析的最終都是要兜售自己的觀點和結論的。兜售的最好方式就是做出觀點清晰數據詳實的PPT給老闆看。如果沒人認同分析結果,那麼分析也不會被改進和優化,不落地的數據分析價值又在哪裡?
首先要了解常用的圖表:
各類圖表的詳細介紹可以查看第四篇文章:數據可視化:你想知道的經典圖表全在這
了解圖表後,還應該學會報表製作,這裡準備了第五篇:數據可視化:打造高端的數據報表。將教會大家Excel的高級圖表用法。
如果還不過癮,我們得掌握信息圖和BI,下圖就是微軟的Power BI:
BI(商業智能)和圖表的區別在於BI擅長交互和報表,更擅長解釋已經發生和正在發生的數據。將要發生的數據是數據挖掘的方向。
BI的好處在於很大程度解放數據分析師的工作,推動全部門的數據意識,另外降低其他部門的數據需求(萬惡的導數據)。
BI市面上的產品很多,基本都是建立儀錶盤Dashboard,通過維度的聯動和鑽取,獲得可視化的分析。第六篇:數據可視化:深入淺出BI 將以第一周的實戰數據學習BI,上圖的就是學習後的成果。
數據可視化的學習就是三個過程,了解數據(圖表),整合數據(BI),展示數據(信息化)。
可視化也和審美息息相關,很多直男代表並不擅長做圖,沒關係,抽空可以看書:數據之美 (豆瓣)
PPT也別落下,Excel作圖多練習,不會有壞處的。
PPT - 熱門問答
Excel 圖表繪製 - 熱門問答
第三周:分析思維的訓練
這周我們輕鬆一下,學學理論知識。
分析思維首推大名鼎鼎的金字塔原理 (豆瓣),幫助數據分析師結構化思維。如果金字塔原理讓你醍醐灌頂,那麼就可以學思維導圖,下載一個XMind中文網站,或者在線用百度腦圖(百度難得不被罵的產品)。
如果不想看金字塔原理,那麼就看第七篇文章:如何培養麥肯錫式的分析思維。將書本的內容提煉了大部分。
再了解SMART、5W2H、SWOT、4P理論、六頂思考帽等框架。這些框架都是大巧不工的經典。你要快速成為數據分析師,思考方式也得跟著改變。網上搜諮詢公司的面試題,搜Case Book。題目用新學的思維導圖做,先套那些經典框架,做一遍,然後去看答案對比。
等思維框架建立好,我們應該往裡面塞點數據分析的思維了,如何建立數據分析的思維框架。兩篇文章相結合,就能出師了。
這裡送三條金句:
一個業務沒有指標,則不能增長和分析
好的指標應該是比率或比例
好的分析應該對比或關聯。
舉一個例子:我告訴你一家超市今天有1000人的客流量,你會怎麼分析?
這1000人的數量,和附件其他超市比是多是少?(對比)
這1000人的數量比昨天多還是少?(對比)
1000人有多少產生了實際購買?(轉化比例)
路過超市,超市外的人流是多少?(轉化比例)
這是一個快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何結果。
優秀的數據分析師會拷問別人的數據,而他本身的分析也是經得起拷問,這就是分析思維能力。需要確切明白的是,一周時間鍛煉不出數據思維,只能做到了解。數據思維是不斷練習的結果,我只是盡量縮短這個過程。
深入淺出數據分析 (豆瓣)
這本書太啰嗦了,我看到一半放棄了…但推薦人不少,可以快速翻看一下。
第四周:資料庫學習
Excel對十萬條以內的數據處理起來沒有問題,但是互聯網行業就是不缺數據。但凡產品有一點規模,數據都是百萬起。這時候就需要學習資料庫。
資料庫入門看這篇文章:寫給新人的資料庫指南
越來越多的產品和運營崗位,會在招聘條件中,將會SQL作為優先的加分項。
SQL是數據分析的核心技能之一,從Excel到SQL絕對是數據處理效率的一大進步。
學習圍繞Select展開。增刪改、約束、索引、資料庫範式均可以跳過。SQL學習不需要買書,W3C學習就行了,SQL 教程。大多數互聯網公司都是MySQL,我也建議學,性價比最高。
主要了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的邏輯,時間轉換函數等。
如果想要跟進一步,可以學習row_number,substr,convert,contact等。另外不同數據平台的函數會有差異,例如Presto和phpMyAdmin。
你看,和Excel的函數都差不多。按照SQL,從入門到熟練SQL,從熟練到掌握這兩篇的內容學習。雖然沒有實戰的打磨,但是了解一個大概夠了。
期間你不需要考慮優化和寫法醜陋,查詢幾秒和幾分鐘對數據分析師沒區別,跑數據時喝杯咖啡唄,以後你跑個SVM都能去吃飯了。
網上也能搜索SQL相關的練習題,刷一遍就行。也能自己下載資料庫管理工具,找些數據練習。我用的是Sequel Pro。
附加學習:
如果這周的學習充裕,可以了解MapReduce原理。
來一道練習題,表A是用戶的註冊時間表,表B是用戶所在地,寫出各地區每月新註冊用戶的查詢SQL。掌握到這個程度,基本夠用,雖然往後工作中會有更多變態數據需求。
第五周:統計知識學習
很遺憾,統計知識是我最薄弱的地方,也是數據分析的基礎之一。
統計知識會要求我們以另一個角度看待數據。當你知道AB兩組的差異用平均值看是多傻的事情,你的分析技巧也會顯著提高。
這一周努力掌握描述性統計,包括均值、中位數、標準差、方差、概率、假設檢驗、顯著性、總體和抽樣等概念。詳細的數學推導不用細看,誰讓我們是速成呢,只要看到數據,知道不能怎麼樣,而是應該這樣分析即可。
Excel中有一個分析工具庫,簡單強大。對列1的各名詞做到了解。如果是多變數多樣本,學會各種檢驗。
(圖片網上找來的)
統計數字會撒謊 (豆瓣)
休閑讀物,有趣的案例可以讓我們避免很多數據陷阱。
深入淺出統計學 (豆瓣)
還是經典的HeadFirst系列,適應它一貫的啰嗦吧。
多說一句,老闆和非分析師不會有興趣知道背後的統計學原理,通常要的是分析後的是與否,二元答案。不要告訴他們P值什麼的,告訴他們活動有效果,或者沒效果。
第六周:業務學習(用戶行為、產品、運營)
這一周需要了解業務。對於數據分析師來說,業務的了解比數據方法論更重要。當然很遺憾,業務學習沒有捷徑。
我舉一個數據沙龍上的例子,一家O2O配送公司發現在重慶地區,外賣員的送貨效率低於其他城市,導致用戶的好評率降低。總部的數據分析師建立了各個指標去分析原因,都沒有找出來問題。後來在訪談中發覺,因為重慶是山城,路面高低落差比較誇張,很多外賣人員的小電瓶上不了坡…所以導致送貨效率慢。
這個案例中,我們只知道送貨員的送貨水平距離,數據上根本不可能知道垂直距離這個指標。這就是數據的局限,也是只會看數據的分析師和接地氣分析師的最大差異。
對於業務市場的了解是數據分析師工作經驗上最大優勢之一。既然是零經驗面試,公司肯定也知道剛入門分析師不會有太多業務經驗,不會以這個卡人。所以簡單花一周了解行業的各指標。
以知乎最多的互聯網行業為例。至少了解活躍用戶數,活躍用戶率,留存率,流失率,傳播係數等通用概念。
增長黑客 (豆瓣)
數據驅動業務的典型,裡面包含產品運營最經典的AAARR框架。部分非數據的營銷案例,如果時間不夠可以略過。此外產品和運營的入門讀物也能看,這裡就不推薦了。
網站分析實戰 (豆瓣)
如果應聘的公司涉及Web產品,可以了解流量的概念。書中案例以Google Analytics為主。其實現在是APP+Web的複合框架,比如朋友圈的傳播活動肯定需要用到網頁的指標去分析。
精益數據分析 (豆瓣)
互聯網數據分析的入門書籍,歸納總結了幾個常用的分析框架。比較遺憾的是案例都是歐美。
還有一個小建議,現在有不少第三方的數據應用,囊括了不少產品領域的數據分析和統計。自學黨們即使沒有生產環境的數據,也可以看一下應用Demo,有好處的。
除了業務知識,業務層面溝通也需要掌握。另外建議在面試前幾天收集該行業的業務強化一下。
第七周:Python/R 學習
終於到第七周,也是最痛苦的一周。這時應該學習編程技巧。
是否具備編程能力,是初級數據分析和高級數據分析的風水嶺。數據挖掘,爬蟲,可視化報表都需要用到編程能力。掌握一門優秀的編程語言,可以讓數據分析師事半功倍,升職加薪,迎娶白富美。(SAS/SPSS我不了解,所以不做指導)
這裡有兩條支線,學習R語言或Python。速成只要學習一條,以後再補上另外一門。
我剛好兩類都學過。R的優點是統計學家編寫的,缺點也是統計學家編寫。如果是各類統計函數的調用,繪圖,分析的前驗性論證,R無疑有優勢。但是大數據量的處理力有不逮,學習曲線比較陡峭。Python則是萬能的膠水語言,適用性強,可以將各類分析的過程腳本化。Pandas,sklearn等各包也已經追平R。
如果學習R,我建議看R語言實戰 (豆瓣), 照著書本打一遍代碼,一星期綽綽有餘。另外還有一本 統計學 (豆瓣) ,偏知識理論,可以複習前面的統計學知識。
R學習和熟悉各種包。知道描述性統計的函數。掌握DataFrame。如果時間有餘。可以再去學習ggplot2。
Python擁有很多分支,我們專註數據分析這塊,入門可以學習 深入淺出Python(影印版) (豆瓣) 。也是把代碼寫一遍。
需要學會條件判斷,字典,切片,循環,迭代,自定義函數等。知道數據領域最經典的包Pandas+Numpy。
在速成後的很長一段時間,我們都要做調包俠。
這兩門語言最好安裝IDE,R語言我建議用RStudio,Python我建議用 Anaconda。都是數據分析的利器。
Mac自帶Python2.7,但現在Python 3已經比幾年前成熟,而且沒有編碼問題。各類教程也足夠多,不要抱成守舊了。Win的電腦,安裝Python會有環境變數的問題,是個大坑(R的中文編碼也是天坑)。
到這裡,剛剛好是七周。如果還需要第八周+,則是把上面的鞏固和融會貫通,畢竟速成是以轉崗或拿offer為目的。
成為數據分析師後,坑才剛剛開始,努力吧。
推薦閱讀:
※基於工業大數據的工業智能發展 | 機器智能 | 趨勢研判
※大數據交易的「上海模式」,底氣在哪裡? | 數據科學50人·湯奇峰
※從頭學習大數據培訓課程 NOSQL 資料庫 hbase(四)整合 hbase 的批量導入功能
※對話三:大數據與實體經濟深度融合路徑 | 中關村大數據產業聯盟2018數博會實錄
※時代碰撞話文明
TAG:大數據 |