如何快速成為數據分析師?
說來我正式接觸數據分析也快一年,對速成還是有一些心得。優秀的數據分析師是不能速成的,但是零經驗也有零經驗的捷徑。
以上的前提針對入門,目的是達到數據分析師的門檻,順利拿到一份offer,不涉及數據挖掘等高級技巧。我的方法傾向互聯網領域,不論是分析師這個職位,還是運營、產品的能力發展都是適用的。其他領域就仁者見仁了。
市面上有《七周七資料庫》,《七周七編程語言》。今天我們就《七周七學習成為數據分析師》。
沒錯,七周。
第一周:Excel學習掌握
如果Excel玩的順溜,你可以略過這一周。不過介於我入行時也不會vlookup,所以有必要講下。
重點是了解各種函數,包括但不限於sum,count,sumif,countif,find,if,left/right,時間轉換等。
Excel函數不需要學全,重要的是學會搜索。即如何將遇到的問題在搜索引擎上描述清楚。
我認為掌握vlookup和數據透視表足夠,是最具性價比的兩個技巧。
學會vlookup,SQL中的join,Python中的merge很容易理解。
學會數據透視表,SQL中的group,Python中的pivot_table也是同理。
這兩個搞定,基本10萬條以內的數據統計沒啥難度,80%的辦公室白領都能秒殺。
Excel是熟能生巧,多找練習題。還有需要養成好習慣,不要合併單元格,不要過於花哨。表格按照原始數據(sheet1)、加工數據(sheet2),圖表(sheet3)的類型管理。
專欄上寫了三篇Excel的文章,比較簡單,大體介紹了Excel應用,可以作為職場新人的指南。
第一篇數據分析—函數篇。主要簡單講解常用的函數,以及與之對應的SQL/Python函數。
第二篇數據分析—技巧篇。主要簡單講解我認為很有新價比的功能,提高工作效率。
第三篇數據分析—實戰篇。主要將前兩篇的內容以實戰方式進行,簡單地進行了一次數據分析。數據源採用了真實的爬蟲數據,是5000行數據分析師崗位數據。
下面是為了以後更好的基礎而附加的學習任務。
了解單元格格式,後期的數據類型包括各類timestamp,date,string,int,bigint,char,factor,float等。
了解數組,以及怎麼用(excel的數組挺難用),Python和R也會涉及到 list。
了解函數和參數,當進階為編程型的數據分析師時,會讓你更快的掌握。
了解中文編碼,UTF8和ASCII,包括CSV的delimiter等,以後你會回來感謝我的。
養成一個好習慣,不要合併單元格,不要過於花哨。表格按照原始數據、加工數據,圖表的類型管理。
如果時間還有剩餘,可以看大數據時代 (豆瓣),培養職業興趣。
再來一道練習題,我給你1000個身份證號碼,告訴我裡面有多少男女,各省市人口的分布,這些人的年齡和星座。(身份證號碼規律可以網上搜索)
第二周:數據可視化
數據分析界有一句經典名言,字不如表,表不如圖。數據可視化是數據分析的主要方向之一。除掉數據挖掘這類高級分析,不少數據分析就是監控數據觀察數據。
數據分析的最終都是要兜售自己的觀點和結論的。兜售的最好方式就是做出觀點清晰數據詳實的PPT給老闆看。如果沒人認同分析結果,那麼分析也不會被改進和優化,不落地的數據分析價值又在哪裡?
首先要了解常用的圖表:
各類圖表的詳細介紹可以查看第四篇文章:數據可視化:你想知道的經典圖表全在這
了解圖表後,還應該學會報表製作,這裡準備了第五篇:數據可視化:打造高端的數據報表。將教會大家Excel的高級圖表用法。
如果還不過癮,我們得掌握信息圖和BI,下圖就是微軟的Power BI:
BI(商業智能)和圖表的區別在於BI擅長交互和報表,更擅長解釋已經發生和正在發生的數據。將要發生的數據是數據挖掘的方向。
BI的好處在於很大程度解放數據分析師的工作,推動全部門的數據意識,另外降低其他部門的數據需求(萬惡的導數據)。
BI市面上的產品很多,基本都是建立儀錶盤Dashboard,通過維度的聯動和鑽取,獲得可視化的分析。第六篇:數據可視化:深入淺出BI 將以第一周的實戰數據學習BI,上圖的就是學習後的成果。
數據可視化的學習就是三個過程,了解數據(圖表),整合數據(BI),展示數據(信息化)。
可視化也和審美息息相關,很多直男代表並不擅長做圖,沒關係,抽空可以看書:數據之美 (豆瓣)
PPT也別落下,Excel作圖多練習,不會有壞處的。
PPT - 熱門問答
Excel 圖表繪製 - 熱門問答
第三周:分析思維的訓練
這周我們輕鬆一下,學學理論知識。
分析思維首推大名鼎鼎的金字塔原理 (豆瓣),幫助數據分析師結構化思維。如果金字塔原理讓你醍醐灌頂,那麼就可以學思維導圖,下載一個XMind中文網站,或者在線用百度腦圖(百度難得不被罵的產品)。
如果不想看金字塔原理,那麼就看第七篇文章:如何培養麥肯錫式的分析思維。將書本的內容提煉了大部分。
再了解SMART、5W2H、SWOT、4P理論、六頂思考帽等框架。這些框架都是大巧不工的經典。你要快速成為數據分析師,思考方式也得跟著改變。網上搜諮詢公司的面試題,搜Case Book。題目用新學的思維導圖做,先套那些經典框架,做一遍,然後去看答案對比。
等思維框架建立好,我們應該往裡面塞點數據分析的思維了,如何建立數據分析的思維框架。兩篇文章相結合,就能出師了。
這裡送三條金句:
一個業務沒有指標,則不能增長和分析
好的指標應該是比率或比例
好的分析應該對比或關聯。
舉一個例子:我告訴你一家超市今天有1000人的客流量,你會怎麼分析?
這1000人的數量,和附件其他超市比是多是少?(對比)
這1000人的數量比昨天多還是少?(對比)
1000人有多少產生了實際購買?(轉化比例)
路過超市,超市外的人流是多少?(轉化比例)
這是一個快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何結果。
優秀的數據分析師會拷問別人的數據,而他本身的分析也是經得起拷問,這就是分析思維能力。需要確切明白的是,一周時間鍛煉不出數據思維,只能做到了解。數據思維是不斷練習的結果,我只是盡量縮短這個過程。
深入淺出數據分析 (豆瓣)
這本書太啰嗦了,我看到一半放棄了…但推薦人不少,可以快速翻看一下。
第四周:資料庫學習
Excel對十萬條以內的數據處理起來沒有問題,但是互聯網行業就是不缺數據。但凡產品有一點規模,數據都是百萬起。這時候就需要學習資料庫。
資料庫入門看這篇文章:寫給新人的資料庫指南
越來越多的產品和運營崗位,會在招聘條件中,將會SQL作為優先的加分項。
SQL是數據分析的核心技能之一,從Excel到SQL絕對是數據處理效率的一大進步。
學習圍繞Select展開。增刪改、約束、索引、資料庫範式均可以跳過。SQL學習不需要買書,W3C學習就行了,SQL 教程。大多數互聯網公司都是MySQL,我也建議學,性價比最高。
主要了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的邏輯,時間轉換函數等。
如果想要跟進一步,可以學習row_number,substr,convert,contact等。另外不同數據平台的函數會有差異,例如Presto和phpMyAdmin。
你看,和Excel的函數都差不多。按照SQL,從入門到熟練SQL,從熟練到掌握這兩篇的內容學習。雖然沒有實戰的打磨,但是了解一個大概夠了。
期間你不需要考慮優化和寫法醜陋,查詢幾秒和幾分鐘對數據分析師沒區別,跑數據時喝杯咖啡唄,以後你跑個SVM都能去吃飯了。
網上也能搜索SQL相關的練習題,刷一遍就行。也能自己下載資料庫管理工具,找些數據練習。我用的是Sequel Pro。
附加學習:
如果這周的學習充裕,可以了解MapReduce原理。
來一道練習題,表A是用戶的註冊時間表,表B是用戶所在地,寫出各地區每月新註冊用戶的查詢SQL。掌握到這個程度,基本夠用,雖然往後工作中會有更多變態數據需求。
第五周:統計知識學習
很遺憾,統計知識是我最薄弱的地方,也是數據分析的基礎之一。
統計知識會要求我們以另一個角度看待數據。當你知道AB兩組的差異用平均值看是多傻的事情,你的分析技巧也會顯著提高。
這一周努力掌握描述性統計,包括均值、中位數、標準差、方差、概率、假設檢驗、顯著性、總體和抽樣等概念。詳細的數學推導不用細看,誰讓我們是速成呢,只要看到數據,知道不能怎麼樣,而是應該這樣分析即可。
Excel中有一個分析工具庫,簡單強大。對列1的各名詞做到了解。如果是多變數多樣本,學會各種檢驗。
(圖片網上找來的)
統計數字會撒謊 (豆瓣)
休閑讀物,有趣的案例可以讓我們避免很多數據陷阱。
深入淺出統計學 (豆瓣)
還是經典的HeadFirst系列,適應它一貫的啰嗦吧。
多說一句,老闆和非分析師不會有興趣知道背後的統計學原理,通常要的是分析後的是與否,二元答案。不要告訴他們P值什麼的,告訴他們活動有效果,或者沒效果。
第六周:業務學習(用戶行為、產品、運營)
這一周需要了解業務。對於數據分析師來說,業務的了解比數據方法論更重要。當然很遺憾,業務學習沒有捷徑。
我舉一個數據沙龍上的例子,一家O2O配送公司發現在重慶地區,外賣員的送貨效率低於其他城市,導致用戶的好評率降低。總部的數據分析師建立了各個指標去分析原因,都沒有找出來問題。後來在訪談中發覺,因為重慶是山城,路面高低落差比較誇張,很多外賣人員的小電瓶上不了坡…所以導致送貨效率慢。
這個案例中,我們只知道送貨員的送貨水平距離,數據上根本不可能知道垂直距離這個指標。這就是數據的局限,也是只會看數據的分析師和接地氣分析師的最大差異。
對於業務市場的了解是數據分析師工作經驗上最大優勢之一。既然是零經驗面試,公司肯定也知道剛入門分析師不會有太多業務經驗,不會以這個卡人。所以簡單花一周了解行業的各指標。
以知乎最多的互聯網行業為例。至少了解活躍用戶數,活躍用戶率,留存率,流失率,傳播係數等通用概念。
增長黑客 (豆瓣)
數據驅動業務的典型,裡面包含產品運營最經典的AAARR框架。部分非數據的營銷案例,如果時間不夠可以略過。此外產品和運營的入門讀物也能看,這裡就不推薦了。
網站分析實戰 (豆瓣)
如果應聘的公司涉及Web產品,可以了解流量的概念。書中案例以Google Analytics為主。其實現在是APP+Web的複合框架,比如朋友圈的傳播活動肯定需要用到網頁的指標去分析。
精益數據分析 (豆瓣)
互聯網數據分析的入門書籍,歸納總結了幾個常用的分析框架。比較遺憾的是案例都是歐美。
還有一個小建議,現在有不少第三方的數據應用,囊括了不少產品領域的數據分析和統計。自學黨們即使沒有生產環境的數據,也可以看一下應用Demo,有好處的。
除了業務知識,業務層面溝通也需要掌握。另外建議在面試前幾天收集該行業的業務強化一下。
第七周:Python/R 學習
終於到第七周,也是最痛苦的一周。這時應該學習編程技巧。
是否具備編程能力,是初級數據分析和高級數據分析的風水嶺。數據挖掘,爬蟲,可視化報表都需要用到編程能力。掌握一門優秀的編程語言,可以讓數據分析師事半功倍,升職加薪,迎娶白富美。(SAS/SPSS我不了解,所以不做指導)
這裡有兩條支線,學習R語言或Python。速成只要學習一條,以後再補上另外一門。
我剛好兩類都學過。R的優點是統計學家編寫的,缺點也是統計學家編寫。如果是各類統計函數的調用,繪圖,分析的前驗性論證,R無疑有優勢。但是大數據量的處理力有不逮,學習曲線比較陡峭。Python則是萬能的膠水語言,適用性強,可以將各類分析的過程腳本化。Pandas,sklearn等各包也已經追平R。
如果學習R,我建議看R語言實戰 (豆瓣), 照著書本打一遍代碼,一星期綽綽有餘。另外還有一本 統計學 (豆瓣) ,偏知識理論,可以複習前面的統計學知識。
R學習和熟悉各種包。知道描述性統計的函數。掌握DataFrame。如果時間有餘。可以再去學習ggplot2。
Python擁有很多分支,我們專註數據分析這塊,入門可以學習 深入淺出Python(影印版) (豆瓣) 。也是把代碼寫一遍。
需要學會條件判斷,字典,切片,循環,迭代,自定義函數等。知道數據領域最經典的包Pandas+Numpy。
在速成後的很長一段時間,我們都要做調包俠。
這兩門語言最好安裝IDE,R語言我建議用RStudio,Python我建議用 Anaconda。都是數據分析的利器。
Mac自帶Python2.7,但現在Python 3已經比幾年前成熟,而且沒有編碼問題。各類教程也足夠多,不要抱成守舊了。Win的電腦,安裝Python會有環境變數的問題,是個大坑(R的中文編碼也是天坑)。
到這裡,剛剛好是七周。如果還需要第八周+,則是把上面的鞏固和融會貫通,畢竟速成是以轉崗或拿offer為目的。
成為數據分析師後,坑才剛剛開始,努力吧。
所有內容都已經更新完畢了,因為知乎現在不允許帖鏈接,所以這裡不放了。大家可以看專欄,或者關注公眾號。
——我是無恥的軟廣——
歡迎關注我的公眾號(tracykanc),粉絲稀少,急需關愛。更新內容以運營和數據為主。
我和很多人一樣,不太喜歡快速這個詞,急於求成的結果是得不償失。
在這裡,我將題主的「快速」理解為如何在最短的時間內高效率的成為數據分析師。我想這才是題主的初衷吧!
首先,成為任何一個技術型工作的從業者最需要的就是掌握相關的專業技能,因此也可以這麼理解題主的話:如何在最短的時間內高效率的掌握數據分析知識從而達到找一份相關工作的資格!
在長篇大論之前,我先給題主來一粒定心丸:3個月零基礎入門數據分析師是一件完全可能的事!
看清楚哦,我說的是入門。入門基本上就是懂得了常規的數據分析知識並且據此找到一份簡單的工作!
知乎裡面有很多關於學習數據分析的帖子,寫的都很好。但是它們和快速沒有任何關係,你要完成那些大神們的書單貼,至少需要3、5年才行。因為那是一個perfect 的數據分析師,而不是入門級別的!
我簡單的將學習數據分析的同學分為三種:
1.學過計算機但不會統計學(新手)
2.學過統計學但不會計算機(小白)
3.統計學和計算機都不會(菜鳥)
他們的排名是: 菜鳥 &< 小白 &<= 新手。 無需置疑,菜鳥是最弱的級別,學習起來也是困難重重。小白和新手算是有一定的基礎,學習起來會比較輕鬆一點。 從我個人角度來看,我覺得計算機技術要重於統計學知識,因此我認為學計算機的同學更容易入門。 當然,無論處於哪一個級別你都需要做兩件事:
- 一份正確的學習計劃
- 一套正確的書籍
廢話不多說,先上書單:
上面這十本書,每一本都是經典。
它完美的解決了一個初級數據分析師應該掌握的技能:
- 統計學基礎
- 常用模型理論
- R和PYTHON
- 網頁分析
- 資料庫技術
- 實戰應用
簡單的描述下:
統計學無需置疑是一個數據分析師的核心功底,你只有學好了統計學才能談得上數據分析。
但是統計學又常常是不夠用的,我們還需要一些高級的模型來解決我們實際業務中的問題,比如:銀行需要判斷是否給某個客戶發放信用卡 這就需要一個高級的二分類模型。這裡我們的數據挖掘理論就派上用場了。
有了理論知識,我們需要用工具去實現我們的理論並加以應用。這個年代,已經沒有人會去手工計算某個問題了,R和PYTHON就是最負盛名的數據分析工具。 關於R和PYTHON的地位,題主可以百度,谷歌,知乎等搜索一遍。 至於如何學習,請看上面的書單!
如果致力於在互聯網領域發展,那麼網頁分析是你必看的一本書籍。這本是是大名鼎鼎的GA創始人著作,看一遍,做一遍會有一個不錯的收穫。
數據分析師是跟數據打交道的,我們的數據都是存儲在資料庫裡面的,因此掌握必備的資料庫技術是肯定要的!
以上就是對入門級別的數據分析師做的一個簡單的描述!
那麼,在對書籍有了一定的了解之後,具體的該怎麼學習呢?
首先,我給大家推薦一個我們自己錄製的視頻《零基礎指導學習數據分析》。下載地址如下:
SOTON第一課1.zip_免費高速下載
內有講義以及高清無碼的視頻。
我們將三個月分為三個學習階段,每個階段請務必保持每天3個小時以上的學習時間。這個時間要求不過分,不管是對學生黨還是上班族,三個小時總是抽的出來的。
第一階段:初識數據分析
這個階段是你學習數據分析的第一個月。核心的三本書就是:統計學、R IN ACTION、深入淺出數據分析。
第一星期:好好的閱讀一下統計學這本教材。按照每天3個小時的時間,一個星期你至少能看完8章。踏踏實實的看完,課後習題不需要做,重點放在理解公式推導以及專業名字定義的理解上。
第二星期:有了統計學基礎,R語言學習起來就不會太費勁。《R in action》 是公認的R語言經典教材。跟著書上的代碼仔細的敲一筆遍,你不需要全部看完這本書,只需要學會前8章左右就差不多了。 學完後你會對統計學有一個更深的認識~
第三個星期:《深入淺出數據分析》這本書很大頭,不是因為它內容多,而是因為它廢話和插圖多。很有意思的一本入門級別的教材,花一個星期好好的讀一下,能學多少是多少。
第四個星期:查漏補缺。經過前三個星期的學習,你一定有不少的疑惑或者遺忘了某些知識。不要著急,這個星期就是用來好好回顧一下你本月所學的東西,不懂的定義再看看,不會的代碼再敲敲,不懂的知識再google一下~
對了,再送你一個視頻唄。講的是如何利用EXCEL進行完整的數據分析流程:
初識數據分析-720P.zip_免費高速下載
第二階段:升級你的技能
第一個月只是讓你對數據分析有一個初步的認識,你已經可以秒殺20%左右的人了(我瞎猜的)
這個月就是要升級你的技能,在對已有的知識基礎上做一個升華。本月任務較重,小夥伴需要動腦和動手的地方比較多。
第一個星期:《數據挖掘導論》這本書絕對是一本良心教材。拿到手從第一章開始閱讀,在一個星期之內能看多少就看多少。但是要盡量多看點,因為此書你可能要看一輩子的~~不要做筆記,因為你做的筆記大部分時間都是在抄書,沒啥意思的。數據挖掘可不是記憶的東西,是要靠理解的!
第二個星期:來來來,python大法學起來。正所謂 life is short, I use python. 不要問那種爛大街的問題:R和PYTHON哪個好。 等你都學了,你就再也不會問這個問題了。 《利用PYTHON進行數據分析》是你學習PYTHON的不二之選,對著書,著重學習numpy,pandas兩個包! 對了,也要學會怎麼安裝PYTHON這也是技術活!
第三個星期:為毛感覺前兩個星期啥也沒學到?亂七八糟的! 沒事,這是正常的,難道你指望兩個星期就能學完數據挖掘嗎? 在此,你已經有了一定的Python,統計學,數據挖掘基礎知識,那麼是不是能夠講它們組合起來用一用呢? scikit-learn,你值得擁有。 看不懂沒關係,先去看看它們的文檔以及那些莫名的專業詞語。 然後接著學你的數據挖掘和PYTHON。
第四個星期:重複第三個星期的內容。對了,你是不是應該對R再做點事情呢?
第三階段:準備一個小小的畢業吧
前兩個月會過的很痛苦,很累,很煩躁!不用擔心,你終於來到了第三個月,這個月與前兩個月完全不一樣,因為這個月會更加更加的痛苦!!
在這個月,我們需要開始學習sql的相關知識。SQL絕對是數據分析師的必備技能,沒有之一。作為這個星球上一個通用的語言,它的存在使得我們進行數據處理時大大的提高了效率。既然SQL學了,那也就學學mysql吧,這是一個存儲數據的東西,你說它重不重要呢? 這兩個並不難學,稍微花點功夫就能入門了。
本月重點是重複第二個月的工作啊,繼續研究統計學、數據挖掘、PYTHON還有那可愛的R語言。怎麼研究? 這個還要來問我嗎? 書單都在上面了~ 看著書複習就行。 不要忘了那個神技:scikit-learn
對了,如果你想去互聯網公司投份簡歷,記得要把《網頁分析》這本書好好的過一遍,相信我,你只要看一遍,就能打敗百分之80 的面試官。因為他們壓根看不起GA。
你看,三個月入門數據分析師,並不是不可能嘛~~ 我敢說,你這三個月學到的知識已經可以擊敗一大半的所謂的數據分析師們了~~ Do not ask why, Just do it !!
我和我的一群英國小夥伴創建了一個微信公眾號:soton2014sky
就是和你們一起探索數據分析哇,現在好像已經有好幾千人了,你難道不要來逛一圈么?
掃一掃,即刻添加:
http://weixin.qq.com/r/t0xgeH-EQiI9rTsb9xml (二維碼自動識別)
入行之後,我才發現數據分析其實可以分為兩種:一種類似產品經理、一種偏向數據挖掘,類似產品經理向更加註重業務,對業務能力要求比較高;數據挖掘向更加註重技術,對演算法代碼能力要求比較高。
首先我說說這兩種方向共同需要的技術面,當然以下只是按照數據分析入門的標準來寫:
1. SQL(資料庫),我們都知道數據分析師每天都會處理海量的數據,這些數據來源於資料庫,那麼怎麼從資料庫取數據?如何建立兩表、三表之間的關係?怎麼取到自己想要的特定的數據?等等這些數據選擇問題就是你首要考慮的問題,而這些問題都是通過SQL解決的,所以SQL是數據分析的最基礎的技能,零基礎學習SQL可以閱讀這裡:SQL教程_w3cschool
2. 統計學基礎,數據分析的前提要對數據有感知,數據如何收集?數據整體分布是怎樣的?如果有時間維度的話隨著時間的變化是怎樣的?數據的平均值是什麼?數據的最大值最小值指什麼?數據相關與回歸、時間序列分析和預測等等,這些在網易公開課上倒是有不錯的教程:哈里斯堡社區大學公開課:統計學入門_全24集_網易公開課
3.Python或者R的基礎,這一點是必備項也是加分項,在數據挖掘方向是必備項,語言相比較工具更加靈活也更加實用。至於學習資料:R語言我不太清楚,Python方向可以在廖雪峰廖老師的博客里看Python教程,面向零基礎。
再說說兩者有區別的技能樹:
1.數據挖掘向
我先打個前哨,想要在一兩個月內快速成為數據挖掘向的數據分析師基本不可能,做數據挖掘必須要底子深基礎牢,編程語言基礎、演算法、數據結構、統計學知識樣樣不能少,而這些不是你自習一兩個月就能完全掌握的。
所以想做數據挖掘方向的,一定要花時間把軟體工程專業學習的計算機基礎課程看完,這些課程包括:數據結構、演算法,可以在這裡一探究竟:如何學習數據結構?
在此之後你可以動手用Python去嘗試實現數據挖掘的十八大演算法:數據挖掘18大演算法實現以及其他相關經典DM演算法
2.產品經理向
產品經理向需要你對業務感知能力強,對數據十分敏感,掌握常用的一些業務分析模型套路,企業經常招聘的崗位是:商業分析、數據運營、用戶研究、策略分析等等。這方面的學習書籍就很多,看得越多掌握的方法越多,我說幾本我看過的或者很多人推薦的書籍:《增長黑客》、《網站分析實戰》、《精益數據分析》、《深入淺出數據分析》、《啤酒與尿布》、《數據之魅》、《Storytelling with Data》
總之一百個人眼中有一百個哈姆雷特,一百個數據分析師對快速入門有一百種方法,但是萬變不離其中,以上是我的愚見,希望能對你有所啟發,所以收藏的話不如點個贊啦!
PS:我把一年多的學習經驗、書籍資源、面視經驗整理成了一本電子書,主要囊括Python入門、Python爬蟲入門、Python爬蟲進階部分,在微信公眾號「一個程序員的日常」後台回復關鍵詞「1」可以獲得這本精華電子書。
居然沒有人邀請我回答這個問題,傷心。
贊數:收藏數以 1 比 3 的比例增長,好玩。
題主說的快速是多快?一個月?三個月?半年?一年?
我這裡有一本 7 周速成互聯網數據分析師的秘籍你要不要?我是認真的,不開開玩笑,這是一條捷徑,但是是有前提的。
不同行業不同公司要求會很不一樣,比如說銀行做數據分析、建模會要求 SAS/SQL,而互聯網行業數據分析只要會 SQL 就可以了。再比如說小公司可能會要求還會 R/Python 什麼的,但是稍微中型一點的公司比如說 Facebook 只需要會 SQL 就行了。乍一看有點奇怪,但其實也不奇怪,因為大一點的公司基礎設施 (infra) 做得好,很多事情比如說 A/B test 這種都自動化了,不需要專門寫代碼。
接下來的內容都搞照中型以上互聯網公司為例。
數據分析師需要三個方面的能力:技術(編程),數據分析方法,行業知識。
1. 技術
技術方面剛剛說了,就是SQL, 20 個小時,假設文科生,同時對自己要求高一點,最多 80 個小時可以搞定了。
按照這個學習 http://www.w3schools.com/sql/default.asp
評論里說上面這個鏈接打不開,所以奉上中文版的:SQL教程_w3cschool
重點需要注意的:where / group by / order by / left join / right join / inner join / null / not null / having / distinct / like / union / avg / sum / min / max
學完之後再搜索一下 "SQL hardest questions", 做做練習。
當然除了 SQL 之外,Excel 也是要會一點的。不過 Excel 這玩意兒基本多少都會那麼些吧,比如說做個圖,算算總合、平均之類的,稍微複雜點的數據透視表 (pivot) 就夠了。話說我第一份工作的時候連數據透視表都不會,所以說如果你不會這個,那也沒關係。
如果 SQL 上手比較快,時間充裕,那就練練 Tableau, 主要目的是看看都有什麼樣的圖表,感受一下各自適用什麼樣的場景。具體怎麼做圖不是非常重要,真要用的時候搜索一下現學就好了。Tableau 很貴,所以下個試用版的就可以了,然後試用期學點最基本的就可以了。
這一共就假設用了 80 個小時吧,那麼 8 天過去了(沒算錯,都要速成了,那還不每天學習 10 個小時)。
2. 數據分析方法
經常被問到學習數據分析推薦哪些書,通常答案是我沒看過什麼數據分析的書,後來仔細想了想,還是有一些的。
Case in point. 經典的管理諮詢的書,哪個版本的都無所謂了,印象中大概看了一半左右。好像是因為懶,所以沒看完,也因為套路都是類似的,看一半也就差不多可以了。 -- 5 天
Introduction to Probability Models by Sheldon M. Ross. 應該是出到第 11 版了,但內容應該區別不大,看第一章就可以了,需要搞清楚條件概率,這個概念還是有點重要的。-- 4 天
然後再找本統計基礎的書(隨便哪本教科書都差不多,實在不行的話把 wiki 上統計長條目下的多看幾遍也可以),不要太糾結於理論、證明,時刻記住你要能把這些概念解釋給不懂統計的人聽,解釋不清楚的東西你也不用搞清楚。搞清楚幾種常見的分布,假設檢驗,假陽性,假陰性,區別估算,顯著性差異,p-value,平均值,中位數,p1/p25/p50/p75/p99,相關性,因果性,倖存者偏差,大數定律,80/20。-- 10 天
Thinking, Fast and Slow. 當科普書看看就好,如果看不下去的話那就看《牛奶可樂經濟學》。-- 2 天
3. 行業知識
很不幸,這一部分就真的沒有什麼書可以看的了,基本都靠搜索,總結,思考,再搜索,總結,思考。。。
如果平時對互聯網、科技行業相對比較關注,這一部分會上手很快,了解一些基本概念,試用一些產品,基本上 20 天肯定可以了。
比如說這裡面總結的資源,都是我入行之前通過搜索引擎總結出來的:
求職互聯網數據分析,如何準備行業知識? - 鄒昕的文章 - 知乎專欄
基本上把這些搞清楚,也差不多可以入門了吧。
看,加起來正好 49 天,7 周速成班,你要不要試試?數據分析入門並不難,難的是之後的積累才是重點,如何在實際工作、項目中真正發揮數據分析的作用,產生價值。就我個人來說之前在信用卡行業做了兩年多,然後轉到互聯網行業的數據分析,現在又做了半年多,感覺自己除了入門啥都不懂,每到周五下午都很開心,不是因為到周末了,而是因為又一周過去了,而我還沒有被走人。
之前做了300頁的PPT專門講過網站分析,外加前幾年做微博運營時積累的大量PPT以及工具、圖表,大概有好幾G(Ps,私信要PPT的同學不點個贊么,淚奔中……)。
如果你只想學一些數據相關的知識,來提升自己做產品,做運營的能力,那麼強烈建議你關注這個回答!(不適合數據分析師)
入行互聯網的契機是做了一個「網站分析」的微博賬號,做自媒體跟真正的實踐者還是有很大距離的,所以推薦一個list的,如果你對網站分析有興趣,可以專註這些大牛!
知乎上面的數據分析大神: @何明科@鄒昕
網站分析領域的: @宋星@胡力 @joeghwu 《網站分析實戰》作者 @ 孫立東《網站分析基礎教程》作者之一 @王彥平(藍鯨)
一、如何入門互聯網數據分析
1、網站分析是一種能力
對於大部分人互聯網從業者而言,網站分析是一種能力,因為基於網站分析之上的結論可以指導運營、產品、設計、技術的同事的工作。
2、網站分析解決的問題
即分析出:
用戶是誰(目標用戶),
從哪裡來(流量從哪裡來,流量的價值等),
到哪裡去(為什麼離開,如何降低用戶流失)
3、對於產品OR運營,網站分析能做什麼
對於產品:
產品改版是否合理?
用戶的反饋如何?
哪些功能存在問題?
功能使用頻率?
轉化路徑是否靠譜?
對於運營:
用戶來源路徑?
用戶活躍度如何?
如何分配廣告預算
網站內容是否有效?
如何分解KPI?
4、為什麼進行網站分析
5、網站分析的核心
二、網站分析的流程
定義問題——測量——分析——改進——維持
三、定義問題
如何你已經知道如何有效的去描述一個問題,那麼你已經成功了一半了,因為你知道問題,而且也知道如何去問。
工作可不是試券設計好問題來問你,首先得你自己發現問題。
比如如註冊轉化率的降低就跟非常多的問題是正相關的。
產品支持度是否足夠?
頭像上傳
郵箱驗證
必填資料
營銷是否到位?
新老訪客比如何
外界口碑如何
問題的要素:本質、現象、特徵、量化
定義一個問題:即給整個團隊確認一個方向,圍繞著這個目標往下分解,制定計劃,在計划具體執行的過程中發現了某個問題,再來具體分析的。
所以作為一個網站分析師,立足點應該是從公司 戰略出發, 了解產品,運營,技術,商業邏輯等等層面的知識,給公司的發展提供大量的建議。
商業產品運營設計,的推薦書單:
《財富》雜誌推薦的75本商業必讀書
豆瓣豆列的推薦人數達 1316人,收藏人數達 6291。目前我讀看過的不到十分之一,但是確實有助於從事網站分析的同事提升商業格局。
互聯網產品經理 全方位入門
@蘇傑 老師整理的互聯網產品經理全方位入門書籍。豆瓣豆列的推薦人數達986人,收藏人數達 7774。慚愧,只看過豆列裡面20%的書。
噹噹,僅僅通過讀書是無法培養行業格局的,還需要善於向人請教、善用網路資源、自己體驗、實踐等等。
強烈推薦大家關注 @鄒昕 Facebook的數據科學家,以及他的專欄文章
求職互聯網數據分析,如何準備行業知識? - 鄒昕的文章 - 知乎專欄
四、測量
收集數據。
目前常用的數據流量監測的工作:
Google AnalyticsGoogle 網站分析工具
OmnitureOmniture SiteCatalys
twebtrendswebtrends
sitemeterReal time web analytics
ClickyReal time web analytics
CrazyeggHeatmap features
WoopraReal time web analytics
PiwikOpen source
ChartbeatReal time web analytics
ClickTracks ProCustom ROI Analysis
GoingUp!Web Analytics SEO
One SWeb analyticstatWeb analytics
MixpanelReal-time Funnel analytics
CNZZCNZZ數據專家
我要啦網路流量統計
51yes網路流量統計
百度統計百度統計工具騰訊分析主要針對論壇
99Click99Click統計
JYC統計JYC統計聚合分析與shopex結合的電商流量監控工具
孔明統計孔明數據分析
比如教育行業的數據,可以從一些行業數據收集的網站中找到
另外,作為不會寫程序的產品OR運營,只能通過第三方的工具或者平台來拿到數據了,或者向技術同學提需求。
感覺數據的方式太小兒科了,強烈推薦大家關注 @何明科
並且可以在以下問題當中去膜拜一下。
有哪些網站用爬蟲爬取能得到很有價值的數據? - 何明科的回答
做投行、行研、諮詢等金融崗位,有沒有什麼好用的找數據技巧呢? - 何明科的回答
技術才是第一生產力。如果會一些 SQL或者Python,獲取的數據太要太精彩哇……
推薦書籍:
做數據分析不得不看的書有哪些? - 知乎用戶的回答
這個問答下面推薦的書,基本都是關於數據挖掘或者獲取的。
五、分析、改進、維持
比如某遊戲的玩家行業軌跡是這樣的
於是分析的時候決定重點關注新用戶的流失問題
流失的任務類型分析:
操作複雜
任務不平滑、不流暢
升級緩慢
有組隊任務或者其他互動任務
案例選自,@陳嘉慶 在幾年前的分享,侵刪。
然後就是不斷的循環優化著。分析出問題,確認用戶的需求,改進產品,進一步統計並維持提升結果。
分析的流程方法大概如此,比較好掌握,但是具體到工作當中,遠非這幾句話能解釋當的,所以慢慢實踐成長吧。
推薦的書:
1.精益數據分析
2.轉化:提升網站流量和轉化率的技巧
3.數據分析 :企業的賢內助
4.網站數據分析:數據驅動的網站管理.優化和運營
5.人人都是網站分析師:從分析師的視角理解網站和解讀數據
6.圖解網站分析
網站優化研究工具:
群英網站監測24小時免費監控網站是否正常運行
百度站長工具網站問題初步診斷
谷歌站長工具網站問題初步診斷
Google AdWords Keyword ToolGoogle AdWords關鍵詞工具
Microsoft adCenter LabsMicrosoft Keyword Research
4Q4Q用戶調研工具
limesurvey用戶調研工具(需下載客戶端,問卷設計收集一體)
usertesting網站可用性測試——號稱1小時發現你的網站問題
surveymonkey用戶調研
surveygizmo用戶調研
Question Pro用戶調研User Voice用戶調研
問卷星中文在線問卷調查問道網中文在線問卷調查
Google Website OptimizerGoogle網站優化工具
Visual Website OptimizerA/B測試工具
Vertster多變數測試工具
Split Test CalculatorA/B測試計算器
Google Analytics API谷歌分析數據調用
Data Feed Query ExplorerData Feed URI
競爭對手流量趨勢監測:
Alexaalexa中國
WebSearch Ranking海外網站排名
Compete.com海外類alexa工具,但做的更多更細
Google Trends for Websites谷歌站點流量趨勢
百度指數關鍵詞趨勢查詢,熱門指數可參考百度風雲榜
Google Ad Planner可查詢網站流量上下游的谷歌產品
個人微信賬號zyulaoshi02,所需要PPT均可在朋友圈找到下載鏈接!
本文將從一個數據分析師的所需要的整體知識框架和能力入手,和大家分享一個優秀的數據分析師是怎樣煉成的。
主要會講數據分析師的演變、數據分析價值體系、數據分析師必備的四大能力、七大常用思路以及實戰分析案例。
近些年,互聯網公司對數據分析師崗位的需求越來越多,這不是偶然。
過去十多年,中國互聯網行業靠著人口紅利和流量紅利野蠻生長;而隨著流量獲取成本不斷提高、運營效率的不斷下降,這種粗放的經營模式已經不再可行。互聯網企業迫切需要通過數據分析來實現精細化運營,降低成本、提高效率;而這對數據分析師也提出了更高的要求。本文將和大家分享數據分析師的演變、數據分析價值體系、數據分析師必備的四大能力、七大常用思路以及實戰分析案例。
Part 1 | 數據分析師的前世今生
在介紹數據分析師之前,我們先來看一下這幾個歷史人物,看看他們都跟數據分析師有著怎樣的淵源?
(歷史上大名鼎鼎的「分析師」)
上面展示的六個歷史人物(從左往右,從上往下)分別是:張良、管仲、蕭何、孫斌、鬼谷子和諸葛亮。他們是歷史上大名鼎鼎的謀士,有的還做過丞相。他們博覽群書、眼光獨到,通過對大量史實進行總結髮現了很多規律,並且在實踐中成功預測了很多事件。他們通過 「歷史統計——總結分析——預測未來」的實踐為自己的組織創造了絕大的價值,而這就是「數據分析師」的前身。
那麼現在,數據分析師需要哪些必備技能,如何成為一名優秀的數據分析師呢?
Part 2 | 數據分析師的價值金字塔
一個完整的企業數據分析體系涉及到多個環節:採集、清理、轉化、存儲、可視化、分析決策等等。其中,不同環節工作內容不一樣,消耗的時間和產生的價值也相差甚遠。
上面這幅圖是「數據分析師的價值金字塔」。
互聯網企業數據分析體系中至少有三方面的數據:用戶行為數據、交易訂單數據和CRM數據。工程師把不同來源的數據採集好,然後通過清理、轉化等環節統一到數據平台上;再由專門的數據工程師從數據平台上提出數據。這些工作佔用了整個環節90%的時間,然而產生的價值卻只佔10%。
這個金字塔再往上數據分析就和業務實際緊密結合,以報表、可視化等方式支持企業的業務決策,涵蓋產品、運營、市場、銷售、客戶支持各個一線部門。這個部分佔用了整個環節才10%的時間,但是卻能產生90%的價值。
一個優秀的商務數據分析師應該以價值為導向,緊密結合產品、運營、銷售、客戶支持等實踐,支持各條業務線發現問題、解決問題並創造更多的價值。
Part 3 | 數據分析師必備的四大能力
1. 全局觀
某日,產品經理跑過來問我:Hi, 能不能幫我看一下昨天產品新功能發送的數據?謝謝!條件反射我會說:好,我馬上給你!不過我還是禮貌性地問了一句:為什麼需要這數據呢?產品經理回復道:哦,昨天新功能上線了,我想看看效果。知道了產品經理的目的,我就可以針對性地進行數據提取和分析,分析的結果和建議也就更加具有可操作性。
很多時候,數據分析師不能就數說數,陷入各種報表中不能自拔。一個優秀的數據分析師應該具有全局觀,碰到分析需求的時候退一步多問個為什麼,更好地了解問題背景和分析目標。
2. 專業度
某企業的數據科學家針對用戶流失情形進行建模預測,最終得到的用戶流失模型預測準確率高達90%多。準確率如此之高,讓商務分析師都不敢相信。經過檢驗,發現數據科學家的模型中有一個自變數是 「用戶是否點擊取消按鈕」 。而點擊了「取消」按鈕是用戶流失的重要徵兆,做過這個動作的用戶基本上都會流失,用這個自變數來預測流失沒有任何業務意義和可操作性。
數據分析師要在所在行業(例如電商、O2O、社交、媒體、SaaS、互金等等)展示她/他的專業度,熟悉自己行業的業務流程和數據背後的意義,避免上面的數據笑話。
3. 想像力
商業環境的變化越來越快、越來越複雜,一組商業數據的背後涉及到的影響因素是常人難以想像的。數據分析師應該在工作經驗的基礎上發揮想像力,大膽創新和假設。
根據矽谷公司的核心 KPI(Facebook 的 4-2-2 準則,LinkedIn 的 connection 規律),我們也想找到互聯網企業驅動增長最核心的 KPI。基於我們的想像力和「無埋點」全量數據採集的優勢, 我們創造了「GrowingIO 留存魔法師」 。通過全量採集的數據,智能自動的後端計算,以及簡單的使用交互,留存魔法師可以幫助企業迅速找到與其留存最相關的用戶行為,就像魔法師輕輕揮動魔法棒一樣簡單。例如某 SaaS 產品 ,在一周內創建過 3 個圖表的用戶(群)留存率非常高,那麼「一周+3個+圖表」就是我們驅動用戶增長的魔法數字。
4. 信任度
以銷售崗位為例,一個銷售人員首先要和用戶建立起信任;如果用戶不信任你的話,那他也很難信任或者購買你的產品。同理,數據分析師要和各部門同事建立良好的人際關係,形成一定的信任。各個部門的同事信任你了,他們才可能更容易接受你的分析結論和建議;否則事倍功半。
Part 4 | 數據分析常見的七種思路
1. 簡單趨勢
通過實時訪問趨勢了解產品使用情況,便於產品迅速迭代。訪問用戶量、訪問來源、訪問用戶行為三大指標對於趨勢分析具有重要意義。
(分鐘級的實時走勢分析)
(以星期為周期的趨勢對比)
2. 多維分解
數據分析師可以根據分析需要,從多維度對指標進行分解。例如瀏覽器類型、操作系統類型、訪問來源、廣告來源、地區、網站/手機應用、設備品牌、APP 版本等等維度。
(多維度分析訪問用戶的屬性)
3. 轉化漏斗
按照已知的轉化路徑,藉助漏斗模型分析總體和每一步的轉化情況。常見的轉化情境有註冊轉化分析、購買轉化分析等。
(多維度分析訪問用戶的屬性)
4. 用戶分群
在精細化分析中,常常需要對有某個特定行為的用戶群組進行分析和比對;數據分析師需要將多維度和多指標作為分群條件,有針對性地優化產品,提升用戶體驗。
(購買過產品的、資金已贖回的、過去 14 天內有強力購買意願的用戶)
5.細查路徑
數據分析師可以觀察用戶的行為軌跡,探索用戶與產品的交互過程;進而從中發現問題、激發靈感亦或驗證假設。
(通過細查路徑分析用戶的行為規律)
6. 留存分析
留存分析是探索用戶行為與回訪之間的關聯。一般我們講的留存率,是指「新增用戶」在一段時間內「回訪網站 / app」的比例。 數據分析師通過分析不同用戶群組的留存差異、使用過不同功能用戶的留存差異來找到產品的增長點。
關於更詳細的留存分析,可以看我這篇文章 你能找到的最深入的留存分析文章 - 留存 · 增長 · Magic Number
(留存分析發現「創建圖表」的用戶留存度更高)
7. A/B 測試
A/B 測試就是同時進行多個方案並行測試,但是每個方案僅有一個變數不同;然後以某種規則(例如用戶體驗、數據指標等)優勝略汰選擇最優的方案。數據分析師需要在這個過程中選擇合理的分組樣本、監測數據指標、事後數據分析和不同方案評估。
Part 5 | 數據分析實戰案例
某社交平台推出付費高級功能,並且以 EDM(Email Direct Marketing,電子郵件營銷)的形式向目標用戶推送,用戶可以直接點擊郵件中的鏈接完成註冊。該渠道的註冊轉化率一直在 10%-20% 之間;但是 8 月下旬開始註冊轉化率急劇下降,甚至不到 5%。
如果你是該公司的數據分析師,你會如何分析這個問題呢?換言之,哪些因素可能造成 EDM 轉化率驟降?
一個優秀的數據分析師應該具有全局觀和專業度,從業務實際出發,綜合各個方面的可能性。因此,EDM 註冊轉化率驟降的可能性羅列如下:
1. 技術原因:ETL 延遲或者故障,造成前端註冊數據缺失,註冊轉化率急劇下降;
2. 外部因素:該時間節點是否有節假日,其他部門近期是否有向用戶發送推廣郵件,這些因素可能稀釋用戶的注意力;
3. 內部因素:郵件的文案、設計是否有改變;郵件的到達率、打開率、點擊率是否正常;郵件的註冊流是否順暢。
經過逐一排查,數據分析師將原因鎖定在註冊流程上:產品經理在註冊環節添加了綁定信用卡的內容,導致用戶的註冊提交意願大幅度下降,轉化率暴跌。
一個看似簡單的轉化率分析問題,它的背後是數據分析師各方面能力的體現。首先是技術層面,對 ETL(數據抽取-轉換-載入)的理解和認識;其實是全局觀,對季節性、公司等層面的業務有清晰的了解;最後是專業度,對 EDM 業務的流程、設計等了如指掌。
練就數據分析的洪荒之力並非一朝一夕之功,而是在實踐中不斷成長和升華。一個優秀的數據分析師應該以價值為導向,放眼全局、立足業務、與人為善,用數據來驅動增長。
本文作者陳明 Justin,GrowingIO 聯合創始人 運營副總裁。陳明畢業於斯坦福大學,先後就職於 eBay、LinkedIn 數據分析部門,有豐富的商務分析經驗。
註:文中實時分析、留存、用戶分群等功能截圖來自 GrowingIO - 矽谷新一代數據分析產品最近我也在招聘數據分析師,看了幾百份簡歷,面試了幾十個人,和許多不同背景想要轉型數據分析的同學都有比較深入的交流。
看到越來越多的人想要轉行數據分析師,因為崗位的平均收入高,發展前景好,也是不容易被機器替代的核心職能。
但是並沒有太多人考慮過,為什麼數據分析這個職能的收入會更高一些?而且這些年以來,一直都很高?
數據分析師的崗位收入高,經濟學解釋當然是專業人才供不應求。數據分析的崗位需求越來越多,但是滿足條件的人才太少。
滿足條件的人才太少,不是感興趣的人少,很多人都知道數據分析的崗位收入高(十幾年前,美國收入最高的崗位中就包括精算師、統計學家,就像很多人都知道程序員收入高一樣),主要矛盾是因為人才產量過低。即便是在數學系、計算機系這些硬核專業中,能夠好好學數學、好好學編程、好好學邏輯思考,並且堅持下來的人,數量其實比想像中還要少很多。美國的大學每年從計算機、數學、機械工程等STEM專業轉出到心理學、管理學等軟專業的同學是轉專業人群的主力。
產量少,需求大,決定了數據分析崗位的收入高。產量一直很少,需求持續放大,也決定了數據分析崗位的前景會一直很好。
對於想要轉型數據分析的同學來說,這裡面的關鍵詞並不是崗位需求大,那是外部客觀世界,很容易通過統計數據確認。真正要思考的關鍵詞是產量少,因為大多數人最終都沒有辦法成為一個靠譜的數據分析師,只能重複從入門到放棄的循環。
我和上千位數據工作者、數據學習者打過交道(http://Kesci.com目前有近兩萬名數據分析師、數據科學家用戶),目前得到的一個觀察是,「成為數據分析師」即便對於數學、計算機類的同學來說,也是一個成功率很低的目標,對於其他專業的同學來說,只會更久、更難一些。
這裡所說的數據分析師,是真正掌握了數據分析技能,並且通過分析創造商業價值的人,不能參與業務決策的數據分析師其實是沒有很多價值的。在公司只是在重複操作SQL、Excel等基礎工具的數據處理專員(大企業,比如如銀行、製造業,目前還是以這類數據崗位為主),這些崗位並沒有太多壁壘,可以通過2-3個月的培訓掌握,也很容易被自動化替代。
真正的主要矛盾並不是快速轉型,因為轉型大概率會失敗,心懷「快速」就更容易放棄了。(就像90%的創業公司三年之內都會關門、大部分的企業轉型也都失敗)
真正值得討論的問題是,如何提高自身轉型數據分析師的成功率,並且持續成長,面對未來一次又一次的數據技術的升級(現在平均每5-7年都會有一次數據技術的整體升級)。
結合我自己的經歷(我本科學的是財務,研究生讀統計學,做過金融數據諮詢,目前在做數據人才平台 http://Kesci.com),以及和大量數據分析師、演算法工程師的交流,這裡總結一個針對普通人(高智商大牛在人群中的比例大概是5%,基本啥事兒都能自己搞定,這裡針對的是95%的普通人)的框架,希望提高青年同學轉型數據人才的成功概率。
首先是看似廢話但很必要的建議,如果心理素質允許,一定要控制「快速轉型」的衝動。我當初用了大約一整年在和「快速轉型」的衝動做鬥爭,又有一整年在和數學、編程帶給人的「挫敗感」、「無力感」做鬥爭,兩年過去之後,終於可以進入「快速轉型」的良性循環了。
《禪與摩托車》書中有個金句:「倉促本身就是最要不得的態度。當你做某件事的時候,一旦想要求快,就表示你再也不關心它,而想去做別的事 」
只要選對了方向、堅持下來,就算轉型和成長慢一些,也不吃虧(Facebook不是第一個社交網路、Alibaba不是第一個電商平台,Google不是第一個搜索引擎..)。中國經濟的數字化、智能化轉型,才剛剛起步,建設數字化的新中國,還需要幾十年的努力呢。
人和人之間的差距往往不在撞線速度,更在於「複利效應」,短期速成的衝動反而破壞了「複利效應」的可持續性,欲速則不達。成為數據分析師的過程中的「複利效應」,歸納一下可以發現有這幾點:(8月7日更新)
轉型數據分析的動力、
數據分析的知識積累、
對於數據分析的興趣、
數據分析工作的成效,
這四者之間如果能夠構成良性循環,那就能夠產生不錯的「複利效應」。
框架很簡單,要講透其實也很複雜,涉及到的因素和關係很多,認為本答有價值的同學請點個贊,鼓勵一下啦,我會絞盡腦汁讓這個回答更有價值一些。
我計劃未來四周每周講透一個點,整理一些比較好的資源和工具,歸納關鍵點和風險點,勾勒出一張「更穩」成為數據分析師的路線圖,希望能夠對各位未來的數據人才有一些幫助和啟發。
關於轉型成為數據分析師的動力。(8月10日更新)
可能是由於中國的應試教育的原因,中國的老師和學生普遍對於「學習動力」都不太重視,而往往更加重視能力。在大部分的中國高校的課程中,老師並不會告訴你為什麼要學這門課,它的價值和意義又是什麼。課堂的畫面往往是:老師點名之後,馬上進入黑板公式推導的環節,認真的同學們開始埋頭記筆記,其他的同學則默默打開手機。
人們對於動力的漠視,有兩個重要因素,一是認為動力不太重要(相比能力而言),二是認為自己對於某件事物的動力是穩定而無法改變的。
事實上,動力不僅很重要,而且比能力更加重要(越是長期的尺度下,動力就越重要),學習的過程很漫長,會不斷陷入這些場景:
很多的誘惑(A:"來來來,搞一盤農藥",B:「...」)、
很多的困惑(A:「你之後打算做什麼?」,B:「...」)、
很多的羞辱(A:「你怎麼微積分考這麼差?」,B:「...」)、
很多的無奈(A:「你好像不適合學數學嘛」,B:「...」)。
如果沒有強烈的、穩定的動力,如何面對這些高頻的負能量?
數據分析的知識體系,在入門階段給人帶來的挫折感和無力感,可以說是人類的信息文明進化到高級形態後的必然結果。幾百年以來最聰明的數學家、計算機科學家的知識結晶,要塞到你的腦袋裡面,無論什麼姿勢都不會太舒服,不舒服就想放棄。好比人類進化出的這顆大腦袋,給孕婦分娩帶來的痛苦。
新東方教師李笑來本科也是學財務的,做了5年銷售工作後,想要轉行到新東方。當時的英語基礎肯定不如科班出身,笑來老師把投資模型(這是他的專業知識)用在了背單詞的動力管理上。
背了5000個單詞可以去新東方教書,假設年收入是30萬元,背一個單詞對應的年收入就是60元,而英語老師又是可以做上20年的崗位,這個單個單詞的總收益就是60*20 = 1200元。
如果一天能夠背下來50個單詞,所能創造的總收益就是1200 * 50 = 60000元。而當時,全國大部分的崗位一年的總收入都沒有60000元,笑來老師的這個思路,讓他的學習動力超越了大多數的人,考過托福(據說是高分)就去新東方上班了,然後一路開掛。
新東方的單詞老師也經常給學生講類似的故事,但是大部分學生並不信這套。估計笑來老師學的是財務,天然的思維就是 cost-benefit analysis。
轉型數據分析(或者其他類似有技術門檻的職業)的動力結構也是一樣的:
只有更清晰地看到一個知識體系(加上知識對應的職業生涯)所帶給自己的價值(X),才能夠產生足夠強的動力(Y),驅動一系列的行為(A)。
動力是個很主觀的東西,你看到的、相信的不一樣,動力也就會很不一樣。
當初為了確保我自己的動力,我基本遍歷了數據領域內的科普資料(整個大四階段的所有業餘時間),就是為了讓自己「看到」數據在未來足夠大的價值,並且「相信」這個價值一定能夠被兌現,從而讓自己產生「箭在弦上、不得不發」的動力,也就是給自己灌高能雞湯。在管理學裡面,這也叫做self-driven,自我驅動,其實也是一個需要通過學習掌握的技能,也是在企業界被越來越重視的一個品質了。
當初對我影響很大的視頻材料有這些(BBC的製作人是真正有責任心和使命感的一群人,配樂到攝影,再到主持人的講解,都基本無可挑剔):
《BBC-數學的故事》
看到了數學發展的歷史,才能夠看到數學會如何進一步改變我們世界的未來。
《BBC-Code》
為什麼自然世界、人類世界是可以通過數學來理解、預測和控制的。
《BBC-統計的樂趣》
統計學為什麼如此重要,為什麼如此有趣,為什麼和你我都如此息息相關。
《BBC-數據的時代》
這個世界已經一隻腳進入了數據時代,實在不想做停留在門外的另一隻腳。
這些視頻在大B站基本都有,~( ゜▽゜)つロ 。
如果看完這四個視頻,覺得數據分析不重要、或者自己和數據分析仍沒有什麼關係、或者不想學習數據分析的話,可能說明數據和你確實沒有緣分,撩不起來,不要強求。
用一兩天看完了視頻,就可以再多花些時間看看乾貨了(大概要有一兩個月,每天2個小時的預算),通過書籍和報告來了解數據分析、數據技術將如何改變世界,「改變世界」這個詞已經被用濫了,我們需要更大的視角來理解,什麼叫做「改變世界」。
英文不太好的同學,可以首先看看那塗子沛老師的兩本書《大數據》和《數據之巔》,還有阿里的CTO王堅16年底出的《在線》,塗子沛、王堅都是國內為數不多的文理知識能夠打通的實踐型學者。三本書看完的話,基本上能夠認同「數據技術將會改變人類的未來,以及每個人的生活與職業」這個重要的論點了。(這種論點雖然字面上好懂,但是因為尺度太大,在機理上是很難透徹理解的,更難以聯繫到自己的生活和決策中)
對於數據技術的歷史趨勢有了一個基本脈絡之後,就可以看些更有深度的書籍了(思想原創性這方面不得不佩服美國的頂尖學者)。相比舍恩伯格著名的那本《大數據時代》,我更推薦《第二次機器革命》,後者的思想深度、邏輯連貫性和指導意義都要勝於前者,看完本書有種看完戰爭大片之後的蕩氣迴腸之感,也會逼著自己去思考、去改變。
最近還出了一個非常棒的課程,就是阿里的大軍師,曾鳴教授在得到APP上開的駐場課程《智能商業20講》,曾鳴是國內公認的戰略學研究第一人,又在中國戰略能力最強的公司做了十多年的軍師,在戰略視野和洞察上真是快修鍊成神了,而且曾鳴教授的表達非常清晰易懂,很適合初入職場的年輕人、大學生作為理解商業未來的學習材料。我自己是聽了三四遍,雖然收穫很大,還是覺得自己的理解不夠,畢竟洞察未來確實太不容易(所以很多人就乾脆直接放棄了),也很期待曾鳴教授即將出版的《智能商業》這本書。
英文比較好的,選擇就比較太多了。我推薦的是麥肯錫的研究報告。作為世界上最好的戰略諮詢公司,麥肯錫在十年前就開始系統性地關注信息技術、互聯網技術、數據技術的變革對於商業會帶來的巨大影響,而且會定期發布質量極高的研究報告(報告發布的主體是MGI,McKinsey Global Institute),我至今還沒有看到有可以在持續性和深度上相媲美的系列材料。
麥肯錫的研究報告的目的是為了影響世界上最大的企業和政府機構的決策者,從而更好地銷售昂貴的戰略諮詢服務,這些500強的CEO當然都不是省油的燈。MGI的研究報告可以說是麥肯錫的金字招牌,是公司能力和價值的集中展現,聚集了整個公司的資源和智慧。既然這些報告的目的就是影響最強的決策者,幫助他們做出更好的戰略決策、更好的把握未來,那對於年輕人如何理解經濟發展、如何做出職業的決策取捨來說,參考意義不可謂不大。
我這裡就按照時間順序,把和數據技術高度相關的幾篇報告做一個整理。麥肯錫的報告不僅數據詳實、文字優美流暢、經典的金字塔內容結構、配圖還非常精美,閱讀體驗很愉快。
《How IT enables productivity growth》,2002年10月,這篇文章就指出了信息技術是美國經濟增長最重要的推動力量之一,一流的經濟學家和管理顧問就是善於總結歷史、預判未來。關於預判未來,當然更牛的還有Kevin Kelly、托夫勒這些人,麥肯錫的報告的好處就是數據非常之詳實,邏輯論證也很細緻,很適合於KK的書作為宏觀和微觀的互補。
《Internet matters: The Net"s sweeping impact on growth, jobs, and prosperity》,2011年5月,這篇報告指出基於IT的互聯網技術,對於經濟增長、企業競爭力、就業正在發揮越來越大的影響,而目前數據採集、數據利用的閉環,最有效的途徑就是互聯網產品。(回頭再看這個報告還是覺得很震撼,這6年裡面,Amazon、Google、Alibaba、Tencent的股價平均都上漲了十幾倍,滴滴、美團、頭條、微信也破土而出,成為了超級獨角獸,互聯網的力量堪稱摧枯拉朽,再造了一個全新的數字經濟世界)
《Big data: The next frontier for innovation, competition, and productivity》,2011年5月,不像《大數據時代》這樣的暢銷書,這篇報告把大數據在各個行業的應用空間做了詳細的測算,數據技術如何降低成本、提高利潤做了精確的描述,也指出了數據分析人才的巨大缺口。可以說我就是看了這篇報告,對於數據技術的發展、前景、機會構建起了基本的認知地圖,才下定決心從金融行業辭職去轉專業讀統計學。
《Disruptive technologies: Advances that will transform life, business, and the global economy》,2013年5月,麥肯錫這篇報告也是堪稱經典,將10個最具有顛覆性的技術做了影響力的測算和排序。雖然沒有直接使用Big Data或者Analytics這個詞,但前四項技術都和數據技術高度相關,特別是第二項Automation of knowledge work。麥肯錫作為頂尖的諮詢公司很牛的一點就是善於算大賬,不同技術對於行業、崗位的經濟效益的影響的測算,對於選擇職業和技能的投資是很有借鑒意義的,這也是其自身的數據分析的強悍功底。當然這個尺度的經濟計量,並沒有絕對的精確,只有相對的精確。比如前些年新能源技術在國內也很火爆,但是麥肯錫認為能源技術的影響不及數據技術的十分之一,從現在能源行業和信息行業、數據崗位的收入差距和趨勢也能夠驗證這一點。
《China』s digital transformation》,2014年7月,我通過這篇報告接觸到了digital transformation這個概念,digital transformation也就是14年出版的《第二次機器革命》的主題。畢竟我們更多人還是要在中國做數據分析師,數據技術也只是整個digital transformation的一個重要組成部分,只有理解了自己的技能在整個中國的經濟變革的畫卷中的具體位置,才能夠明白自己有多少機會和空間、自己還缺什麼、需要補什麼。
《The age of analytics: Competing in a data-driven world》,2016年10月,這篇文章是《Big data: The next frontier for innovation, competition, and productivity》的續集,把數據技術分得很細一個個做商業化應用的介紹,是很有價值的全景式參考,也開始結合深度學習、人工智慧的發展趨勢討論數據技術的應用。
《What』s now and next in analytics, AI, and automation》,2017年5月,在2016年到2017年最重要的一個概念就是「人工智慧」了,這篇報告就分析了數據、智能、自動化這些概念與技術之間的區別與關聯,以及這些技術融合在一起之後,對於企業、行業、整個經濟體會有怎樣的影響(「Advances in robotics, AI, and machine learning herald a new era of breakthrough innovation and opportunity」),企業家、政治家以及我們每一個個體應該基於哪些原則去面對這個越來越深不可測、也越來越激動人心的經濟體。下面這張圖是崗位替代的比例分布,其實中國的大部分的年輕人都在做著重複性、低成長、可預測的工作,這些崗位被AI替代有人估計也就是5-10年,我們讀到碩士也就7年了,其實是個很快的過程。如果不能夠把握機遇,就會面臨越來越大的兩極分化,甚至崗位替代,這是一個很殘酷、很真實也很確定的未來。
讀完這幾本書和報告,其實也要不了多少時間,快的話一兩周,慢的話兩三個月,但是對於真正想要轉型數據分析的人來說,其實還是挺必要的。面對一個如此複雜的新領域,如果沒有對於意義、目的、前景、挑戰做好充分的準備,一上來就學習抽象而堅深的數學理論,很容易半途而廢。
我觀察到有個現象也是挺有意思的,男生買手機、買電腦,女生買衣服、買首飾其實都會挑選挺長時間的,當然一方面是享受購物的過程,更重要的是不想吃虧,比如決定要買一個手機,挑上一兩個星期很正常,畢竟手機對年輕人來說也沒那麼便宜。
可是另一方面,身邊很多年輕人在進行選擇崗位、選擇專業、選擇公司這些更加重大,但不花錢的決策的時候,篩選和研究的時候甚至還沒有挑手機的時間久,我見過一些高三學生選專業,甚至就是在一個周末和家裡人商量一會就定下來了,手機現在也就用一兩年,而專業、崗位則是影響終身的決策,應該說不僅是影響終身,還會直接影響到下一代。
說回來,要想轉型數據分析師,真的沒有那麼容易,從麥肯錫的報告中可以看到,大部分的企業的數字化、數據化轉型其實都不成功,過了三四年還在交學費的階段。在準備的階段,先把「為什麼要轉型」的問題做好研究工作,真正想清楚,再開始學習、積累、實踐也不遲,回頭看其實是磨刀不誤砍柴工。
最近公司的事情太忙碌,我的時間安排也欠妥,很抱歉沒有按照預先的計劃來做更新。下次我會再談談如何在轉型DA的路上,實現更有效的積累,以實現可預測、可控制的複利效應,感謝大家的關注和支持,祝學習快樂。
讓我來分享一個很不快速(需耗時一年),但包你從零基礎學到昏厥的學習教程吧:統計、SQL、R、Python、Tableau、Excel、Forecasting Machine Learning
1. 統計
統計需要掌握的姿勢:
- Descriptive Statistics
- Probability Concepts and Probability Distributions
- Sampling Distributions and the Central Limit Theorem
- Confidence Intervals
- Hypothesis Testing
- Analysis of Variance
- Chi Square and Nonparametric Tests
- Simple and Multiple Regression
想躲過統計???
入門課收好,Coursera上阿姆斯特丹大學的Basic Statistics,卡通配圖教學,和萌萌噠的你最配!!
- University of Amsterdam:Basic Statistics | Coursera (旁聽免費)
喏,還有一本簡潔易懂的step by step英文教材,也是我們課上用的教材~
- Basic Business Statistics by Mark L.Berenson Others
2. SQL
常用語句來來回回就那麼幾個,但是要熟,要熟,要熟!
簡歷上有SQL技能,很重要!!!很重要!!!
常用語句總結:SQL Quick Reference From W3Schools
再送你一門超好,超好,超好的MySQL課!Coursera!杜克大學!我太喜歡教課的那個溫柔美麗的大姐姐了~
- Managing Big Data with MySQL | Coursera (旁聽免費)
3. R
R和Python誰才是數據分析一哥,江湖上已經爭論很多年了,至今沒有定論...... 事實大概是Python的主要功能是編程,除了單純的數據分析,在很多領域還有廣泛利用,所以就業市場上對Python的需求是遠大於R。
R主要側重統計功能,在統計方面顯示出了很多的優勢,用R做單純的數據分析還是妥妥的穩穩的。但是往數據科學方向走的話,R就有點頂不住了,輪到Python揚眉吐氣了......
這兩門語言我都渣,只能說個大概,大家還需要自己去摸索這兩門語言的美~
我學R上的課是Coursera上Johns Hopkins University的經典R課程和在Data Application Lab實習的時候上的商業分析師培訓課。Coursera的那門課我上得不太走心,默默吐槽一下課程莫名散發著濃濃的時代感,老師有點面無表情,比較打擊我的學習激情...... 好吧,我知道我作......
後來實習的時候上公司的培訓課,教R的是個講話乾脆利落的小姐姐,才讓我重新喜歡上R......
- R Programming | Coursera (旁聽免費)
- 商業分析師 - Data Application Lab
作為一名主觀上比較站Python的小粉絲,我目前學過的R就這麼多啦!!大體了解了R的語言思維,碰到不會的問題再Google找代碼就差不多了~
另外,我在Udemy上找到一門R的課,看課程設置覺得還是挺不錯的,想學R的可以試試~ 關於Udemy上課程的價格補充一句,原價是嚇人的,常年打折,但是打折力度經常變來變去的,最便宜的時候一般是10-20塊的價格可以買到好課...... BTW,下面這門課目前15刀。
- R Programming A-Z?: R For Data Science With Real Exercises!
4. Python
Python 是一門可以讓人渾然忘我的語言......
這輩子學過韓語、日語、英語,和一丟丟R,但Python是我學得最有激情的......
最沉浸的那段時間裡,不管幾點回家,晚上睡覺前一定要看一點Python爬蟲才能安心睡下,晚上做夢也是爬蟲代碼......
我最開始接觸Python的時候上的課是Coursera上University of Michigan的經典系列:Python for Everybody,裡面包含五門專項課,除了最後一門Capstone,其他四門都刷過(沒寫作業)。
這門課非常實在,內容非常贊,上課的是個親切的老爺爺,學下來有助於你系統了解Python的功能~ 個人感覺 Using Python to Access Web 對於純小白來說可能有點難度~
提醒一下,如果你搜Python for Everybody,會發現...... 要交錢上啊!!!省錢小tip就是在搜索欄里一門一門搜專項課,進入專項課的頁面就可以免費旁聽了...... 同理適用於Coursera很多其他的系列課程。
University of Michigan: Python for Everybody | Coursera
- Programming for Everybody (Getting Started with Python) | Coursera
- Python Data Structures | Coursera
- Using Python to Access Web Data | Coursera
- Using Databases with Python | Coursera
- Capstone: Retrieving, Processing, and Visualizing Data with Python | Coursera
密西根大學還出了Python的數據科學進階課,包含了數據分析、畫圖和機器學習等內容:
- University of Michigan: Applied Data Science with Python | Coursera
另外,我還追過大神 @秦路 的運營大濕兄知乎專欄,從「開始Python的新手教程」 到「用Python分析用戶消費行為」,一共六篇文章,超快速入門Python數據分析。
Udemy上也有一門很棒的Python數據分析課,我目前在上,覺得好棒棒~
教numpy、pandas、畫圖、帶著練三個數據小項目,至此覺得內容量已經很良心了,老師竟然還教機器學習!!!20個機器學習視頻,用SciKit Learn這個包!還有還有!11個統計視頻!還沒完還沒完!還有幾個SQL和Web Scraping的小視頻!滿滿的良心學習大禮包~
- Learning Python for Data Analysis and Visualization
想必還有很多盆友們對爬蟲充滿了興趣......
學爬蟲當然要看崔慶才大神的系列教程啊!!!
文字版教程免費,使用的是Python 2.7版本↓
- Python爬蟲學習系列教程 | 靜覓
視頻教程499軟妹幣,之前有過折扣,印象中270多~
- Python3爬蟲視頻學習教程 | 靜覓
如果你只是比較隨意,不想玩那麼高深,或者你真的和我一樣窮,可以看看文字版教程,了解urlib庫、Requests庫、BeautifulSoup庫、Selenium庫以及正則表達式後,跟著崔大神的三個免費case練一遍~ 我覺得對於小白來說就差不多了~
- Python3爬蟲三大案例實戰分享
對於數據分析師來說,會爬蟲不屬於必備技能,那麼學爬蟲的意義是什麼呢?大神 @董偉明在他接近滿分的「爬蟲從入門到進階」的Live簡介中說得直戳心坎~
Hello World,醒醒啊!!!你的女神來了!!!
5. Tableau
終於,數據分析界的女神出場了!!!讓我們大聲喊出她的名字:T! A! B! L! E! A! U!
讀作「Tab-low」!!!
我身邊很多學Tableau的孩紙們,反應不是醬紫的,
就是醬紫的......
紛紛表示在這個看臉的時代,要好好學習女神軟體......
(Source: Best Practices for Designing Efficient Tableau Workbook)
憑藉著打娘胎起就異於常人的顏值,Tableau迅速躥紅,逐漸滲透進業界和美國高校。對於在美帝的數據分析師來說,Tableau也是簡歷上必備的技能之一。
我目前覺得學習Tableau的最好方式,還是去Coursera上上杜克大學的那門課,基本涵蓋入門到中高級操作,牆裂打call,牆裂推薦!!!真的好喜歡教課的杜克大姐姐......
- Data Visualization and Communication with Tableau | Coursera
另外,Tableau為了推廣自家軟體,在免費培訓方面也是做得很拼......
- Tableau Training Tutorials (中英文都有)
- Live Training Resources
- Webinars
還有很多很棒的Tableau使用者的case展示~
- Gallery
還有Moveover Monday Project,每周一po一個數據集和數據分析展示~
- A weekly social data project
至於有些人說,下載都這麼貴,土豪才學得起吧...... 只要你乖乖去上Coursera杜克大姐姐的課,會有驚喜......
6. Excel
無論你多喜歡Excel或者多不喜歡Excel...... 作為數據分析師,簡歷上有Excel技能也是必備......
最重要的當然是會Pivot Tables~
我也是通過DAL的商業分析培訓課學的Pivot Tables,如果你只想學Pivot Tables,可以去Udemy上這門↓
- Microsoft Excel - Data Analysis with Excel Pivot Tables
當然,還有一個免費的學習神器,YouTube啊~ 哈哈,Pivot Tables一搜一大把~
我真的非常熱愛YouTube,基本沒有YouTube不到的姿勢......
7. Forecasting
預測/時間序列也是我們數據分析僧要掌握的技能,不過學得比較淺顯,大概了解幾個預測模型的原理和會用軟體操作就行了。我們用過的教材是Business Forecasting,有中文版,不過我相信你不會想看的......
- 商業預測 (豆瓣)
Udemy上依舊有葯!介紹Moving Average, Simple Exponential Smoothing, Double Exponential Smoothing / Holts, Winters / HoltWinters等模型以及在R和Tableau中的操作。
- Data Science-Forecasting/Time series Using XLMiner,RTableau
如果你對Tableau女神是真愛!可以去上Udemy新課,目前評價4.7分,感覺還挺不錯的樣子,反正是安利到我了~
- Forecasting and Time Series Analysis in Tableau
8. Data Mining and Machine Learning
想當年,剛接觸數據時,我還是個蠢萌的寶寶,在聽說「Machine Learning」這個東東的時候,內心是下面那樣的......
何方的妖魔鬼怪,尼瑪聽名字就不明覺厲......
入坑數據分析一年,但才剛接觸機器學習一個月(網課加這學期修的數據挖掘專業課),感覺難度明顯拔高了一級,但越學越刺激,越學越稀飯~
目前還是個渣渣,不敢瞎說,就大概羅列一下機器學習入門需要掌握的知識點和網上的學習資源吧:
- Linear Regression
- Logistic Regression
- Decision Trees
- k-Nearest Neighbors
- Naive Bayes Classification
- Discriminant Analysis
- Neural Nets
- Support Vector Machines
- Cluster Analysis
- Random Forest
- Natural Language Processing
如果沒聽說過吳恩達男神的機器學習王牌課程,那你一定是假的數據猿......
- Machine Learning | Coursera
說實話,沒上男神的Machine Learning前,我還挺不理解為什麼這個看上去其貌不揚的大叔,有這麼多死忠信眾...... 每次大叔的動向更新,都跟地震一樣...... 娶的老婆還是跟他智商一樣上天高的女神大牛!約翰霍普金斯的CS博士......
如果你和曾經的我一樣迷惑,請去Coursera上課...... 順帶必須提一句,男神還是Coursera的聯合創始人啊!!!我的前半生沒有Coursera,但是後半生必須要跟Coursera緊緊相依......
反正現在的我是痛哭流涕著入吳恩達教了......
之前我在Python部分介紹的Udemy的Python數據分析課中,也涉及一部分機器學習的內容:
- Learning Python for Data Analysis and Visualization
內容設置很贊,也很系統的數據科學課程還有:
- University of Michigan: Applied Data Science with Python | Coursera
以上就是我總結的一些數據分析經典姿勢~ 其實還有Decision Analysis(主要講概率)和Optimization,大家就自行去YouTube吧,視頻很多~
一年前的今天,我沒開始刷網課,不會SQL,不會R,不會Python,不會Tableau,不懂Forecasting,更不知道機器學習是什麼鬼...... 就修了兩門專業課,統計和Optimization(Excel Modeling),僅此而已......
按照這份教程一點點啃完,其實你也可以在家DIY出半個名校學生(如果不提名校的校友資源和networking機會等的話)~
大家可以再參考一下幾個美國出名的數據分析項目的課程設置:
- University of Texas -Austin | MS in Business Analytics
- USC | MS in Business Analytics
- University of Chicago | MS in Analytics
最後再來個勵志的故事,我最新關注的一個YouTuber,Harrison Kinsley。小哥畢業於Sam Houston State University(懵逼臉),專業是Philosophy and Criminology(茫然臉),畢業後就開始創業,自學python編程,並在網上po免費python教程,還創立了一個python學習網站,YouTube上目前有27萬多粉絲。
如果你好奇小哥怎麼賺錢存活?小哥說,他一周就能接好幾個offer...... 你們沒聽過的公司一堆一堆的,全宇宙人民都聽過的大公司Facebook和Apple的offer他都有...... 另外他還做諮詢賺錢,生計完全不愁......
既然你都讀到這兒了,看來也是數據的真愛,那就一起學到昏厥吧!
感謝大家的厚愛點贊~看了評論區討論,想補充一些:
1.這個工程量的確蠻大的,因為我目前是學生,除了學習也沒啥事干...如果圖快的話,先挑重點的學,統計(看個人基礎)+MySQL(只需要一周,快的話1-2天都不是沒可能)+R(熟悉語言思維+熟悉幾個常用包+會google/度娘搜代碼怎麼寫,也花不了太長時間,深入的內容以後慢慢補)。Tableau初到中級操作和Excel都屬於甜點級別的,相對輕鬆。Python的數據分析這塊兒也不難,學過R以後很快也能上手Python分析,國內不清楚,在美國基本R或Python二選一就能找數據分析的入門工作。
機器學習/數據挖掘/Python數據科學方向的操作,就需要有點功底了,會碰到比較基礎的線性代數和微積分,我現在也在機器學習階段跪著,等我順利通關了再跟大家繼續分享...但是我覺得比功底更重要的是,對數據的興趣!!!我大學學韓語,連微積分和線性代數都沒修過,現在也是在一點點補...吳恩達的機器學習網課,我剛上完Week 3,Week1-Week3的內容我刷了三遍,邊刷邊補微積分,才明白了大半。。。只要有熱情,有耐心,不會的東西反覆啃,就當用訓練機器的方式來訓練自己的大腦...這個過程也挺有意思的,哈哈。
2.還有很多人說,這個教程的重點是,英語要好...這個有那麼一丟丟道理,不過這些技術課中的英語真的不難,基本沒有生澀的單詞,真的很好聽懂。。。而且全部有英文字幕。。。
3.推薦的課裡面,Coursera都是可以免費旁聽的,Udemy的課10-20刀。
4.歡迎關注我的知乎專欄喲,不定期看心情寫數據乾貨@聶大哥有毒。我是一枚腦洞很大的數據媛,略略略~
個人背景:
自學數據分析、在2個月後找到數據分析實習
陸陸續續有過3次數據分析崗位實習經歷
最終阿里巴巴數據分析師崗位
一、數據分析師是什麼?
(在做事以前,先想想你要做什麼:想成為數據分析師,首先得弄懂什麼是數據分析師,才能把握學習的方向)
第一,每個公司對於數據的利用程度是不一樣的。
? 創業公司初期一般是不會重視數據的價值的,因為重點是在產品上,如何做好產品來吸引用戶。並且用戶數量少、產品結構單一,數據很難發揮出價值。
? 到第二輪、第三輪融資時,一般DAU達到百萬級別。此時投資人會需要看你的數據,看公司的運營發展變化情況,此時,就會出現報表這種東西——就是把核心的指標,DAU、MAU等一系列列成一張巨大的時間序列表,觀測每天的發展趨勢。但此時,對於數據的利用也就僅僅局限在核心指標的匯總計算上。此類公司的數據分析師的工作可能就是生成報表,研究指標周期變化趨勢等。
? 公司穩定發展後,可以通過埋點等方式獲取海量、多維度的數據後,便可以做更多的事情。比如根據用戶的多維度屬性,研究用戶畫像、將用戶聚類等;根據用戶瀏覽網頁或者App的路徑數據,研究用戶行為偏好等;根據用戶的評論文本數據來甄別是否是惡意用戶等。此時,可以利用海量、多維度的數據做很多的事情,而不單單是簡單的數據指標、數據報表。此類公司不僅僅有數據分析師,還會有數據挖掘師,演算法工程師等。數據分析師的工作會研究用戶行為、用戶偏好等。
? 當公司發展到產品豐富、商業模式多樣化的成熟狀態後,數據是海量的,業務模式是多樣的,如何最大程度的利用數據產生價值是此類公司所追求的。就像馬雲提出的觀點:阿里巴巴不是零售公司,是數據公司。此時會出現諸多與數據相關的崗位,如基礎層的數據研發工程師,數據架構師等,應用層的數據分析師、演算法工程師、數據挖掘師等,上層的數據產品經理等。從數據獲取,到數據的應用,再到數據產品的研發,目的就是最大限度的實現數據的價值。此類的數據分析師,由於業務的複雜性,往往也會分成幾類。有針對各個業務線的分析師,有針對整個公司、整個集團橫向研究商業發展的分析師(戰略分析),也有針對所在市場做市場研究的分析師(市場研究)。
第二,每個公司對於數據分析師的概念定義也是不一樣的。
正是由於每個公司發展階段的不同,以及所在行業、業務類型的不同,以及對崗位理解的不同,導致每個公司、甚至同公司的不同部門、再甚至同公司同部門的不同團隊,對於數據分析師的概念定義、崗位要求也是不同的。這個千人千面,真的不能給出一個固定的答案。
好了,說了這麼多,你還是會問:你說了這麼多,我還是不知道我要應聘的那家公司的數據分析師是做什麼的啊?
二、如何了解應聘公司數據分析師崗位內容和崗位要求呢?
(做事講究「戰略方向」:如何找准做事的方向?)
第一、很簡單,看校園招聘的崗位要求啊^_^
我發現真的很少有人會去仔細的讀崗位描述和崗位要求。
以阿里巴巴校園招聘數據分析師的崗位描述為例來說:
【與業務線同學一起搭建業務監控指標體系併產品化】。指標體系是每個業務最基礎、最根本的數據表現形式,非常重要,每個數據分析師都得知道每個指標的含義與口徑。工作熟悉後,需要根據業務變化來調整指標體系。產品化的意思就是指形成一個產品平台,而不僅僅是excel。
【監控指標體系,及時發現業務問題,進行異動指標分析或深度的專題分析定位問題並尋求解決方案】。用戶行為一般都是較穩定、緩慢變化的。當一個指標穩定時,說明業務發展穩定;當勻速增加或者勻速下降時,說明業務在穩定發展或者倒退;當出現劇烈波動時,一般是業務上有了新的動作,比如做了推廣活動、業務模式改變,或者是技術上的問題導致數據有誤。因此,需要及時和業務方溝通了解業務動態,進行專題分析,拆解指標,定位問題,得到解決方案。
【為業務團隊提供專題分析、數據分析與挖掘、模型及演算法等相關服務】。對數據分析師較高的要求。專題分析,即針對某個具體的問題深入研究分析,最後定位到具體的問題,給出具體的解決方案;xxxx等相關服務,說的比較籠統,意思就是用這些方法更好的服務業務(額,廢話),舉個例子,在某次大促期間,根據時間序列等挖掘方法,預測每天的入口流量,運營同學就可以依據此來更好的分配流量到各個賣家,更好的服務了運營同學。
【主動的尋找機會獲得資源並落地;提煉數據產品需求,提供數據產品解決方案,並最終推動數據產品落地】。這個層次簡直太高了,我也只能仰望之!主動獲得資源並將項目落地,是指比如新的戰略方向下來了,有個新的項目,就會有相應的業務調整,會產生數據,就需要數據分析師對這個新的項目進行分析。這個一般都得是團隊leader牽頭做這個事;提煉數據產品需求、給出解決方案,即將數據需求產品化。
【你需要組織數據技術與產品相關的理念、技能、工具的培訓】。額,這個目標應該還夠奮鬥至少15年吧。這都已經是數據部門的大boss、數據培訓講師級別的了。
總結而言,如果你能夠做到前面2點的話,已經很不錯了;做到第3點,已經是加分項了。後面2點,你還年輕,別想太多。^_^
【熟練掌握excel、sql、ppt】······能不能不這麼瞎說大實話,我們真的是只需要會excel、sql、ppt。sql取數,excel展示指標,ppt做展示。但我們能只會這些,完全也是得益於阿里巴巴數據中台,站在巨人的肩膀上,就會省下很多的時間,讓你更加專註於數據分析的本質。如果是其他公司的話,還需要看具體的崗位要求,這裡不再贅述。
【熟練掌握excel、sql、ppt】······能不能不這麼瞎說大實話,我們真的是只需要會excel、sql、ppt。sql取數,excel展示指標,ppt做展示。但我們能只會這些,完全也是得益於阿里巴巴數據中台,站在巨人的肩膀上,就會省下很多的時間,讓你更加專註於數據分析的本質。如果是其他公司的話,還需要看具體的崗位要求,這裡不再贅述。【擁有良好的溝通表達能力】不解釋。
【所學專業是數學、統計、運籌學或其他專業】數據分析師的專業很雜,很多管理類的都ok啊。專業不是限制。
第二、搜索相應公司的面試題、筆試題。
筆試題和面試題也說明了相應的崗位要求。比如你搜「阿里巴巴 數據分析師 筆試」「網易 數據分析師 筆試」,對比一下,就發現完全是2種風格。
第三、有師兄的話,直接問啊。
這點需要你有相應的資源。當然,現在互聯網渠道這麼多,你想認識的話,總可以認識。
三、硬性技能有且僅有2項:sql+excel
( 基礎技能是數據分析師的招式)
第一、Sql
sql是所有資料庫查詢的語言,sql由於本身結構化的特點,非常容易入手。
針對不同的資料庫,如mysql、sqlserver、oracle等,sql語法會有所不同,但是總體上大同小異,只是細微處的差別。
而且如果你有資料庫基礎的話,只需要找些sql查詢的習題來做一下,就會很快的得到提高。
1、資料庫基礎
資料庫基礎知識複習
其實這篇文章講的就是所有要點,可以有針對性的了解不熟悉的。大概5小時。
2、sql習題
經典SQL練習題
SQL查詢語句練習題27道
我當時就是在網上找了一些sql 的練習題做。大概10小時就可以掌握。
第二、Excel
我想每個人有有些Excel的基礎吧。數據格式、函數、透視表這些或多或少都會了解。你已經有了基礎水平!
再接下來,推薦《Excel2010數據處理與分析》,我當時就是把這本書從頭到尾看了下來,有種excel大神的感覺!大概15個小時。
四、軟實力——業務理解能力
(軟實力體現數據分析師的功力)
數據分析師都是服務於業務的,為業務作支持,因此,必須建立在對業務、商業的百分之百的了解之上。因此,業務理解能力非常重要那麼日常如何了解業務呢?
第一、公司內部的文檔、師兄、公司網站。
不贅述,積極主動學習就好。
第二、外部渠道。
1、科技媒體、垂直媒體
虎嗅網:虎嗅網
特點:很多原創、深度的商業資訊、評論文章。
36氪:36氪_為創業者提供最好的產品和服務
特點:關注創業類的資訊。
網易科技:網易科技頻道_有態度的科技門戶
特點:大而全,善用搜索
2、報告網站:
艾瑞諮詢:艾瑞網-生活夢想 科技承載
特點:很多行業報告,可以知道專業的報告需要怎麼寫。
Useit知識庫:Useit 知識庫-從基礎到前沿
特點:許多行業研究報告。
3、行業協會
行業協會會有行業最新的發展動態、發展現狀、政策等,也會有統計年鑒一樣的數據,都非常好。
例如:
中國汽車工業協會:中國汽車工業協會
中國汽車工業協會統計信息網:汽車工業協會統計信息網
善用搜索,可以搜索行業+協會+統計等關鍵字。
中國智能家居協會:中國智能家居協會
4、企業官網
企業官網上有很多關於業務規則、活動動態等諮詢。
例如京東快報,掌握京東最新活動動態:更多專題- 京東
5、公司財報
上市公司都會公布財報。
例如阿里巴巴財報。阿里巴巴集團
但是注意,我們所看到的文章,也是分類的:
第一類:資訊類,就是事實羅列為主,像新聞一樣,比較客觀不帶評論。
如:網上超市血拚價格 1號店天貓超市比「低價」--北京頻道--人民網
第二類:分析類,一般在事實的基礎上,加上對行業的分析和評論,做到有理有據。
如:京東商超三年稱霸?又一場終將覺醒的「黃粱美夢」
第三類:軟文,吹捧。行業間存在競爭,公司會和某些市場研究的人員合作寫軟文進行吹捧。
因此,在閱讀過程中,需要懂得辨別這三類。看數據時,要注意數據的口徑與時間效度;看事實陳述時,懂得辨別真偽;看分析結論時,辨別是否有理有據。
通過對各種資料的閱讀、理解、整理,得到對商業模式充分的理解,包括:主體有哪些,主體之間的關係怎樣,數據怎麼在業務之間產生,價值如何在價值鏈中流動。只有明白了業務的整體情況,才能建立正確的數據分析假設方向、正確的數據意義、構建完整的指標體系等。
業務的理解建立在長期的積累之上,數據分析師的功力大小很大程度上取決於業務理解積累的大小。但是如果要快速入門的話,可以在上述這些渠道中,搜索自己所在的行業,多閱讀,多總結,20小時快速入門。
這個問題出來很久了,看了幾個高票的答案,作為大數據領域唯一真正老仁波切 @北冥乘海生 ,我覺得有必要出來做一些補充。
實際上,成為一個優秀的數據分析師,並不是靠單打獨鬥的個人能力可以做到的。這就好比以色列空軍在貝卡谷地空戰中87:0的戰績,靠的是一個現代化的空中作戰體系,而不是渾身是膽的飛行員。因此,您想成為優秀數據分析師的話,就需對下文所說的整個現代數據分析體系有深入的理解,並驅動這一體系在你負責產品中的不斷完善,而不是僅僅掌握幾個工具了事。為了突出方法論的重要性,我們在本答案中也將淡化具體的工具,只是告訴大家要做什麼,應該選取哪一類工具。
想成為一個優秀的數據分析師,關鍵是建立如下四段式的工作方法論:
一、建立明確的優化目標函數
如果只用一個特徵來判斷數據分析師的水準,那就是對唯一目標函數的敏感程度。什麼,這聽起來很簡單?不然,我們會發現有如下幾個常犯的錯誤:
1. 同時優化多於一個的目標函數。你做一個推薦系統又想優化點擊率,又想優化多樣性,又想優化新鮮度,最後一定是哪個也優化不好。正確的方法,是確定一個目標,其他的變成約束,篇幅有限就不展開說了。
2. 目標函數的評估並非嚴格量化,要靠人的判斷。如果每次目標都要人判斷好不好,那等於沒有目標,因為人是嚴重非理性的,這樣優化跟扔鞋的結果差不多。
3. 簡單copy一個看起來差不多問題的目標函數。這是個偷懶的辦法,有時候效果也還不錯。但是真正的高手,需要認真分析自己面對問題的本質,然後決定借鑒什麼,改變什麼,這需要一個長期的訓練過程。
任何一個領域在技術上的突飛猛進,其實都首先依賴於合理明確目標函數的確立。就拿互聯網變現的核心問題——計算廣告來說,其優化的目標函數非常明確,即單位流量上的利潤,而由於成本往往沒有單獨的優化空間,又可以簡化為單位流量上的收入,即eCPM(expected Cost Per Mille,千次展示期望收益),可以說,有了這個合理的目標,問題就解決了一大半:
這一步甚至根本用不到什麼工具,僅僅是一些案頭工作。不過我要強調,這是成為一個優秀的數據分析師最、最、最重要的能力,而且當面對一個新問題時,它的難度很可能超乎你的想像。
二、建立分布轉化漏斗,將目標分解為若干更加聚焦的子目標
僅有量化的目標函數往往還是不夠的,因為這個目標的達成可能經過多個環節,而分析師的任務是找出其中哪個環節出了問題並加以解決。
於是,工作的第二步,就是針對上面所說的各個環節,將目標函數分解成若干子目標。仍然拿廣告的問題為例,一個廣告從展示出來到產生效果,從用戶流程上看,可以分解為點擊和轉化兩個環節(如下圖所示),相應的兩個子目標,即為點擊率和點擊價值。
在這樣分解的基礎上,我們才能進行更加有針對性的數據優化:僅僅說eCPM低了,並沒有什麼卵用,我們還要看到底是點擊率低,還是點擊價值低。如果是前者,那麼有可能是創意不夠吸引人;如果是後者,那麼有可能是產品本身有問題。如此一來,才能有的放矢地進行優化。
再比如移動用戶增長這個任務,我們的目標函數時總用戶市場,此目標可以按下圖分解,並根絕前後兩各環節的數據比例制定一系列子目標:
要完善地記錄這樣的漏斗數據,我們需要用到網站分析或者應用分析的工具,前者比如GA,後者比如TalkingData,這些工具的功能都比較龐雜,還是那句話,眼中有目標,心中有漏斗,這些比熟練掌握工具中的奇技淫巧,要重要得多。
三、實現多維度數據聯合查詢,以便在子目標上定位問題
豎著切完了,還要橫著切。某一個環節的數據不好,有時候不見得是全局的問題,很可能是部分數據上的策略缺陷,甚至可能是某種特殊條件下程序上的bug。那麼怎麼把這個「特殊條件」找到呢?這就要靠靈活的多維度數據查詢分析。
所謂多維度數據分析,非常類似於給病人做CT:把病體一片片地切出來,看看到底哪個局部出了問題。比如下面的例子:
縱向地看,我們知道是註冊率這個環節出了問題,可能具體的問題在哪裡呢,可以需要橫向分解數據來分析。如下圖所示,我們把數據按照瀏覽器類型切分,可以明顯看出Chrome瀏覽器的數據太低了,很可能是一個bug!當然,有時候我們需要在類似於「瀏覽器+地域」或「時間段+操作系統」這樣的組合維度上找問題,這就要用到多維度的聯合查詢。
這一步要用到什麼工具呢?主要是資料庫上的SQL語言,和多維度聯合查詢的數據魔方(Data Cube)。數據魔方就是類似於下圖的一個系統,能任意抽取其中的子立方體獲得統計數據,這是不是很像CT?
四、構建靈活的實驗框架,主動進行新策略的探索
在已有的數據上刨食兒找問題,其實只是數據分析師一部分的工作,甚至可以說並不是最有挑戰性的工作。
我們真正希望數據做到的、是為產品進化插上翅膀。顯然,這要求我們主動地去探索一些新的策略和方案。可是,新的策略和老的策略,究竟哪個更好呢?從科學的角度來說,必須要在統計上完全一致的數據集上作比較,才能得到準確的答案。
顯然,上面的需求依賴於一個線上系統中的實驗框架,能夠靈活科學地切分流量。可是,問題的真正困難之處還不在這裡。實際上,一個產品演進的速度,取決於同時在單位流量上進行的實驗數量。這涉及到有關分層實驗框架的設計,由於篇幅有限,我們就不展開了。
有了實驗框架的支持,一個好的數據分析師應該儘可能依賴數據而非經驗作出判斷,比如下面的遊戲試玩優化過程,幾個問號都應該在合理的實驗框架中靠數據來決定,而非簡單相信策劃的理念和經驗。
當然,好的數據分析師,還應該清楚地知道數據作用的邊界,諸如感性用戶產品的設計、博弈性場景的優化,就不能夠完全依賴數據。
相信我,把我上面說到的幾點理解透徹了,您對數據分析的理解一定能上一個層次。不過呢,這隻能說是快速找到努力的方向,而快速成為優秀的數據分級師,是不太可能的,總要在實踐中加深認識和訓練技能才行。
如果您覺得本文有幫助,何不點個贊,讓更多的朋友看到呢?
[我是@北冥乘海生 ,想吸收更多負能量,請大家關注我的公眾號「計算廣告」(Comp_Ad)和知乎專欄「計算廣告」!也歡迎參與我的系列live:通往數據達人之路]
回答如何『快速』前,我們先來界定下什麼是『數據分析師』。
這是百度百科的一段定義:
數據分析師指的是不同行業中,專門從事數據收集、整理、分析,並依據數據做出行業研究、評估和預測的專業人員。
可以看到,一個數據分析師,不分行業,乾的事基本上包括了怎麼收集數據、怎麼分析數據、怎麼展現數據,並可能提供一定的預測、評估或分析建議等。
我們再來看下市場上對分析師是如何要求的,摘了兩個公司在拉勾上的任職資格:
1)具有業務敏感度,反應迅速,能夠良好溝通;
2)具有數據分析和數據倉庫建模的項目實踐經驗;
3)3年及以上數據分析經驗,有互聯網產品、運營分析經驗;
4)熟悉R、SAS、SPSS等統計分析軟體,熟練使用 SQL、Hive等;
5)本科或以上學歷,數學、統計、計算機、運籌學等相關專業;
——滴滴出行
1. 數理統計相關專業本科,2年以上數據分析相關工作經驗
2. 對數據敏感,有較強的數據分析判斷能力
3. 熟悉電商業務運營,熟悉電商BI系統的相關產品和數據分析模型
4. 熟練使用各種數理統計、數據分析、工具軟體,Excel、R等
5. 良好的溝通能力,文字表達能力,具備較強的撰寫分析報告的能力
——噹噹網
大家可以自個去搜一下,整體的要求大同小異,我對上述數據分析師的界定,就是側重業務方向的數據分析師,這跟有些同學各種『高大上』的挖掘、數據工程不太一樣,這倒是可以反過來定義為偏技術方向的發展路線。
當然,很多事,界限都是模糊的,尤其對牛人來說,技能都是通吃的。
這兩個方向,很明顯,技術路線,小白是比較難『快速』的,這就跟你說要快速成為一個醫生差不多,還是外科。反倒是業務方向,的確是短期內,比如三個月,是可以成為一個能獨自處理運營或產品需求的『數據分析師』。
限於本人經驗,下面分享的是在互聯網行業,如何快速成為一個數據分析師?我分幾個部分:
基礎
- 《計算機科學概論(第11版) (豆瓣)》,了解計算機基本原理,目標是知道一個網站或APP是怎麼運行的。
- 《深入淺出統計學 (豆瓣)》
- 養成每天看36氪之類的習慣,在這裡『讀懂』互聯網
數據採集
不論是自有平台,還是第三方分析工具,這一步其實不需要你自個採集,但你需要知道採集什麼,而最主要的輸出物就是設計指標體系和埋點方案。
- 《精通Web Analytics 2.0》
- 《精益數據分析》
提數和處理
這一步分兩種,如果你在甲方做數據分析,且是自有平台,你可能需要下面的技能:
- 《SQL必知必會》或者看關於SQL 教程_SQL教程_w3cschool
- Hive
而對於採用了第三方數據分析工具作為解決方案的時候,你可能需要了解並掌握第三方工具的使用,尤其是對於一些具有強大分析功能的工具,在完成數據接入後,基本上的統計和分析需求都可以直接在BI層面上拉取。
功能比較簡單的比如百度統計、友盟、TalkingData,靈活的比如谷歌分析、Mixpanel,還有我們神策分析 :)。這裡可以了解一些最基礎的網站分析概念:
- 《人人都是網站分析師》
數據分析
同樣,這一步如果是自有平台,你可能需要選擇會以下技能:
- 《利用Python進行數據分析 (豆瓣)》 或者 《R語言實戰》
- 學下 SAS或SPSS 軟體
- 偉大的Excel
當然,如果是第三方解決方案,很多分析需求都能直接通過可視化操作解決。
數據可視化
這一步最多的要麼是報表要麼是演示,你需要熟練得使用以下兩項技能:
- Excel
- PPT
到這裡,基本上,你已經是個合格的互聯網數據分析師了,可以應付大部分運營或產品的人提出來的統計和分析需求。
但回過頭來,這只是個速成方案,決定了你只是個菜鳥。
至少在業務這個方向上,我非常贊同上面一位同學 @基督山 的觀點,當你掌握了各項技能後,決定你一份報表或一份報告所能輸出的價值的大小,甚至是該統計哪些指標,用什麼樣的分析思路,都取決於你對業務的認知。
這個階段,我會建議你去看看營銷的書、運營的書、產品的書,去了解目前主流的推廣方式,去深入參與運營,去跟產品談用戶體驗......
————————————————如何快速成長為數據分析師———————————
————————————————————————————————————
Q1:職業指導篇
我小時候的理想是將來做一名數學家,可惜長大了發現自己天賦不夠,理想漸行漸遠,於是開始考慮現實,開始做一些人生規劃,我一直在思考將來從事何種職業,專註什麼樣的領域,重新定義著自己的職業理想。我現在的職業理想,比較簡單,就是做一名數據分析師。
為什麼要做數據分析師:
在通信、互聯網、金融等這些行業每天產生巨大的數據量(長期更是積累了大量豐富的數據,比如客戶交易數據等等),據說到2020年,全球每年產生的數據量達到3500萬億GB;海量的歷史數據是否有價值,是否可以利用為領導決策提供參考依據?隨著軟體工具、資料庫技術、各種硬體設備的飛快發展,使得我們分析海量數據成為可能。
而數據分析也越來越受到領導層的重視,藉助報表告訴用戶什麼已經發生了,藉助OLAP和可視化工具等分析工具告訴用戶為什麼發生了,通過dashboard監控告訴用戶現在在發生什麼,通過預報告訴用戶什麼可能會發生。數據分析會從海量數據中提取、挖掘對業務發展有價值的、潛在的知識,找出趨勢,為決策層的提供有力依據,為產品或服務發展方向起到積極作用,有力推動企業內部的科學化、信息化管理。
我們舉兩個通過數據分析獲得成功的例子:
(1) Facebook廣告與微博、SNS等網路社區的用戶相聯繫,通過先進的數據挖掘與分析技術,為廣告商提供更為精準定位的服務,該精準廣告模式收到廣大廣告商的熱捧,根據市場調研機構eMarketer的數據,Facebook年營收額超過20億美元,成為美國最大的在線顯示廣告提供商。
(2) Hitwise發布會上,亞太區負責人John舉例說明: 亞馬遜30%的銷售是來自其系統自動的產品推薦,通過客戶分類,測試統計,行為建模,投放優化四步,運營客戶的行為數據帶來競爭優勢。
此外,還有好多好多,數據分析,在營銷、金融、互聯網等方面應用是非常廣泛的:比如在營銷領域,有資料庫營銷,精準營銷,RFM分析,客戶分群,銷量預測等等;在金融上預測股價及其波動,套利模型等等;在互聯網電子商務上面,百度的精準廣告,淘寶的數據魔方等等。類似成功的案例會越來越多,以至於數據分析師也越來越受到重視。
然而,現實卻是另一種情況。我們來看一個來自微博上的信息:在美國目前面臨14萬~19萬具有數據分析和管理能力的專業人員,以及150萬具有理解和決策能力(基於對海量數據的研究)的管理人員和分析人員的人才短缺。而在中國,受過專業訓練並有經驗的數據分析人才,未來三年,分析能力人才供需缺口將逐漸放大,高級分析人才難尋。也就是說,數據分析的需求在不斷增長,然而合格的為企業做分析決策的數據分析師卻寥寥無幾。好多人想做數據分析卻不知道如何入手,要麼不懂得如何清洗數據,直接把數據拿來就用;要麼亂套模型,分析的頭頭是道,其實完全不是那麼回事。按俗話說就是:見過豬跑,沒吃過豬肉。
我的職業規劃:
對於數據分析,有一句話說的非常好:spss/sql之類的軟體、決策樹、時間序列之類的方法,這些僅僅就都是個工具而已,最重要的是對業務的把握。沒有正確的業務理解,再牛的理論,再牛的工具,都是白搭。做一名合格的數據分析師,除了對數據需要有良好的敏感性之外,對相關業務的背景的深入了解,對客戶或業務部門的需求的清晰認識。根據實際的業務發展情況識別哪些數據可用,哪些不適用,而不是孤立地在「真空環境」下進行分析。
為此,我對自己的規劃如下:
第一步:掌握基本的數據分析知識(比如統計,概率,數據挖掘基礎理論,運籌學等),掌握基本的數據分析軟體(比如,VBA,Matlab,Spss,Sql等等),掌握基本的商業經濟常識(比如宏微觀經濟學,營銷理論,投資基礎知識,戰略與風險管理等等)。這些基礎知識,在學校里盡量的學習,而且我來到了和君商學院,這樣我可以在商業分析、經濟分析上面領悟到一些東西,增強我的數據分析能力。
第二步:參與各種實習。研一開始我當時雖然有課,不過很幸運的找到一份一周只需去一兩天的兼職,內容是為三星做競爭對手分析,當然分析框架是leader給定了,我只是做整合資料和往ppt里填充的內容的工作,不過通過兼職,我接觸到了諮詢行業,也向正式員工學習了很多商業分析、思考邏輯之類的東西。之後去西門子,做和VBA的事情,雖然做的事情與數據分析無關,不過在公司經常用VBA做一些自動化處理工作,為自己的數據分析工具打好了基礎。再之後去了易車,在那裡兼職了一個多月,參與了大眾汽車銷量數據短期預測的項目,一個小項目下來,數據分析的方法流程掌握了不少,也了解了企業是如何用一些時間序列模型去參與預測的,如何選取某個擬合曲線作為預測值。現在,我來到新的地方實習,也非常幸運的參加了一個央企的碼頭堆場優化系統設計,其實也算數據分析的一種吧,通過碼頭的數據實施調度,通過碼頭的數據進行決策,最後寫成一個可操作的自動化系統。而這個項目,最重要的就是業務流程的把握,我也參與項目最初的需求調研,和制定工作任務說明書SOW,體會頗多。
第三步:第一份工作,預計3-5年。我估計會選擇諮詢公司或者IT公司吧,主要是做數據分析這塊比較強的公司,比如Fico,埃森哲,高沃,瑞尼爾,IBM,AC等等。通過第一份工作去把自己的知識打得紮實些,學會在實際中應用所學,學會數據分析的流程方*,讓自己成長起來。
第四步:去自己喜歡的一個行業,深入了解這個行業,並講數據分析應用到這個行業里。比如我可以去電子商務做數據分析師。我覺得我選擇電子商務,是因為未來必將是互聯網的時代,電子商務必將取代傳統商務,最顯著的現象就是傳統零售商老大沃爾瑪正在受到亞馬遜的挑戰。此外,電子商務比傳統的零售商具有更好的數據收集和管理能力,可以更好的跟蹤用戶、挖掘潛在用戶、挖掘潛在商品。
第五步:未知。我暫時沒有想法,不過我希望我是在一直的進步。
有一位數據分析牛人曾經總結過數據分析師的能力和目標:
能力:一定要懂點戰略、才能結合商業;一定要漂亮的presentation、才能buying;一定要有global view、才能打單;一定要懂業務、才能結合市場;一定要專幾種工具、才能幹活;一定要學好、才能有效率;一定要有強悍理論基礎、才能入門;一定要努力、才能賺錢;最重要的:一定要務實、才有reputation;不懂的話以後慢慢就明白了。
目標:1-做過多少個項目?2-業務背景有哪些,是否跨行業?3-做過多少種類型的模型?做了多少個模型?4-基於模型做過多少次完整的marketing閉環?以上四個問題,足以秒殺95%以上的忽悠和菜鳥!
我僅以此為努力之坐標,時刻提醒自己。
路在前方,漫漫前行。
這是我當年看到的最有價值的一遍見解。
——————————————————————————————————
Q2:數據分析師的職業背景要有哪些?技能要有哪些?
數據分析師職位要求 :
1、計算機、統計學、數學等相關專業本科及以上學歷;
2、具有深厚的統計學、數據挖掘知識,熟悉數據倉庫和數據挖掘的相關技術,能夠熟練地使用SQL;
3、三年以上具有海量數據挖掘、分析相關項目實施的工作經驗,參與過較完整的數據採集、整理、分析和建模工作;
4、對商業和業務邏輯敏感,熟悉傳統行業數據挖掘背景、了解市場特點及用戶需求,有互聯網相關行業背景,有網站用戶行為研究和文本挖掘經驗尤佳;
5、具備良好的邏輯分析能力、組織溝通能力和團隊精神;
6、富有創新精神,充滿激情,樂於接受挑戰。
——————————————————————————————————
Q3:要看哪些書?
作者:麵包君
鏈接:數據讀書分享系列篇(1):那些年數據分析師必讀書單 - 數據分析俠 - 知乎專欄
——小白篇——
1.大數據時代
2.浪潮之巔
3.互聯網創業密碼
4.從0到1
5.決戰大數據
6.塊數據
7.大數據預測:告訴你誰會點擊、購買、死去或撒謊
8.信號和雜訊
9.數據之巔
10.跨界:開啟互聯網與傳統行業融合新趨勢
11.刪除:大數據取捨之道
12.互聯網思維:工作、生活、商業的大革新
——菜逼篇——
1.數據化管理:洞悉零售及電子商務運營
2.轉化:提升網站流量和轉化率的技巧
3.社交網站的數據挖掘與分析
4.數據分析 :企業的賢內助
5.淘寶大數據
6.網站數據分析:數據驅動的網站管理.優化和運營
7.人人都是網站分析師:從分析師的視角理解網站和解讀數據
8.大數據營銷:定位客戶
9.數據挖掘與數據化運營實戰 :思路.方法.技巧與應用
10.大數據分析:決勝互聯網金融時代
11.分析的力量
12.網站數據挖掘與分析:系統方法與商業實踐
——菜鳥篇——
1.誰說菜鳥不會數據分析(工具篇+入門篇)
2.EXCEL圖表之道/如何製作專業有效的商務圖表
3.決策分析:以Excel為分析工具
4.Word/Excel/PPT 2013商務辦公從新手到高手
5.實用數據分析
6.深入淺出數據分析
7.構建高效數據分析模板:職場必學的Excel函數與動態圖表高級
8.SAS統計分析與應用從入門到精通(第2版)
9.IBM SPSS數據分析與挖掘實戰案例精粹
10.從零進階!數據分析的統計基礎
11.Excel 2010函數與公式
12.Excel高效辦公.數據處理與分析
——高手篇——
1.集體智慧編程
2.利用Python進行數據分析
3.數據挖掘與R語言
4.R語言與數據挖掘最佳實踐和經典案例
5.R的極客理想工具篇
6.數據挖掘 :實用案例分析
7.R與Hadoop大數據分析實戰
8.深入理解大數據:大數據處理與編程實踐
9.數據挖掘:實用機器學習工具與技術
10.R語言與網站分析
11.Mahout演算法解析與案例實戰
12.演算法心得:高效演算法的奧秘
——大神篇——
1.大數據管理:數據集成的技術、方法與最佳實踐
2.HADOOP技術內幕系列
3.MYSQL技術內幕
4.Storm 實時數據處理
5.Spark快速數據處理
6.Oracle資料庫性能優化的藝術
7.Oracle達人修鍊秘籍:Oracle 11g資料庫管理與開發指南
8.Hadoop應用開發技術詳解
——————————————————————————————————
Q4:數據分析師需要掌握哪些工具?
這個層其實有很多分析工具,當然我們最常用的就是Excel,我經常用的就是統計分析和數據挖掘工具;
- Excel軟體,首先版本越高越好用這是肯定的;當然對Excel來講很多人只是掌握了5%Excel功能,Excel功能非常強大,甚至可以完成所有的統計分析工作!但是我也常說,有能力把Excel玩成統計工具不如專門學會統計軟體;
- SPSS軟體:當前版本是18,名字也改成了PASW Statistics;我從3.0開始Dos環境下編程分析,到現在版本的變遷也可以看出SPSS社會科學統計軟體包的變化,從重視醫學、化學等開始越來越重視商業分析,現在已經成為了預測分析軟體。
- Clementine軟體:當前版本13.0,數據挖掘工具,我從6.0開始用,到了13版,已經越來越多的提高了更多有好的建模工具,現在改名叫PASW Modeler 13建模器了。而且與SPSS統計功能有了更多的整合,數據處理也更加靈活和好用。
- SAS軟體:SAS相對SPSS其實功能更強大,SAS是平台化的,EM挖掘模塊平台整合,相對來講,SAS比較難學些,但如果掌握了SAS會更有價值,比如離散選擇模型,抽樣問題,正交實驗設計等還是SAS比較好用,另外,SAS的學習材料比較多,也公開,會有收穫的!
- R軟體:開源,擴展性比較強,很適合做數據統計和數據處理。
- Python軟體:上手難度很低,特別是在金融分析領域應用廣泛。
——————————————————————————————————
Q5:數據分析師可以到哪些地方和論壇交流?
記得當時我們都是在數據分析聯盟QQ群彼此認識了很多朋友,雙哥、偉哥、donna、Doris、冬冬好多朋友,現在做的好的社區沒有幾家,也可以多關注關注梁勇做的【天善智能】社區。
——————————————————————————————————
Q6:作為一個小創業公司的數據分析師,如何成長?
1.多積累自己的職場經驗,怎麼和其他部門溝通;
2.多和這個行業的人交流,尋找更多的機會。
——————————————————————————————————
也可以關注微信公眾號「數據分析聯盟」,微信號 datafa,關注BAT的職場信息。
關注知乎專欄「數據分析俠」,聊聊技術、人生和創業。
————2015.12.22更新——————————
其實這些都是很粗略的規劃,應該來說大家遵循這樣走,基本上都能走上牛逼的道路。而現實是殘酷的,比如你會面臨工作和家庭的平衡,數據分析職場的困惑,職場發展的瓶頸,主管的不如意,行業的變遷,工作地的跳來跳去等等瑣碎的問題。
有興趣的可以多看看首篇大型網路數據分析故事《數據分析俠A的成長故事》數據分析俠A的成長故事 - 數據分析俠 - 知乎專欄
在這裡你可以參考下職場都會遇到什麼問題,在這裡你可以跟著數據分析俠一起3,5年快速成長,在這裡你不再迷茫,在這裡我們一起來創造大數據時代!時代因我們而不同!
歷史會記住我們這些數據分析俠們!
斟酌這篇回答已經一年多了,前面大家的回答中提到了很多成為數據分析師的路徑、學習工具、書籍和網站。
我想說,如果只是想進入數據分析的門檻,成為一名普通的數據分析師,那麼這些方法是可以的。
但我相信,任何一個人都希望能夠更進一步。對於數據分析師而言,更進一步意味著從專註於某一細分業務的分析師成長成為能夠對一個部門乃至於一個公司、行業有所影響的專家。所以在這裡我想和大家分享一下如何成為一名戰略型的數據分析師,乃至於數據專家/科學家。
與普通的數據分析師不同,戰略型的數據分析師或者說數據專家/科學家,更多的是站在數據的角度來引領公司的整體戰略。其面臨的挑戰、壓力以及目標比普通的數據分析師要大的多。
作為一名數據專家/科學家,
你需要高屋建瓴,通過數據對行業的趨勢進行預判,為公司的整體戰略制定提供建議;
你需要以公司戰略為目標,從整體搭建數據分析體系,完成數據在全公司的打通;
你需要在公司內部建立數據思維,推動全公司的數據落地和數據實施......。
說一千道一萬,作為數據專家你要通過數據讓公司發展的更好,更符合投資人的期望。
要達到這一目標,僅僅依靠數據分析本身已經遠遠不夠。作為數據專家/分析師,你的分析需要給公司高管乃至於投資人彙報吧?
這需要演講的能力;
你在公司內部推動數據思維時要說服各個業務部門的老總吧?
這需要良好的溝通能力;
推動過程中難免影響各方面的利益,你需要定位問題並組織資源去解決吧?
這需要理解公司內各組織的定位,需要平衡各方利益,甚至於需要「搞定人」的能力。
最重要的是站在一個數據專家/科學家的角度,你需要為公司的數據化建設設計總體的框架,規劃整體的實時路徑,提供實施方法論以及指導不同的團隊去實施。以上所有這些,都已經遠遠超出了單純的數據分析領域,更多的是依賴一個人的綜合能力。
各位看到這裡是不是感到一絲絲絕望?一名普通的數據分析師天天就是和數據打交道,怎麼才能夠培養自己這些能力呢?我給大家的建議是有機會就去諮詢公司工作轉一圈。作為一名在諮詢公司工作過的數據分析師,我在諮詢公司學到了體系化的方法論和思維方式,這些思維方式能最大程度上幫助你從全局的層面來考慮問題。同時,
在諮詢公司做項目演講彙報是必修課,溝通協調是日常工作,
平衡利益乃至於「搞定人」是必備能力。通過諮詢公司的打磨,思考問題時不但會從數據的視角出發,還能結合多個層面一起思考,會更加全面更加完整。
這就好比大家學習下棋,如果能夠分析並記住各個高手的棋譜,你的棋力肯定比自己琢磨會漲進的更快,也更全面。諮詢公司絕對是存放無數套棋譜的典藏室。
最後,為什麼這個提問下已經有幾百個回答,我還專門寫這篇文。
因為我目睹太多太多技術牛的數據分析師(包括該題目下的幾個回答者)面對以上提到的困難而不得解。
諮詢公司能給你很多思維上的跳脫。所以覺得自己很難再進一步的數據分析師們,如果有機會就到(外資)諮詢公司去打磨一下自己,相信大家一定會有很大的收穫,讓自己的職業生涯走的更高、更遠。
以上僅是我從另一個角度剖析的回答,見仁見智,不一定適用所有人:)
——————更新分割線—————在未來五年內,只是擁有技術的數據分析師不會再是寵兒,就好像現在大批量的碼農一樣。能走到最後的一定是思維卓越的。
我在互聯網、諮詢的公司都呆過。互聯網學習技術,諮詢學習思維。如果你能兩者融合,你就會成各個公司爭搶的對象:)現在這樣的人才,市場上還很少。加油!
沒有什麼牛逼的事情是能夠速成的,越是底層的、收益周期越長的技能越是這樣。
但這並不代表,我們不能用一些有意思的方法,把學習的過程變得高效而有趣。
學習一門技術之前,你應該知道,你想要達成的目標是什麼樣的,也就是說,你想通過這門技術來解決哪些問題。有了這個目標,你就可以知道要達成這樣的目標,它的知識體系是怎麼樣的。更重要一點的是,每個部分是用來解決哪些問題,只有明確的目標導向,學習最有用的那部分知識,才能避免無效信息降低學習效率。
明確知識框架和學習路徑
比如數據分析這件事情,如果你要成為數據分析師,那麼你可以去招聘網站看看,對應的職位的需求是什麼,一般來說你就會對應該掌握的知識架構有初步的了解。你可以去看看數據分析師職位,企業對技能需求可總結如下:
- SQL資料庫的基本操作,會基本的數據管理
- 會用Excel/SQL做基本的數據提取、分析和展示
- 會用腳本語言進行數據分析,Python or R
- 有獲取外部數據的能力加分,如爬蟲或熟悉公開數據集
- 會基本的數據可視化技能,能撰寫數據報告
- 熟悉常用的數據挖掘演算法:回歸分析、決策樹、分類、聚類方法
其次是數據分析的流程,一般大致可以按「數據獲取-數據存儲與提取-數據預處理-數據建模與分析-數據可視化」這樣的步驟來實施一個數據分析項目。按照這個流程,每個部分需要掌握的細分知識點如下:
高效的學習路徑是什麼?就是數據分析的這個流程。按這樣的順序循序漸進,你會知道每個部分需要完成的目標是什麼,需要學習哪些知識點,哪些知識是暫時不必要的。然後每學習一個部分,你就能夠有一些實際的成果輸出,有正向的反饋和成就感,你才會願意花更多的時間投入進去。以解決問題為目標,效率自然不會低。
按照上面的流程,我們分需要獲取外部數據和不需要獲取外部數據兩類分析師,總結學習路徑如下:
1.需要獲取外部數據分析師:
python基礎知識
python爬蟲
SQL語言
python科學計算包:pandas、numpy、scipy、scikit-learn
統計學基礎
回歸分析方法
數據挖掘基本演算法:分類、聚類
模型優化:特徵提取
數據可視化:seaborn、matplotlib
2.不需要獲取外部數據分析師:
SQL語言
python基礎知識
python科學計算包:pandas、numpy、scipy、scikit-learn
統計學基礎
回歸分析方法
數據挖掘基本演算法:分類、聚類
模型優化:特徵提取
數據可視化:seaborn、matplotlib
接下來我們分別從每一個部分講講具體應該學什麼、怎麼學。
數據獲取:公開數據、Python爬蟲
如果接觸的只是企業資料庫里的數據,不需要要獲取外部數據的,這個部分可以忽略。
外部數據的獲取方式主要有以下兩種。
第一種是獲取外部的公開數據集,一些科研機構、企業、政府會開放一些數據,你需要到特定的網站去下載這些數據。這些數據集通常比較完善、質量相對較高。給大家推薦一些常用的可以獲取數據集的網站:
UCI:加州大學歐文分校開放的經典數據集,真的很經典,被很多機器學習實驗室採用。
國家數據:數據來源於中國國家統計局,包含了我國經濟民生等多個方面的數據。
CEIC:超過128個國家的經濟數據,能夠精確查找GDP, CPI, 進口,出口,外資直接投資,零售,銷售,以及國際利率等深度數據。
中國統計信息網:國家統計局的官方網站,彙集了海量的全國各級政府各年度的國民經濟和社會發展統計信息。
優易數據:由國家信息中心發起,擁有國家級信息資源的數據平台,國內領先的數據交易平台。
數據堂:同為數據交易平台,包含語音識別、醫療健康、交通地理、電子商務、社交網路、圖像識別等方面的數據。
其他可以參考:有哪些一般人不知道的數據獲取方式
另一種獲取外部數據費的方式就是爬蟲。
比如你可以通過爬蟲獲取招聘網站某一職位的招聘信息,爬取租房網站上某城市的租房信息,爬取豆瓣評分評分最高的電影列表,獲取知乎點贊排行、網易雲音樂評論排行列表。基於互聯網爬取的數據,你可以對某個行業、某種人群進行分析。
在爬蟲之前你需要先了解一些 Python 的基礎知識:元素(列表、字典、元組等)、變數、循環、函數(鏈接的菜鳥教程非常好)……以及如何用成熟的 Python 庫(urllib、BeautifulSoup、requests、scrapy)實現網頁爬蟲。如果是初學,建議從 urllib 和 BeautifulSoup 開始。(PS:後續的數據分析也需要 Python 的知識,以後遇到的問題也可以在這個教程查看)
網上的爬蟲教程不要太多,爬蟲上手推薦豆瓣的網頁爬取,一方面是網頁結構比較簡單,二是豆瓣對爬蟲相對比較友好。
掌握基礎的爬蟲之後,你還需要一些高級技巧,比如正則表達式、模擬用戶登錄、使用代理、設置爬取頻率、使用cookie信息等等,來應對不同網站的反爬蟲限制。
除此之外,常用的的電商網站、問答網站、點評網站、二手交易網站、婚戀網站、招聘網站的數據,都是很好的練手方式。這些網站可以獲得很有分析意義的數據,最關鍵的是,有很多成熟的代碼,可以參考。
數據存取:SQL語言
你可能有一個疑惑,為什麼沒有講到Excel。在應對萬以內的數據的時候,Excel對於一般的分析沒有問題,一旦數據量大,就會力不從心,資料庫就能夠很好地解決這個問題。而且大多數的企業,都會以SQL的形式來存儲數據,如果你是一個分析師,也需要懂得SQL的操作,能夠查詢、提取數據。
SQL作為最經典的資料庫工具,為海量數據的存儲與管理提供可能,並且使數據的提取的效率大大提升。你需要掌握以下技能:
提取特定情況下的數據:企業資料庫里的數據一定是大而繁複的,你需要提取你需要的那一部分。比如你可以根據你的需要提取2017年所有的銷售數據、提取今年銷量最大的50件商品的數據、提取上海、廣東地區用戶的消費數據……,SQL可以通過簡單的命令幫你完成這些工作。
資料庫的增、刪、查、改:這些是資料庫最基本的操作,但只要用簡單的命令就能夠實現,所以你只需要記住命令就好。
數據的分組聚合、如何建立多個表之間的聯繫:這個部分是SQL的進階操作,多個表之間的關聯,在你處理多維度、多個數據集的時候非常有用,這也讓你可以去處理更複雜的數據。
SQL這個部分相對來說比較簡單,可以去這個教程:MySQL-菜鳥教程
簡單到懷疑人生,學完這個教程的內容就夠了。當然,還是建議你找一個數據集來實際操作一下,哪怕是最基礎的查詢、提取等操作。你可以去調用一些公司的數據來進行實際的演練,如果沒有合適的,這裡推薦UCI經典的鳶尾花數據集。
數據預處理:Python(pandas)
很多時候我們拿到的數據是不幹凈的,數據的重複、缺失、異常值等等,這時候就需要進行數據的清洗,把這些影響分析的數據處理好,才能獲得更加精確地分析結果。
比如空氣質量的數據,其中有很多天的數據由於設備的原因是沒有監測到的,有一些數據是記錄重複的,還有一些數據是設備故障時監測無效的。比如用戶行為數據,有很多無效的操作對分析沒有意義,就需要進行刪除。
那麼我們需要用相應的方法去處理,比如殘缺數據,我們是直接去掉這條數據,還是用臨近的值去補全,這些都是需要考慮的問題。
對於數據預處理,學會 pandas 的用法,應對一般的數據清洗就完全沒問題了。需要掌握的知識點如下:
選擇:數據訪問(標籤、特定值、布爾索引等)
缺失值處理:對缺失數據行進行刪除或填充
重複值處理:重複值的判斷與刪除
空格和異常值處理:清楚不必要的空格和極端、異常數據
相關操作:描述性統計、Apply、直方圖等
合併:符合各種邏輯關係的合併操作
分組:數據劃分、分別執行函數、數據重組
Reshaping:快速生成數據透視表
網上有很多pandas的教程,主要是一些函數的應用,也都非常簡單,如果遇到問題,可以參看pandas操作的官方文檔。
推薦書:利用Python進行數據分析 (豆瓣)
概率論及統計學知識
數據整體分布是怎樣的?什麼是總體和樣本?中位數、眾數、均值、方差等基本的統計量如何應用?如果有時間維度的話隨著時間的變化是怎樣的?如何在不同的場景中做假設檢驗?數據分析方法大多源於統計學的概念,所以統計學的知識也是必不可少的。需要掌握的知識點如下:
基本統計量:均值、中位數、眾數、百分位數、極值等
其他描述性統計量:偏度、方差、標準差、顯著性等
其他統計知識:總體和樣本、參數和統計量、ErrorBar
概率分布與假設檢驗:各種分布、假設檢驗流程
其他概率論知識:條件概率、貝葉斯等
有了統計學的基本知識,你就可以用這些統計量做基本的分析了。通過可視化的方式來描述數據的指標,其實可以得出很多結論了,比如排名前100的是哪些,平均水平是怎樣的,近幾年的變化趨勢如何……
你可以使用python的包 Seaborn(python包)在做這些可視化的分析,你會輕鬆地畫出各種可視化圖形,並得出具有指導意義的結果。了解假設檢驗之後,可以對樣本指標與假設的總體指標之間是否存在差別作出判斷,已驗證結果是否在可接受的範圍。
推薦書:深入淺出統計學 (豆瓣)
python數據分析
如果你有一些了解的話,就知道目前市面上其實有很多 Python 數據分析的書籍,但每一本都很厚,學習阻力非常大。但其實真正最有用的那部分信息,只是這些書里很少的一部分。比如用 Python 實現不同案例的假設檢驗,其實你就可以對數據進行很好的驗證。
比如掌握回歸分析的方法,通過線性回歸和邏輯回歸,其實你就可以對大多數的數據進行回歸分析,並得出相對精確地結論。比如DataCastle的訓練競賽「房價預測」和「職位預測」,都可以通過回歸分析實現。這部分需要掌握的知識點如下:
回歸分析:線性回歸、邏輯回歸
基本的分類演算法:決策樹、隨機森林……
基本的聚類演算法:k-means……
特徵工程基礎:如何用特徵選擇優化模型
調參方法:如何調節參數優化模型
Python 數據分析包:scipy、numpy、scikit-learn等
在數據分析的這個階段,重點了解回歸分析的方法,大多數的問題可以得以解決,利用描述性的統計分析和回歸分析,你完全可以得到一個不錯的分析結論。
當然,隨著你實踐量的增多,可能會遇到一些複雜的問題,你就可能需要去了解一些更高級的演算法:分類、聚類,然後你會知道面對不同類型的問題的時候更適合用哪種演算法模型,對於模型的優化,你需要去學習如何通過特徵提取、參數調節來提升預測的精度。這就有點數據挖掘和機器學習的味道了,其實一個好的數據分析師,應該算是一個初級的數據挖掘工程師了。
推薦:scikit-learn官方文檔
系統實戰
這個時候,你就已經具備了數據分析的基本能力了。但是還要根據不同的案例、不同的業務場景進行實戰。能夠獨立完成分析任務,那麼你就已經打敗市面上大部分的數據分析師了。
如何進行實戰呢?
上面提到的公開數據集,可以找一些自己感興趣的方向的數據,嘗試從不同的角度來分析,看看能夠得到哪些有價值的結論。
另一個角度是,你可以從生活、工作中去發現一些可用於分析的問題,比如上面說到的電商、招聘、社交等平台等方向都有著很多可以挖掘的問題。
開始的時候,你可能考慮的問題不是很周全,但隨著你經驗的積累,慢慢就會找到分析的方向,有哪些一般分析的維度,比如top榜單、平均水平、區域分布、年齡分布、相關性分析、未來趨勢預測等等。隨著經驗的增加,你會有一些自己對於數據的感覺,這就是我們通常說的數據思維了。
你也可以看看行業的分析報告,推薦:艾瑞諮詢
看看優秀的分析師看待問題的角度和分析問題的維度,其實這並不是一件困難的事情。
在掌握了初級的分析方法之後,也可以嘗試做一些數據分析的競賽,比如 DataCastle 為數據分析師專門定製的三個競賽,提交答案即可獲取評分和排名:
員工離職預測訓練賽
美國King County房價預測訓練賽
北京PM2.5濃度分析訓練賽
你也可以關注一些知乎大V,他們的經驗可能讓你少走彎路。
@鄒昕 @卡牌大師 @Han Hsiao @何明科 @chenqin @桑文鋒
知乎上還有一些非常好的數據分析專欄,經常會有一些有意思的文章。
數據冰山
數據分析俠
董老師在矽谷
一個數據分析師的自我修養
你看,其實梳理一遍之後是不是清晰了很多。把每一個部分的內容找來學習就可以了,但一定要在學習過程中找不同的問題來實踐,在實踐中發現問題去尋找答案,補足知識。種一棵樹最好的時間是十年前,其次是現在。現在就去,找一個數據集開始吧!!
DC學院總結了無數的優秀分析師爬坑經驗,和無數的數據分析書籍,開了一門系統數據分析課,就是按照以上的學習路徑。如果你有興趣,可以看看:數據分析師(入門)-DC學院
關注公眾號(datacastle2016),獲取更多數據分析乾貨。
2天騙贊書單向答案能衝到1k+贊 再看看這題標籤...
看來不止股市、知乎上互聯網概念的泡沫也夠大了
--------------
說下我的經歷,南大應用數學專業,在bat做了2年數據分析
就我在做和觀察到的,互聯網非演算法的數據分析師,有且僅有3個方向:數據產品、決策支持、數據運營
其中,數據產品 PK需求把控項目管控能力
決策支持 PK商業sense(例如做營銷,360網址導航這種每月幾百萬的框架到底要不要簽?)
數據運營 PK提煉特徵能力
綜上,你會發現在互聯網公司,數據分析師要處理的問題,跟營銷、產品、運營一樣。如果把業務邏輯比作給個美女,數據以及利用數據的方法只不過是讓這姐們身材看來更誘人的比基尼而已。可惜每年總有那麼幾個小鮮肉被榜首答案那些fancy的書單帶入coding的不歸路--3年磨劍,藝成面對美女唯一的生理反應就剩幫她選個泳衣了
-----------------
要快速是吧,要在互聯網圈裡混是吧,我給你四本書。裡面的武功足夠一般人熬到中層,為企業為自己做點事了:
a.誰說菜鳥不會數據分析
b.web anayltics 2.0 avinash寫的
c.大敗局 吳曉波
d.浪潮之巔 吳軍
5月10號更新 - 最近太忙,辛苦大家久待了。沒想到那麼多人....話不多說,上貨。
我整理了國外一些靠譜的大數據免費教程,推出一套網路自學攻略。
目前是 Alpha Version, 將逐步翻譯,整理,補充
- 這是非常技術流的教程,涉及大數據處理,編程和統計。不是Excel sheet,PowerPoint或者商業諮詢市場分析類型,如果你是目的是做普通的Business Analyst 或者 BI 諮詢,你不需要這個教程。
- 針對大數據(1 TB+ )的處理和分析(如果你的數據只是幾個Excel sheet,請略過)
- 所有教程內容都是英文,你可能需要翻牆(後果自負)。
教程亮點:
- 全部免費哦!
- 幫助完全沒有概念的菜鳥快速入門(教授基礎的統計學和編程知識, 無需基礎但要有常識)
- 從數據採集,分析,到最終可視化展示,教授大數據分析全過程的重要理念,方法和工具。
- 所需時間:310+ 小時。
- 菜鳥:要那麼長時間?太慢了?
- 回答:什麼?啥基礎都沒有,想要多快?你學了9年英語還要3個月新東方考GRE呢。
- 菜鳥:我有些學過了
- 回答:你不會跳過啊,菜鳥。
申明:我在英文環境下學習和培養的專業能力,很多術語的中文名稱不了解,歡迎拍磚。
這個教程包括以下幾個方面:
基礎課程:- exploratory and predictive statistics (統計學:檢測數據和預測分析)
- basic Python (Python編程基礎)
- advanced computer program design (電腦程序設計原理,進階)
- an introduction to algorithms (演算法基礎)
- R for statistical analysis (使用 R 做統計分析)
- practical machine learning techniques (機器學習 基本技法)
- Unix
- data visualization best practices (數據視覺化展示 技巧)
進階套餐:
套餐A - 展示: Visualizing Data 數據視覺化
套餐B - 演算法:Analyzing Social Networks (社交網路分析)
套餐C - 技術: Big Data: Hadoop and MapReduce (大數據,Hadoop 和 MapReduce技能)
作為一個需要花費時間整理的攻略,不知道以上內容大家是否剛興趣。如果點贊人數超過50人,我就把教程寫出來。
-------------------------------割割哥-------------------------------------------
統計篇
Exploratory and Predictive Statistics - 初級統計學
統計學掃盲
1. Statistics - Udemy ( 12 小時 )
這個教程涵蓋了統計學第一年的基礎內容。簡單粗暴,給你一個統計學的基本概念。這個課程雖然不能讓你吃上豬肉,但是可以讓你見到豬跑。
Optional 完整基礎入門課程 (Strongly recommend if you have the time)
2.1 Introduction to Statistics Descriptive Statistics (50 小時)
The focus of Stat2.1x is on descriptive statistics. The goal of descriptive statistics is to summarize and present numerical information in a manner that is illuminating and useful. The course will cover graphical as well as numerical summaries of data, starting with a single variable and progressing to the relation between two variables. Methods will be illustrated with data from a variety of areas in the sciences and humanities.
2.2 Introduction to Statistics: Probability (50 小時)
The focus of Stat2.2x is on probability theory: exactly what is a random sample, and how does randomness work? If you buy 10 lottery tickets instead of 1, does your chance of winning go up by a factor of 10? What is the law of averages? How can polls make accurate predictions based on data from small fractions of the population? What should you expect to happen "just by chance"? These are some of the questions we will address in the course.
2.3 Introduction to Statistics: Inference (50 小時)
The focus of Stat2.3x is on statistical inference: how to make valid conclusions based on data from random samples. At the heart of the main problem addressed by the course will be a population (which you can imagine for now as a set of people) connected with which there is a numerical quantity of interest (which you can imagine for now as the average number of MOOCs the people have taken).
we will discuss good ways to select the subset (yes, at random); how to estimate the numerical quantity of interest, based on what you see in your sample; and ways to test hypotheses about numerical or probabilistic aspects of the problem
編程篇
Basic Python
1. Intro to Python (3 - 5 小時)掃盲
This is a great place to start if you have no programming background at all or want to brush up. If you have programming experience but have never seen Python, you may still want to skim through these lessons. You』ll learn basic programming techniques, such as loops, lists and dictionaries, functions, classes, and file input/ output.
1.1 彩蛋 Complete the Python Statistics Problem Set ( 0.5 小時 )
2. Videos and Problem Sets of Design of Computer Programs (20 - 30 小時)
This class will teach you to write elegant and efficient code. This will be essential in order to manipulate data effectively and write code that is reusable and easy for others to understand. You will also learn about some of the more sophisticated Python techniques, such as generator functions and list comprehensions.
Optional: Computer programming and Python 完整基礎入門課程
2. Introduction to Computer Science and Programming Using Python (135 小時)This course focuses on breadth rather than depth. The goal is to provide students with a brief introduction to many topics so they will have an idea of what is possible when they need to think about how to use computation to accomplish some goal later in their career.
- A Notion of computation
- The Python programming language
- Some simple algorithms
- Testing and debugging
- An informal introduction to algorithmic complexity
- Data structures
SQL and JSON
1. Introduction to Database ( 10 小時 - 只需要看前面的基礎部分)
Watch the videos on Relational Databases, JSON Data, Relational Algebra, and SQL, and complete the exercises for those sections.
Algorithm 入門
1. Introduction to Algorithms (SMA 5503) (15小時 - 只需要看前面的基礎部分)
This course teaches techniques for the design and analysis of efficient algorithms, emphasizing methods useful in practice. Topics covered include: sorting; search trees, heaps, and hashing; divide-and-conquer; dynamic programming; amortized analysis; graph algorithms; shortest paths; network flow; computational geometry; number-theoretic algorithms; polynomial and matrix calculations; caching; and parallel computing.
工具篇
1. Unix Basics [4:20] ( 1 小時 )
大部分的大數據開發和分析環境在Unix系統中進行,如果你用Mac或者Unix,You need to learn how to talk to your computer using the command line.
Watch
- [Lecture 3: Linux and Server-Side Javascript]
- [Lecture 4a: The Linux Command Line ]
2. Try Git (1小時)
Git is a version control system. It enables programmers to work together on large projects without overwriting each other』s work. Furthermore, it saves old versions of code in case you make a mistake and need to revert back. It can also be a useful portfolio of your programming and analysis projects to show potential employers.
分析篇
Data Visualization Best Practices (數據視覺化展示 技巧)
1. Introduction to Infographics and Data Visualization ( 5 小時)
These videos are enjoyable and they make a nice break from the more technically challenging courses in this path. However, while the material in the course may be easy to understand, data visualization is a deeper topic than it seems. These examples should help illuminate what makes a good visualization and give ideas for some more creative ways to display information. You will also learn general principles of graphic design and visual perception.
Optional: Information Dashboard Design: The Effective Visual Communication of Data by Stephen Few - Dashboard 設計的經典書籍
Python 數據分析
Python 有很多針對統計和數據分析的library,常用的有:Pandas, Scipy, Numpy, and Scikit
1. Introduction to Pandas ( 1 小時)
2. explore SciPy and Numpy libraries (5 小時)
機器學習 Practical Machine Learning
Machine learning aims to extract knowledge from data, relying on fundamental concepts in computer science, statistics, probability and optimization. Learning algorithms enable a wide range of applications, from everyday tasks such as product recommendations and spam filtering to bleeding edge applications like self-driving cars and personalized medicine. In the age of 『Big Data,』 with datasets rapidly growing in size and complexity and cloud computing becoming more pervasive, machine learning techniques are fast becoming a core component of large-scale data processing pipelines.
1. Introduction to Big Data with Apache Spark (30 小時 with Python)teach students how to use PySpark (part of Apache Spark) to deliver against their data for decision support and to build data-intensive products and services, such as recommendation, prediction, and diagnostic systems.
- Learn how to use Apache Spark to perform data analysis
- How to use parallel programming to explore data sets
- Apply Log Mining, Textual Entity Recognition and Collaborative Filtering to real world data questions
2. Scalable Machine Learning (35 小時 - With Python and Spark )
This course introduces the underlying statistical and algorithmic principles required to develop scalable real-world machine learning pipelines. We present an integrated view of data processing by highlighting the various components of these pipelines, including exploratory data analysis, feature extraction, supervised learning, and model evaluation. You will gain hands-on experience applying these principles using Apache Spark, a cluster computing system well-suited for large-scale machine learning tasks. You will implement scalable algorithms for fundamental statistical models (linear regression, logistic regression, matrix factorization, principal component analysis) while tackling key problems from various domains: online advertising, personalized recommendation, and cognitive neuroscience.
- The underlying statistical and algorithmic principles required to develop scalable real-world machine learning pipelines
- Exploratory data analysis, feature extraction, supervised learning, and model evaluation
- Application of these principles using Apache Spark
- How to implement scalable algorithms for fundamental statistical models
Optional: Statistical Learning ( 30 小時 - with R )
This is an introductory-level course in supervised learning, with a focus on regression and classification methods. The syllabus includes: linear and polynomial regression, logistic regression and linear discriminant analysis; cross-validation and the bootstrap, model selection and regularization methods (ridge and lasso); nonlinear models, splines and generalized additive models; tree-based methods, random forests and boosting; support-vector machines. Some unsupervised learning methods are discussed: principal components and clustering (k-means and hierarchical).
大數據分析實戰 with R
註: R 並不適合真正的大數據應用,這些課程是一個補充,可以略過
1. Try R ( 5 小時)
R is a tool for statistics and data modeling. The R programming language is elegant, versatile, and has a highly expressive syntax designed around working with data. R is more than that, though — it also includes extremely powerful graphics capabilities. If you want to easily manipulate your data and present it in compelling ways, R is the tool for you.
This course will teach you the basics of R: data types, summary statistics, functions, and control structures.
- An applied understanding of many different analytics methods, including linear regression, logistic regression, CART, clustering, and data visualization
- How to implement all of these methods in R
- An applied understanding of mathematical optimization and how to solve optimization models in spreadsheet software
進階套餐 - 待更新
謝邀。第一次在知乎上回答問題,我就結合自己這幾年在美國做商業分析師以及回國初創一個大數據決策公司的經歷,寫個簡短一點兒的回答,希望能有一點兒幫助。:-)
I. 什麼是數據分析師?
首先,個人感覺數據分析師其實是一個被過於廣泛使用的名稱,因為至少有三個類型的職位都可以算作和數據分析師相關,分別是:BI (Business Intelligence), QA (Quantitative Analyst / Data Scientist), 以及BA (Business Analyst)。當然這三個職位從所需能力上是非常相關的(我當初從0開始搭商業分析團隊的時候,這三個職位的事情我都干。。。),但是為了描述一下它們的具體區別從而幫助明確你的興趣點,我來舉個極端卻非常實際的例子:
首席運營官問自己的分析團隊:新產品上線後,我們的用戶現在有多少,用戶增長樂觀么?
a) 需要 Business Analyst 第一個站出來,首先定義度量方式(比如是付費用戶啊,還是活躍用戶啊,是1天日活重要還是30天日活重要,等等),然後收集數據進行各個維度的分析(比如不同市場啦,地域啦,渠道啦,用戶行為啦,等等),最後得出結論:用戶增長比較緩慢,因為我們在最主要的xx市場採用固定的yy定價方式,建議採用zz定價方式,預期對用戶增長起到blabla%的作用。
b) 接下來就由QA在BA分析的基礎上,搭建zz定價模型,裡面可能用到各種統計、優化、機器學習方法。模型經過A/B測試、穩定性等評估,預計對用戶增長可以起到blablablabla%的作用。
c) 最後,zz定價模型上線,由BI同學把BA和QA定義的所有用戶度量,市場趨勢,模型表現等通過資料庫和SQL完成自動計算、定期自動更新及可視化展現,成為部門每天都會關注的核心數據。
由此大家可以看出,BA/ QA/ BI之間是各有側重的:
Business Analyst 定義問題,分析數據,提出並部分實現解決方案; Quantitative Analyst 定義模型和架構,實現完整的解決方案; Business Intelligence 對數據和度量進行可視化展示、自動化計算和更新。
II. 都需要什麼能力?
我把幾個主要的能力和需求稍微量化了一下,下面這個圖應該就差不多能說清楚了 :)
III. 如何快速獲取這些能力?
a) 選好你在上面提到三個方向里的側重點
b) 和這個行業的人多多多多多多交流 ^_^
c) 一些學習資料
a) 和 b)沒有太多要說的了,就重點說說第三個。我不太想重複介紹很多教材一樣的大部頭,倒是想給大家推薦三本經典中的經典讀物,希望能有些幫助:
&
&
&
一點兒想法供你參考,也希望你能找到自己喜歡的方向!
作者:桑文鋒
鏈接:如何成為數據分析師 - 瓦利哥的機器歲月 - 知乎專欄
來源:知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。
最近幾年大數據的概念比較火,越來越多的人感受到數據的價值,許多公司都開始招聘數據分析相關的職位。但如果你去看看國內的高校,會發現沒有一所大學開有數據分析專業的,職位的成熟度還不夠。相比之下,從 2003 年興起的互聯網產品經理職位,相對就成熟一些,至少你可以找到大量的書,教你如何成為一名產品經理。相比之下,數據分析領域就沒這麼幸運了,相關的書籍雖然也有,但總覺得還沒到火候。
都有哪些人想要成為數據分析師
從我看到想要成為數據分析師的人大致有三類:
第一類是非計算機專業的在校生,不知道怎麼回事,反正就是對數據感興趣了,然後想畢業之後從事相關工作,但對職位要求、該做什麼準備一無所知,處於懵懂期;第二類是互聯網公司的產品經理和運營經理,及少數的市場經理。這些人在實際工作中,發現確實數據很有用,但對自己的數據分析能力感到不滿意,進而想做出提升;第三類是傳統企業的業務人員,也是不知道怎麼就對數據感興趣了,想要總是數據分析相關的崗位,但缺少時間系統學習,工作經歷又不足以支撐自己跳到數據分析職位。對於不同的背景,採用一樣的方法去訓練,顯然是不合理的。我先來講解一下數據相關的角色以及職責,說不定你認識清楚了就不想成為數據分析師了,就可以不用往下看了。如果還有信心,那我就介紹一下要學習的基礎內容,然後再介紹進階的內容。
數據相關的角色
圍繞數據分析,主要有六種角色。從平台建設線上,包括:
- 數據平台工程師:負責數據平台的研發,牽涉到從數據採集到分析的相關組件開發。
- 數據挖掘工程師:利用機器學習/數據挖掘相關技術,研發演算法模型,用於個性化推薦、用戶畫像、精準廣告等。
- 數據產品經理:把數據相關的需求抽象為數據平台的功能產品。
從數據流向的角度,包括:
- ETL 工程師:把工程團隊的模塊產生的數據,不管是日誌、數據表,還是埋點的數據,進行清洗、轉換,建模成利於數據分析的數據。ETL 是 Extract - Transform - Load 的縮寫。
- 數據分析師:利用 ETL 工程師處理好的數據,滿足業務人員的數據需求。
- 業務人員:產品、運營、市場、管理層等,因為產品改進、運營活動、商業決策等,有數據需求。
數據分析師的職責範圍
通過上面的角色劃分,我們可以清楚數據分析師在整個數據版圖中的位置。數據分析師一方面要和業務人員打交道,滿足業務人員的數據需求,另一方面,要藉助 ETL 工程師建模好的數據,以及數據平台工程師開發的平台,來更高效的完成工作。有些公司在人員緊缺的情況下,會把 ETL 工程師要做的工作,也安排給數據分析師,這樣對數據分析師的開發能力和建模能力,就會有更高的要求。最後一點是提供洞察,前面的工作更多的是被動的,數據分析師還要主動的發現數據中的異常,將這些異常指導業務。
數據分析師的基本要求
- 對數據感興趣:是不是看到一行行的數字就頭大,選擇直接跳過?還是願意花些時間研究這些數字背後意味著什麼?如果你看蘋果的發布會的話,會看到喬布斯的幻燈片里出現最多的就是數字,賣了多少部,分了多少錢,厚度減少到多少毫米之類的,他相信數字簡單明了。如果對數據不感興趣,這個角色一定不適合你。
- 良好的理解和抽象能力:把業務人員說的隻言片語,抽象為明確的數據需求,清楚怎麼從基礎數據中實現出來。
- 良好的表達能力:數據分析師有個天然的優勢,能夠直接和老闆打交道,這就要求你能站在老闆的層面來表達。把一堆堆的數據,很好的呈現給業務人員,幫助他們做出正確的決策。
- 快速動手能力:業務人員提的數據需求,巴不得下一秒都拿到。
- 數據分析的專業能力。
興趣是可以培養的,既然願意看這篇文章,說明有興趣。理解、表達、動手能力,是要有意識的訓練。數據分析的專業能力,是可以通過學習提升的。
數據分析師要學習的內容
- 統計學:我看一些人推薦了不少統計學的專業書籍,直接把人嚇跑了。我自己就大學時候學過《概率論與數理統計》,其他統計相關的內容也沒怎麼看過。對於互聯網的數據分析來說,並不需要掌握太複雜的統計理論。所以只要按照本科教材,學一下統計學就夠了。一是讓你相信統計本身是一門科學,這不是星座算命。二是在研究數據時,知道一些特徵是負責統計學規律的。我在剛參加工作時,看到百度知道過億的用戶訪問,但每天訪問的量波動不超過 3%,感覺太神奇了。
- 編程能力:學會一門編程語言,會讓你處理數據的效率大大提升。如果你只會在 Excel 上複製粘貼,動手能力是不可能快的。我比較推薦 Python,上手比較快,寫起來比較優雅。
- 資料庫:數據分析師經常和資料庫打交道,不掌握資料庫的使用可不行。學會如何建表和使用 SQL 語言進行數據處理,可以說是必不可少的技能。
- 數據倉庫:許多人分不清楚資料庫和數據倉庫的差異,簡單來說,數據倉庫記錄了所有歷史數據,專門設計為方面數據分析人員高效使用的。
- 數據分析方法:對於互聯網數據分析人員來說,可以看一下《精益創業》和《精益數據分析》,掌握常用的數據分析方法,然後再根據自己公司的產品調整,靈活組合。
- 數據分析工具:SAS、Matlab、SPSS 這些工具經常有人推薦,我要說的是在互聯網公司一般都用不上。做可視化的 Tableau,統計分析的友盟、百度統計,還有像我們神策分析等。這些工具本身不一定能滿足你的所有需求,但會讓數據分析變的更高效。
我自己整理過一個豆瓣書列,有興趣的可以看看:神策數據桑文鋒的數據分析師豆列。
上面的內容學習後,只能說成為一名合格的數據分析師。要成為高級數據分析師的話,一方面是要強化對業務的理解,最好是做到通過數據分析幫助公司決策方向,或者說促進企業快速增長。另一方面,要加強機器學習/數據挖掘的專業知識學習,將機器學習成為數據分析的手段。比如預測用戶的流失,對用戶進行自動分類等。你能提供的價值就大不相同了。
最後,要強調的是,數據分析師是一個實踐的職位,要在實際項目中不斷的訓練,才能成為高手。
如果你想成為數據分析師
不管是在知乎上,還是在一些線下沙龍,許多數據分析愛好者都想能夠系統的學習數據分析知識,而不是瑣碎的學習。
遺憾的是現在沒這樣的專業,系統性的培訓也是少之又少。我是在想有沒有可能通過幾輪迭代,創造出一個適合數據分析人員學習的培訓課程。
在今年 11 月 4 日 ~ 11 月 6 日,我們神策數據將要舉辦一次《數據驅動大會》,定位是數據分析師的培訓,有興趣的同學可報名參加:2016年末盛典。
謝邀,回答遲了,抱歉。你的問題是「如何快速成為數據分析師」,我不知道你理解的快速是多久時間,我可以先跟你分享一下我好朋友的例子吧,看下能不能給你帶來一定的啟發。
好朋友:男生,大學本科學的是信管專業,跟計算機相關,本身他有一些統計、分析相關的基礎,畢業後也是進入一家公司做分析師,但是大學所學知識肯定不能滿足工作需求,於是從工作的第二個月他每天下班重新回到母校上晚自習,看跟數據分析相關的書籍,一切都是靠自學的,沒人教,學習的勁頭遠遠超過了大學四年,後來他來北京去了一家大公司,名字就不說了,現在也在一家大公司,薪資都還不錯,發展也很不錯,能力也得到認可。我想說的是可能你希望一步快速成為分析師,但我還是建議一步一步積累相關的知識,當然這個過程你可以縮短時間,比如你可以在工作中快速積累、快速學習,但是該有的知識還是要有的,也要看你自己學習的速度,希望他這個例子可以給你帶來一些啟發吧。
數據分析這個崗位可以說很寬泛很雜,從數據錄入員到行業分析師科學家都可以認為是數據分析,甚至一些搞數據挖掘、人工智慧的都可以包括到數據分析的範疇里,但是這些工作所做的事情卻相差甚遠,當然待遇也天壤之別。所以大家在應聘時不要只看崗位名稱,重要的是看看清崗位職責和要求。言歸正傳,咱們談談如何學習數據分析。
1、學科知識:從數據分析涉及到的專業知識點上看,主要是這些:
(1)統計學:參數檢驗、非參檢驗、回歸分析等
(2)數學:線性代數、微積分等
(3)社會學:主要是一些社會學量化統計的知識,如問卷調查與統計分析;還有就是一些社會學的知識,這些對於從事營銷類的數據分析人員比較有幫助
(4)經濟金融:如果是從事這個行業的數據分析人員,經濟金融知識是必須的,這裡就不多說了
(5)計算機:從事數據分析工作的人必須了解你使用的數據是怎麼處理出來的,要了解資料庫的結構和基本原理,同時如果條件充足的話,你還能有足夠的能力從資料庫里提取你需要的數據(比如使用SQL進行查詢),這種提取數據分析原材料的能力是每個數據從業者必備的。此外,如果要想走的更遠,還要能掌握一些編程能力,從而借住一些專業的數據分析工具,幫助你完成工作。
……好好學習,雖然累,但是要堅持!
2、軟體相關:從事數據分析方面的工作必備的工具是什麼
(1)數據分析報告類:Microsoft Office軟體等,如果連excel表格基本的處理操作都不會,連PPT報告都不會做,那我只好說離數據分析的崗位還差的很遠。現在的數據呈現不再單單只是表格的形式,而是更多需要以可視化圖表去展示你的數據結果,因為數據可視化軟體就不能少,BDP個人版、TABLUEA、Echart等這些必備的,就看你自己怎麼選了。
(2)專業數據分析軟體:Office並不是全部,要從在數據分析方面做的比較好,你必須會用(至少要了解)一些比較常用的專業數據分析軟體工具,比如SPSS、SAS、Matlab等等,這些軟體可以很好地幫助我們完成專業性的演算法或模型分析,還有高級的python、R等。
(3)資料庫:hive、hadoop、impala等資料庫相關的知識可以學習;
(3)輔助工具:比如思維導圖軟體(如MindManager、MindNode Pro等)也可以很好地幫助我們整理分析思路。
最重要的是:理論知識+軟體工具+數據思維=數據分析基礎,最後要把這些數據分析基礎運用到實際的工作業務中,好好理解業務邏輯,真正用數據分析驅動網站運營、業務管理,真正發揮數據的價值。
希望能幫到你啊,希望你儘快成為一名優秀的數據分析師!!!
========= 更新 =========
很多人私信我說為什麼sql沒有寫上去。這個確實是我的疏忽。其實並不是覺得sql不重要,相反,sql是最最基礎的東西。一個好的data scientist必須要熟練的掌握sql。雖然我不敢說,資料庫的架構和性能優化你要多了解,但是怎麼巧妙地利用資料庫讀取數據,如何設計資料庫對於一個data scientist來說是非常重要的。
目前市面上其實對於sql的資料實在太多,而且我覺得對於data scientist來說巧用比較重要,所以這裡就不羅列學習sql語句的資料了。
========= 之前 ============
數據分析師我覺得是 Data Scientist 的一類,這個職位在美國是近期比較熱門的一個職位。因為越來越多的公司都意識到數據重要性。早期的公司,可能因為有了Data Scientist,更容易進行冷啟動,成熟的公司,可能因為有了Data Scientist可以在各個方面:市場,運營提高效率。特別是Uber 和 Airbnb 火了之後,招聘市場對Data Scientist 越來越熱捧。如果是一個 cs 的 undergraduate 或者是 math major 的 undergraduate,想成為一個好的 Data Scientist 並不需要太多時間就可以成為一個非常好的 Data Scientist。那麼在這裡,我們討論,如果要零基礎(至少高中要畢業吧)如何成為一個比較合格的 Data Scientist 從業者,我想至少要在以下幾個方面進行更好的磨練。
數學
Data Scientist 的數學基礎要好,特別是 statistics,probability,和重點中的重點 Linear Algebra。當這幾門學好了之後,Data Scientist 最核心的 Machine Learning 和 Data Mining 其實就是往深的延展和變化。
首先要說的是 Linear Algebra。
這個絕對是重點中的重點。必須要學好。在實際學習過程中你會發現,Machine Learning 和 Data Mining 用到的很多 Algorithm 是需要 matrix 推導的。因為很多演算法的核心就是找最優解,而推演算出最優解的過程是需要非常夯實的 Linear Algebra 的基礎的。推薦以下學習的途徑:
- http://cs229.stanford.edu/section/cs229-linalg.pdf 斯坦福的一些講義,可以當做基礎的看一下。
- Linear Algebra MIT的在線課程,是有難度的,但是從基礎學起是很好的。有Exam配套solution
- http://joshua.smcvt.edu/linearalgebra/book.pdf 這本書比較基礎,可以看一下。
- Bretscher, Linear Algebra with Applications Princeton Linear Algebra 的教科書,我覺得很不錯,太貴沒有買。
其次是 stats 和 probability 這兩個是要一起學的。因為是互補的,而且最基本的思想是一樣的。stats 和 probability 的學習途徑很多。(雖然本人更喜歡probability 一些,覺得stats有些枯燥)。因為對於Data Scientist 來說有一個比較重要的要素是從sample推導到集合。這兩門課是不僅僅讓你的思想更加豐滿,有的時候扮演的是必殺技的角色。那麼就直接上我覺得比較好的學習途徑吧:
- 初級:
- Textbook: Introduction to Probability, 2nd Edition 這本書很多學校都作為教材。可以淘寶影印版
- Probability and Statistics (Open + Free) stanford 怎麼著也不是很差
- https://www.coursera.org/learn/probability-intro Coursera 比較簡單但是很多思想真的很好
- 浙大出的《概率論與數理統計》大學的教材,看得第一本比較系統的書
必須要掌握一些概率論的定律,如何推演,內在是什麼意思。各種distributions的意義也同樣重要。舉個例子:比較常用的Logistic Distribution。這個是一個比較常用的分布,你必須要了解它的pdf和cdf,要明白 sigmoid function 是怎麼來的,它的求導怎麼算。更重要的是必須知道Logistic Distribution的參數 和 這兩個參數是幹嘛的,如果可以研究還可以研究一下它的物理含義,因為物理意義在現實生活中非常有用。當你在分析數據的時候,看到某些數據呈現的時候會本能的反應出哪種distribution可能會很好的暫時性的描述這些數據的規律。換句話說:如何將數據結構化,歸納化,學好 stats 和 probability 尤其重要。
- 中級:
有了上面的基礎,可以學習比較難的。我覺得更近一步可以學一些 applied math,因為基礎打好了之後,應用比較重要。
- Elements of Statistical Learning: data mining, inference, and prediction.
2nd Edition. 這本stats的書比較難,但是很好
我在這個階段經常做的事情是深究,就是當你遇到某個問題的時候就把這個問題詳細的研究一遍。比如我記得原來學 Baye"s theorem 的時候,把幾個公式就記一下。後來要用到 bayesian regression 了,我再系統地學了一遍,發現 Baye"s theorem 理解的好,對於後面學習 bayesian regression是多麼的重要。很長一段時間我不能理解 prior 的意義在哪裡。回顧所有的基礎,你會發現,你的理解會更上一層。
- 高級:
更高一層的學習就應該深度學習 Machine Learning 和 Data Mining 的東西了。我一開始學的不是 Machine Learning,是Operation Research,通俗地講就是優化(optimization) 。Machine Learning 很多的時候是 predicting。但是核心的思想我覺得是一樣的。學的越深需要學得肯定就越多,就直接推薦一些書和材料吧:
- Manning | Machine Learning in Action Machine Learning In Action 這本書比較基礎,還有實際的coding演習,我覺得很不錯,讓人有一個基礎的概念。
- awesome-machine-learning/books.md at master · josephmisiti/awesome-machine-learning · GitHub github 上整理的machine learning 的書籍
- Machine Learning 絕對經典中的經典,我非常喜歡通俗易懂
- Introduction to Data Mining Introduction to data mining 我覺得是 data mining 的bible 我買了印影版,當字典在用。
- OptimalLearning Optimal Learning 有點難讀,導師的書就推薦一下。
- https://www.dartmouth.edu/~chance/teaching_aids/books_articles/probability_book/Chapter11.pdf Markov chain 的講義
還有很多。。。。我這邊有很多資料,如果有需要可以私信我,當時買了很多電子書。抱著學習的態度我們一起交流。
計算機
寫程序對 Data Scientist 來說同樣重要。如果說數學是戰術,那麼編程就是武器。ETL,data processing,data analyze 都需要很好的編程功底。如果說你用matlab和sas就能做好 data scientist 我是不相信的。
- 基礎:
最基礎的話先學一些 C++ 吧。或者Java,至少很多學校的 cs 101 要學一下。我這邊提供一些免費的在線課程吧:
- CS101 Introduction to Computing Principles Stanford CS
- introcs.cs.princeton.edu/ Princeton CS
- 進階:
我的話一般平時都用 python,用R的時候也不是很多,因為更喜歡python。學好python,不僅可以做很多演算法的事情,而且big data system 都會開放 python 的 api(雖然java比較多)。python 並不是很難,看源碼是一個比較好的方式。各種math toolkit的源碼:numpy,scipy的源碼看一看,我覺得對於成為一個好的data scietist 很有幫助。一開始如何學呢,我學的是google的python course,非常非常好:
- https://developers.google.com/edu/python/introduction 一天之後應該就可以入門了。
- R和python基本上都各有利弊,分析數據的時候可能用R比較多,介紹一下R的一個比較好的工具,R studio
- python in action
- 高階:
- Hadoop 的一套東西都需要知道吧。什麼是 Big Table,什麼是 Map reduce,什麼是 NoSql。其實說白了就是要掌握big data 的工具,不用hadoop也要了解其他的工具。
- 現在用spark 和 storm的越來越多了,我很喜歡 spark,但是坑有點多,這邊特別希望能和有過實戰的人交流。最近我也想把spark部署到自己公司的機器上,然後優化一下開源出來和大家一起分享。
其他
除了這些我覺得作為一個 Data Scientist,除非你就做一個最最基礎的大數據架構師(雖然很多人覺得這和 Data Scientist 是完全兩個不一樣的工作,但是當年我在 start up的時候要同時做這兩個工作)還必須要懂得如何和市場結合起來,解決實際的問題。Data Scientist 更多的並不是 science 而是engineering,需要著手解決實際的問題。讓更多的事情通過數據來變得更有效率以及更加直觀。多思考,多想像,對數據有敬畏之心,就可以很好的成為一位 Data Scientist
推薦閱讀: