數據分析入門及職業規劃?

個人很喜歡資料庫,這學期開了門新課,接觸了R語言,感覺很迷數據處理,和國內做數據分析師的同學聊過以後,決定以後做數據分析方向的工作
想用一年時間好好學基本知識,麻煩知乎上的各位大神:
1. 推薦一些數據分析方面的入門書籍(最好是有電子版的)
2. 能分析一下國內數據分析師的就業情況嗎?

提前謝過啦


關於推薦書那方面,卡牌大師已經講的很好了,我主要補充下職業規劃方面。

我認為數據相關的職業,大致有3種職業路線,分別是市場調研方向、數據分析/挖掘方向、數據工程師方向,這3條路線,分別有對應的公司和技能樹。

我有不少朋友 非數學/計算機/統計學 專業畢業的朋友走的是這個方向,數據相關,非技術路線,更偏向於市場方向,對技術的要求只是Excel、PPT,最多要求SPSS,很少要求會寫SQL。這條路線看起來比較高大上,可以走外企路線。

數據分析師方向,很多讀數學、統計學、計算機的童鞋會選這個方向,終極目標都是成為數據中心的負責人。中間有2個分叉,一條是從數據分析師到數據產品經理,這個路線最近很流行,主要是結合了數據分析和產品經理的能力。一條是高大上一點的數據挖掘方向,這條路線要求比較高,但薪資也高。當然能走數據挖掘路線是很多數據分析師的夢想,但演算法和代碼實現能力不是誰都能掌握的。

碼農選擇的方向,畢業後可以根據自己興趣選擇ETL、運維、可視化,所要求的能力各不相同。

以上的公司只是我知道的有這些職位的公司,不代表一定要去這些公司才可以從事這些崗位。

關於數據相關職位的要求和薪資,還可以參考這篇文章
[職業]與大數據相關的工作職位有哪些?

親,如果覺得講的還OK,請點贊哦 \( ^▽^ )/


有不少同學問我數據分析的職業發展相關,這裡起一個大綱。它更多是以我所在的互聯網行業展開的。

入門和職業規劃應該從兩個角度考慮:

領域和路線。

領域是不少新人常忽略的要素,其實數據分析不會脫離業務存在。你進入哪個行業,很大程度會決定你初期的技能樹和技能點。譬如金融領域的風控模型、營銷領域的生命周期、廣告領域的點擊率預估等,各有各的特色。

如果是一位應屆生,不妨多了解自己感興趣的領域,多積累相關的經驗,為面試做準備。

如果已經有一定行業履歷,只是想要轉崗數據分析師,那麼跨崗不跨行,盡量避免跳到一個陌生的領域。

領域經驗我給不了太多的指點,主要也就三點:1.自己感興趣的,2.自己擅長的,3.有錢途的。成為某領域的數據專家,會是一個更好的籌碼。

而路線大致可以劃分成四大方向:

數據分析,數據挖掘,數據產品,數據工程。

數據分析/數據運營/商業分析

這是業務方向的數據分析師。

絕大部分人,都是從這個崗位開始自己的數據之路,也是基數最大的崗位。

因為基數大,所以這類崗位通常魚龍混雜。有些雖然叫數據分析師,但是每天只需要和Excel打交道,完成leader布置的表格整理工作就行。混個幾年,成為一位數據分析主管,給下面的新人繼續布置Excel任務。

又有一種數據分析師,崗位職責要求你掌握常用的機器學習演算法,面試首先推導一個決策樹或者邏輯回歸。

都叫數據分析師,其實天差地別。

這裡更多指代互聯網行業,偏業務的數據分析師,一般屬於運營部門。不少公司也稱數據運營或者商業分析。

這類崗位的職位描述一般是:

  • 負責和支撐各部門相關的報表;
  • 建立和優化指標體系;
  • 監控數據的波動和異常,找出問題;
  • 優化和驅動業務,推動數據化運營;
  • 找出可增長的市場或產品優化空間;
  • 輸出專題分析報告;

實際的崗位中,不少業務端的數據分析師,主要工作都是第一點。別管它用匯總、分析、數據支持什麼修飾詞,基本是跑SQL,做報表。硬生生活成了業務端的表哥。

這是很常見的情況,也是入門新人的第一個坑。因為從頭到尾,這類分析師,都沒有解決問題。

業務部門往往更關心,某個指標為什麼下跌或者上升。產品的用戶是什麼樣的?怎麼能更好的完成自己的KPI。

以活躍指標的下跌舉例:

  • 活躍指標下跌了多少?是屬於合理的數據波動,還是突髮式?
  • 什麼時候開始的下跌?
  • 是整體的活躍用戶下跌,還是部分用戶?
  • 為什麼下跌?是產品版本,還是運營失誤?
  • 怎麼解決下跌的問題

這是一套標準的解決思維。分別對應what、when、who、why、how,每一部分都不是三言兩語可以解釋清楚。不要看它很簡單,例如你通過多維分析,發現某個地區的活躍下跌了,不要急著把它作為分析的結論,這是不合格的數據分析。某地區的活躍下跌,只是現象,不是原因,把它作為結論提交,肯定會被罵的。

你要解決的是,為什麼這個地區的活躍下跌了。是該地渠道,是該地競爭對手,是該地市場環境?這些問題都是細化的範疇。並且,它們要能以量化解釋,而不是我認為。

做好了這點,才是一個真正的業務端的數據分析師。

解決問題是一方面工作,另外一方面,數據分析師的職責是將業務數據體系化,建立一套指標框架。活躍下跌的問題,本質上也是指標問題。什麼時候開始下跌,哪部分下跌,都能轉化成對應指標,如日活躍用戶數,新老用戶活躍數,地區活躍數。

你不能衡量它,就無法增長它,指的就是指標體系。指標體系可以業務部門建立,但數據分析師也挺合適。一方面他們比數據挖掘這類技術崗位更貼合業務,一方面不像業務崗位對數據抓瞎。

兩者結合,這崗位也能稱為數據運營。

指標體系如果工程化自動化,也就是BI,所以數據分析師可以算半個BI分析師,這裡不包括BI報表開發。BI如果採購第三方,數據分析師負責BI沒問題,如果自有開發,那麼BI崗技術的色彩更濃厚。

數據分析思維和業務的理解,是分析師賴以生存的技能。很多時候,工具是錦上添花的作用。掌握Excel+SQL/hive,了解描述統計學,知道常見的可視化表達,足夠完成大部分任務。機器學習這類能力,對此類數據分析師不是必須的,Python也一樣,只是加分項。畢竟為什麼下跌,你無法用數據挖掘解答。

數據分析師是一個基礎崗位,如果專精於業務,更適合往管理端發展,單純的工具和技巧很難拉開差距。Title比較常見的有數據運營經理/總監,數據分析經理等。

商業/市場分析是另外一個方向,更多見於傳統行業。你要開一家超市,你得考慮哪裡開,這就要考慮居民密度,居民消費能力,競爭對手的多寡,步行交通距離,開車交通距離等。這些數據是宏觀的大指標,往往靠搜索和調研完成,這是和互聯網數據分析師最大的差異。

如果往其他分支發展,比如數據挖掘工程師,則要繼續掌握Python和機器學習等。從業務型發展上來的好處是接地氣,具備商業洞察力(天天搞報表,怎麼可能不熟),這點是直接做數據挖掘,或者程序員轉崗,所不具備的。

新人,比較普適的發展路線是先成為一位數據分析師。積累相關的經驗,在一兩年後,決定往後的發展,是數據挖掘,還是專精數據分析成為管理崗。

學習資料:

Excel和SQL可以網上搜索,也能買書,不多推薦。

指標體系的建立,可以看精益數據分析。另外有一本數據化決策,講如何量化,比較寬泛。

統計學可以看商務與經濟統計,主要是前半部分。

還有一本數據挖掘技術——應用於市場營銷、銷售與客戶關係管理。我推薦它是比較糾結的,這本書的知識點比較豐富,非技術人員也能理解,但是翻譯太糟糕了…

學習數據化運營,可以看數據化運營速成手冊,對新人比較友好的。

業務和數據分析思維,了解金字塔原理,看看case in point、 crack the case、BCG系列也不錯。

我以前也有相關的集合回答,可見:如何快速成為數據分析師?

數據挖掘/演算法專家

這是技術向的數據崗,有些歸類在研發部門,有些則單獨成立數據部門。

數據挖掘工程師要求更高的統計學能力、數理能力以及編程技巧。

從概念上說,數據挖掘Data mining是一種方式,機器學習Machine learing是一門方法/學科。機器學習主要是有監督和無監督學習,有監督又可劃分成回歸和分類,它們是從過去的歷史數據中學習到一個模型,模型可以針對特定問題求解。

數據挖掘的範圍則大得多,即可以通過機器學習,而能藉助其他演算法。比如協同過濾、關聯規則、PageRank等,它們是數據挖掘的經典演算法,但不屬於機器學習,所以在機器學習的書籍上,你是看不到的。

除此之外,還有一個領域,屬於最優化問題的運籌學。現實中的問題往往有很多約束,比如護士排班,一共有三班(早、中、晚),現在要求每班滿足最低護士人數,每位護士盡量不能連班,每位護士不能連續工作5天。每位護士的夜班數要均衡,每位護士每月的班數要均衡…這些問題很難用機器學習的方法完成,而在最優化領域,則有遺傳演算法、模擬退火演算法、蟻群演算法等。

實際的應用場景中,如外賣行業,如何尋找騎手效率最大化的最優路徑,同樣屬於最優化,也是數據挖掘的工作範疇。

數據挖掘工程師,除了掌握演算法,同樣需要編程能力去實現,不論R、Python、Scala/Java,至少掌握一種。模型的實施,往往也要求Hadoop/Spark的工程實踐經驗,精通SQL/Hive是必須的。

常見數據挖掘項目的閉環如下:

  • 定義問題
  • 數據抽取
  • 數據清洗
  • 特徵選取/特徵工程
  • 數據模型
  • 數據驗證
  • 迭代優化

單看環節,數據挖掘對分析能力沒有業務型那麼高。這不代表業務不重要,尤其在特徵選取方面,對業務的理解很大程度會影響特徵怎麼選取,進而影響模型質量。

數據挖掘的業務領域一樣可以細分。金融行業的信用模型和風控模型/反欺詐模型、廣告模型的點擊預估模型、電商行業的推薦系統和用戶畫像系統。從需求提出到落地,數據挖掘工程師除了全程跟進也要熟悉業務。

因為要求高,所以數據挖掘的平均薪資高於普通的數據分析師。

一個分工明確的團隊,數據分析師負責將業務需求抽象成一個具體的數據假設或者模型。比如,運營希望減少用戶流失,那麼設立一個流失指標,現在需要預測用戶流失率的模型。模型可以是數據分析師完成,也能是數據挖掘工程師。最終由數據挖掘團隊部署到線上。

在一些公司,高級數據分析師會等價於數據挖掘工程師,只是工程能力可以稍弱,模型部署由專門的工程團隊完成。

數據挖掘工程師,往後發展,稱為演算法專家。後者對理論要求更嚴苛,幾乎都要閱讀國外的前沿論文。方向不局限於簡單的分類或者回歸,還包括圖像識別、自然語言處理、智能量化投顧這種複合領域。如果從業者本身有相關的名校高學歷,碩士起,這無疑是一個大優勢。

深度學習則更前沿,它由神經網路發展而來,是機器學習的一個子集。因為各類框架開枝散葉,諸多模型百花齊放,也可以算一個全新的分支。除了要求熟悉TensorFlow, Caffe, MXNet等深度學習框架,對模型的理論應用和調參也是必備的。

演算法專家和深度學習專家,薪資level會更高一級,一般對應於業務型的數據運營/分析總監。

數據科學家是上述崗位的最終形態之一,要麼理論能力非常強,往往擔任研究院的一把手。要麼工程能力突出,上述的系統都能完成平台化的部署。

學習資料:

這類崗位對基礎知識要求紮實,所以書籍需要比較大的閱讀量,而且要保持領域新論文的吸收。

統計學習,除了商務與經濟統計外,國外有一本The Elements of Statistical Learning,評價不錯。

機器學習的入門,李航的統計學習方法,周志華的機器學習,擇其一。英文好也能看PRML。

Python,入門書籍的推薦太多,略過。用Python進行數據分析是必備的,當然這本書有點老,活用官網最新文檔和stackoverflow,基本無礙。

再進一步,則是機器學習的代碼實現,比較知名的有集體智慧編程,機器學習實戰等。其實最近還有不少新書,Python DataScience Handbook等,我當然不可能都看過,所以也不好推(hu)薦(you)。

除了基礎,行業領域的也不能落下,諸如推薦系統實戰、計算廣告…按需學習。

知乎上相關的書籍推薦比我齊全多了。

數據產品經理

這個崗位比較新興,它有兩種理解,一種是具備強數據分析能力的PM,一種是公司數據產品的規劃者。

前者,以數據導向優化和改進產品。在產品強勢的公司,數據分析也會劃歸到產品部門,甚至運營也屬於產品部。這類產品經理有更多的機會接觸業務,屬於順便把分析師的活也幹了,一專多能的典型。

他們會運用不同的數據源,對用戶的行為特徵分析和挖掘,達到改進產品。最典型的場景就是AB測試。大到頁面布局、路徑規劃、小到按鈕的顏色和樣式,均可以通過數據指標評估。

下圖的案例,就是弱化心愿單按鈕的存在感,讓用戶更多的聚焦在直接購買而不是收藏,最終讓銷售額提高了35%。

俗話說,再優秀的產品經理也跑不過一半AB測試。此類數據產品經理,更多是注重數據分析能力,擅長用分析進行決策。數據是能力的一部分。

後者,是真正意義上的數據產品經理。在公司邁大邁強後,數據量與日俱增,此時會有不少數據相關的產品項目:包括大數據平台、埋點採集系統、BI、推薦系統、廣告平台等。這些當然也是產品,自然需要提煉需求、設計、規劃、項目排期,乃至落地。

我們不妨看幾個數據產品經理要求:

  • 負責大數據產品的設計,輸出需求文檔、產品原型;
  • 負責推薦演算法的產品策略,完成相關推薦及個性化推薦產品的需求分析;
  • 負責分析和挖掘用戶消費內容的行為數據,為改進演算法策略提供依據;
  • 負責客戶端數據需求的對接,制定相關埋點規範及口徑,相關業務指標驗證;
  • 報表展示工具的落地和應用;

和C端注重用戶體驗不同,數據產品,更注重整體的分析能力和邏輯。除了產品經理最基礎的Axure、Visio、MindManager等工具。往往還需要很多技術型的能力。比如了解BI/DW原理和實施、了解常用的推薦演算法、了解機器學習模型等。這也很容易理解,C端要求你了解用戶需求,而在數據端,主要用戶就是數據。

這當然不是說,用戶體驗不重要,拿推薦演算法來說,除了滿足用戶最基本的感興趣,也要考慮時效性,考慮新興趣的挖掘,考慮無數據時的冷啟動問題…這些一樣是用戶體驗,只是解決方案也得從數據出發。後端的數據產品,如報表,用戶往往是你隔壁工位的小秦或小路,設計得丑一點不要緊,要是數據指標口徑不統一,那才會分分鐘罵街。

雖然數據PM需要熟悉各類數據模型、指標、數據挖掘和數據工程的實現,但是聚焦點是把它作為一個項目去實現,而不是考慮技術的細節。故而不用精通。

數據產品經理是一個比較新興的崗位,所以有豐富經驗的從業者並不多,我個人認為,還是存在比較大的職業缺口。當然也有其他問題,一是因為新興,部門負責人本身也沒有想好他們能幹什麼,不少數據PM還從事表哥的工作。二是數據產品本身可借鑒的經驗不多,像APP產品,可以下載體驗,總歸有一個學習了解的過程。然而用戶畫像、BI、演算法策略,都是其他公司的內部機密,無從參考,我就遇到不少對用戶畫像實現非常感興趣的數據PM。

從職業發展上看,數據分析師做數據產品經理更合適。普通的產品經理,對前端、後端的技術棧尚未熟悉,何況日新月異的數據棧。這個崗位,適合對數據特別感興趣,但是數理天賦不高的職場人,那麼以溝通、項目管理和需求規劃為目標,也不錯。

學習資料:

數據產品經理,如果有數據挖掘經驗,那麼技術相關的書籍倒不重要,更關注產品經理本身的能力,包括Axure,各類文檔的編寫、項目管理、需求整理等,市面上資料比較多。

這裡再補充一本,數據挖掘與數據化運營實戰,沒啥高深技術,但是能夠了解體系的初步建立。

其他書籍參考其他崗位即可。

數據工程

數據工程其實更偏技術,從職業道路上看,程序員走這條道路更開闊。

在很多中小型的公司,一方面數據是無序的、缺失的、原始的,另外一方面各種業務報表又嗷嗷待哺。沒辦法,分析師只能自己擼起袖子,一個人當兩個人用。兼做數據清洗+ETL+BI。

數據分析踏上數據工程的不歸路如下:

  • 每天都要從五六張表上join,那麼不妨加工成一張中間表;
  • ETL的依賴關係越來越複雜,嘗試用kettle/airflow等框架搞定,弄個DAG美滋滋;
  • 運營部門的周報次次都要這幾個指標,看看能否做一個自動化BI;
  • 數據量逐日增多,最近T+1的日報需要幾個小時完成,研究下查詢語句的優化;
  • 查詢語句的優化空間也不大了,開始遷移到Hadoop/Spark分散式平台,新技術棧的學習;
  • 新平台,原有的工具也不管用了,某大牛說apache上有工具能解決這個問題,於是閱讀文檔;
  • 公司部署了私有化的埋點採集,數據缺失比較厲害,業務部門天天罵娘,繼續埋Flume/Kafka的坑;
  • 等等…

如果分析師在技術方面的靈性不錯,那麼技能點會往技術棧方向遷移。從最初的SQL,到了解Hadoop集群、了解presto/impala/spark、了解ELK、了解分散式存儲和NoSQL……

這也是一個不錯的發展方向,因為數據挖掘需要了解演算法/模型,理論知識要求過高,不少碩士和博士還過來搶飯碗,如果自己不擅長容易遇到天花板。選擇更底層的工程實現和架構,也是出路,薪資也不會低於數據挖掘。

部分公司會將機器學習模型的部署和實現交給數據工程團隊,這要求數據工程師熟悉sparkMLlib、Mahout此類框架。

數據工程師,可以從數據分析師的SQL技能,往數據的底層收集、存儲、計算、運維拓展。往後發展則是數據總監、或者數據架構師。因為數據分析出身,與純技術棧的程序員比,思考會更全面一些,雖然技術底子的薄弱需要彌補。

另外,DBA、BI這些傳統的資料庫從業者,也是能按這條路線進階,或者選擇數據產品經理方向。

數據工程類的書籍,我看的不多,給不了建議。主要按各類名詞搜索吧,什麼linux、數據倉庫、Hadoop、Spark、Storm、Elasticsearch等。

大體就是這些啦,有空我再完善應屆生相關,以及能力。


首先,來一點乾貨,題主要的電子書我之前已經寫過詳細的帖子:
做數據分析不得不看的書有哪些? - 卡牌大師的回答
有兩點很切合題主的需求:入門 和 電子書
很喜歡資料庫和會資料庫是兩回事,但是喜歡會是一個好的學習動力。
R語言是數據分析領域的佼佼者,既然很迷戀,那就系統的學習一下。很簡單也很實用的一門語言。

那麼再來說說就業情況。
數據分析師在國內還是比較好就業的,尤其是在北上廣的互聯網企業。待遇也不錯,這也得益於前兩個因素:互聯網 北上廣

但是每個企業對數據分析師的要求不一樣,很多公司還停留在分析報表,整理數據的階段,離分析還有點距離。這一點與公司的眼界以及對待數據的態度有關。 一般大型公司(如BAT)就會對數據分析有著明確並且更高的要求,這一點到是很符合我們理想中的數據分析師狀態!
而且題主要明白,數據分析師和數據挖掘工程師是有著明顯的區別的,前者偏向於業務,後者偏向於技術。就國內環境而言,數據分析師一般要求如下:

  1. 本科以上學歷
  2. 統計數,數學知識牢固
  3. 熟練掌握MS OFFICE
  4. 會使用SPSS,R,SAS其中至少一種
  5. 能夠掌握常規的模型:聚類,回歸等

會資料庫之類的都是加分項哦~~

總之,數據分析師在國內剛剛起步,會是一個很好的方向。只要挑對企業,這一行會有一個不錯的發展~~~


瀉藥!來回答下LZ的疑惑吧!關於這些問題和規劃,還有系統的講解。今年三季度(大概在7月份)也會出本書,到時候大家可以再看看。目前已經寫到快接近尾聲了!
細節上面的問題可以留言,不作太多累贅的廢話了。

1. 推薦一些數據分析方面的入門書籍(最好是有電子版的)

關於數據分析從入門到精通,我這裡列的書單已經很詳細了。重點是reading+practise,不一定全部都看。
作者:麵包君
鏈接:數據讀書分享系列篇(1):那些年數據分析師必讀書單 - 數據分析俠 - 知乎專欄
來源:知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。

——小白篇——

1.大數據時代

2.浪潮之巔

3.互聯網創業密碼

4.從0到1

5.決戰大數據

6.塊數據

7.大數據預測:告訴你誰會點擊、購買、死去或撒謊

8.信號和雜訊

9.數據之巔

10.跨界:開啟互聯網與傳統行業融合新趨勢

11.刪除:大數據取捨之道

12.互聯網思維:工作、生活、商業的大革新

——菜逼篇——

1.數據化管理:洞悉零售及電子商務運營

2.轉化:提升網站流量和轉化率的技巧

3.社交網站的數據挖掘與分析

4.數據分析 :企業的賢內助

5.淘寶大數據

6.網站數據分析:數據驅動的網站管理.優化和運營

7.人人都是網站分析師:從分析師的視角理解網站和解讀數據

8.大數據營銷:定位客戶

9.數據挖掘與數據化運營實戰 :思路.方法.技巧與應用

10.大數據分析:決勝互聯網金融時代

11.分析的力量

12.網站數據挖掘與分析:系統方法與商業實踐

——菜鳥篇——

1.誰說菜鳥不會數據分析(工具篇+入門篇)

2.EXCEL圖表之道/如何製作專業有效的商務圖表

3.決策分析:以Excel為分析工具

4.Word/Excel/PPT 2013商務辦公從新手到高手

5.實用數據分析

6.深入淺出數據分析

7.構建高效數據分析模板:職場必學的Excel函數與動態圖表高級

8.SAS統計分析與應用從入門到精通(第2版)

9.IBM SPSS數據分析與挖掘實戰案例精粹

10.從零進階!數據分析的統計基礎

11.Excel 2010函數與公式

12.Excel高效辦公.數據處理與分析

——高手篇——

1.集體智慧編程

2.利用Python進行數據分析

3.數據挖掘與R語言

4.R語言與數據挖掘最佳實踐和經典案例

5.R的極客理想工具篇

6.數據挖掘 :實用案例分析

7.R與Hadoop大數據分析實戰

8.深入理解大數據:大數據處理與編程實踐

9.數據挖掘:實用機器學習工具與技術

10.R語言與網站分析

11.Mahout演算法解析與案例實戰

12.演算法心得:高效演算法的奧秘

——大神篇——

1.大數據管理:數據集成的技術、方法與最佳實踐

2.HADOOP技術內幕系列

3.MYSQL技術內幕

4.Storm 實時數據處理

5.Spark快速數據處理

6.Oracle資料庫性能優化的藝術

7.Oracle達人修鍊秘籍:Oracle 11g資料庫管理與開發指南

8.Hadoop應用開發技術詳解

2. 能分析一下國內數據分析師的就業情況嗎?

我們先來看一下阿里對不同級別的數據分析師的要求是什麼樣。很具有代表性!

薪資情況從年薪10W~50W算是比較常見的,再往上的相對來說偏管理+股權(股票)。

國內哪些公司:

一線梯隊:BAT 百度、阿里、騰訊(阿里和騰訊相對來說市場更具有競爭力,百度現在的業務真心有些悲劇)。
二線梯隊:網易、新浪、360、大眾點評、眾安保險、餓了么、京東商城、58、平安金融等(推薦互聯網+金融行業公司,具體原因你以後就知道了)。
三線梯隊:比較多了,建議選擇C輪以後或者有大佬背景的公司。蘑菇街、人人貸、萬達金融等等吧。

部分參考:
數據分析從入門到大師! - 數據分析俠 - 知乎專欄

3.數據分析師的職業規劃?

對於職業規劃來說,這個問題相對來說比較開放。作為走在數據分析領域比較前面的,簡單介紹下吧。

早期我不太建議去創業或者幹嘛,因為很累也沒太多經驗。背景好的建議選擇BAT這些規模的,不太建議去小公司。如果沒辦法,那就看看公司行業背景、創始人背景、團隊情況、leader、所需要做的事情等。

3~5年的積累後可以考慮做一些轉型或者升級。(轉型做系統,完善自己在工程方面的經驗)(升級可以開始了解管理、寫書、講師、公司投資等)

7年以上的不太建議再去做數據分析,而是去做戰略決策。(自己創業or職業經理人中層以上)。

小說也可以看看:
數據分析俠A的成長故事 - 數據分析俠 - 知乎專欄


這個回答裡面涉及的內容有三點:

1、不同公司的數據分析師都做什麼事

2、數據分析師工作的時間組成

3、數據分析師的職業發展路徑

數據分析師有具體的工作,但是當前不同公司對數據分析師的工作範疇有不同的理解,來看兩則招聘信息:


第一則(某傳統企業招聘平台的招聘信息)

為了看得清晰點,把職位描述寫出來

1、負責網銷電商渠道客戶數據支持管理工作,整合公司內部名單資源

2、根據日常數據使用情況,定期測算數據轉化率,為數據採集渠道提供建議

3、協助客戶關係管理系統的規則和建設,對客戶群體進行統計分析

4、領導安排的其他工作


歸納起來的工作為:整理名單、數據轉化率、客群統計分析。相對來說對數據分析工作的理解較為傳統,職位描述也較為模糊。

另一則(互聯網招聘平台招聘信息)

職位描述:

1、通過對業務數據的挖掘分析,給產品、營銷等部門提供業務策略建議

2、通過用戶數據挖掘,建立用戶分析模型

3、優化數據採集體系,完善數據監測系統

4、負責常規報告的撰寫

5、收集行業信息,定期提供行業分析報告

6、協助公司數據平台的開發

總的來說,這裡的職位描述更清晰,數據分析服務於公司的戰略和營銷(貌似更有意義)

說到底,數據分析屬於營銷工作中的一個環節(因為,任何營銷內容或者活動都需要相關的數據分析反饋,來對產品或者營銷進行優化)如果數據分析只是營銷技能裡面的一項必備技能,那麼到底有沒有必要將其單獨出來作為一個獨立的職位呢?來看一下一個專業數據分析師的工作時間構成:

由圖中可以看出,數據分析師大部分時間都在跟數據打交道,不接觸其他業務和能力的培養。很有可能成為只需要分析數據的「螺絲釘」,每天都被人使喚看數字。

那麼數據分析師的職業發展路徑究竟是怎樣的?

看圖

1、起薪相對較高,初級做一些配合工作


2、了解一些初級工作方法後,兩條發展路徑:1、轉行做互聯網營銷(優勢是比一開始做文案創意的人多了一種數據分析思維,對互聯網營銷非常有利,但薪資可能還在3K-6K(跳槽點是薪資降落點));2、加強工具使用的熟悉度(專業能力更強,薪資5K-8K)


3、轉行做互聯網營銷,開始學習文案、調查、數據等更系統的做事方法(8K-12K);另一條路,在數據分析方面繼續做精專,學習根據數據找機會和劣勢(8K-12K。


4、再往後,營銷路線:建立完整的營銷做事辦法;而數據分析路徑可以選擇跳槽或繼續,薪資都差不多為12K-20k


5、達到鍛煉自己的管理、協調能力,薪水相當


6、再後,營銷路線因為已經有了更為系統全面的思維,可以自己創業或者以合伙人的身份創業(薪資無上下限),數據分析路線的人可以成為優秀的部門管理人員,甚至高層管理人員(薪資30W-50W,年薪)(圖片薪資單位打錯了)。

總的來說:

數據分析師在中國還很少,特別是專業的人員,說不上哪條路徑誰好誰壞,還是根據自己的性格來取捨。做一個具有數據分析能力的綜合性營銷人員或垂直的數據分析師同樣都非常有前途。

本人踏浪100學員,以上信息來自站內的學習內容《營銷職業規劃學習課程》之「數據分析人員的職業規劃」當然,數據分析也是該網站教學內容中的一部分,如果你想了解更多數據分析知識或者想系統學習互聯網營銷知識,可以來踏浪100-專註學習互聯網營銷知識 學習。


入行必讀

與大數據相關的工作職位有哪些? 數據分析師成長之路 數據分析那些事

職業規劃先看一下國內知名互聯網數據分析師的招聘要求:
1. 計算機、統計學、數學等相關專業本科及以上學歷;
2. 具有深厚的統計學、數據挖掘知識,熟悉數據倉庫和數據挖掘的相關技術,能夠熟練地使用SQL;
3. 三年以上具有海量數據挖掘、分析相關項目實施的工作經驗,參與過較完整的數據採集、整理、分析和建模工作;
4. 對商業和業務邏輯敏感,熟悉傳統行業數據挖掘背景、了解市場特點及用戶需求,有互聯網相關行業背景,有網站用戶行為研究和文本挖掘經驗尤佳;
5. 具備良好的邏輯分析能力、組織溝通能力和團隊精神;
6. 富有創新精神,充滿激情,樂於接受挑戰
前三個屬於硬體要求,一般而言,有專業基礎(計算機、統計學、數學等相關專業)入行需要3個月以上的學習,對於非專業背景的同學,入行的時間可能需要的更長,建議給自己預留6-12月的時間。而要成為一個熟手(企業用工需求最多)則需要2-3年以上的項目經驗和行業經驗。
Anyway,作為一門對數學和計算機都有較高要求的一門交叉學科,從事大數據是有一定門檻的,但相對於10年以上的職業生涯(國外頂尖數據科學家50-60歲仍然十分活躍),預備半年的時間來學習這個最炙手可熱的技能還是很划算的。

數據分析往上走就是數據科學家,可見這個職位對專業背景和知識素養有一定要求,如果你還在學校,建議先打好基礎,學好概率與數理統計、數值分析、多元分析、泛函分析、軟體工程,可以選修軟體工程、資料庫原理、任和一門編程語言;分析工具方面更新比較快,入門掌握一個並了解其原理即可,如spss/R/matlab,國內相關的教材較多;有時間的話建議參加一些數據建模方面的大賽,對自己能力提升和職業生涯的成長很有幫助。
未來數據分析是一種工具,在金融、互聯網、電子商務、公共服務、醫療健康等領域非常廣泛,職位上面偏業務的有數據分析師、數據產品經理、數據挖掘師等職位,偏技術的有大數據工程師、架構師、演算法工程師等職位,晉陞通道是業務主管/數據中心主任-》CIO/CDO/CTO-》VP或首席數據科學家。

在職業規劃這個問題上有位哲學家說過,最重要的人際關係就是自己和自己的關係,知道自己要什麼,不要什麼。在轉行的問題上也是一樣。 有人會說,轉行是讓自己之前幾年的經驗積累全都作廢了,其實社會經驗和人生理念是不管改到哪一行都能發揮效用的。而之前的人際關係也是屬於「山不轉水轉」的問題,你很難說哪一類人際關係是有用的,哪一類是沒有用——基於這個道理,應該統統視作為有用的。 不怕失去,才可能會有更多收穫。只要有明確的發展規劃,當然應該義無反顧地去投入新的開始。人生的機會並不多,即使你已經到了30歲,對大多數人來說,只是職業生涯的前半部分,完全不必縮頭縮腦患得患失。

如何學習要跨入數據分析師,也許很多時候你只能從「工人」開始做成(這意味著在很大長一段時間內,你的工作內容可能比較枯燥,可能做的都是比較沒有「技術」含量的活),慢慢的當你成為「熟練工」同時隨著行業相關知識和各種技能的積累,慢慢你也會走上「數據設計師」之路。開始從事「高大上」或者更有技術含量的工作。

一、至少花三個月掌握技術
「磨刀不誤砍柴工」,要想從為「工人」,甚至熟悉工,也需要很多技能,因為怎麼說數據分析師也是技術工種 。我覺得至少你要花3-6個月時間來學習一些最基礎的知識。
1、花1個月學習資料庫、sql知識。 深入淺出 SQL(中文版)
2、花1-2個月學習基礎的統計學知識。 統計學學習資料統計學書單
3、花1個月去學習最基礎的數據挖掘模型: 數據挖掘導論 PDF 中文完整版
4、花1個月掌握一門基礎的挖掘軟體的操作。
分析師一定要有持續學習的態度,所以在後續 工作中一定要保持持續學習的態度哦。堅持學習各類知識,不僅僅是技能層面的。
二、選擇感興趣的行業
如果你已經工作,選擇本行業或者相關行來。這樣你在行業經驗,業務知識你是有優勢的。因為你比較清楚業務的「痛點」
從而你也就相對清楚應該給業務提供什麼樣的數據。
如果你是學生,分析師一下自己的興趣,結合現在比較熱門的行業(指數據在這個行業也是比較熱)。
通過互聯網學習,聊這個行業的商業模式,數據內容,分析點。有機會可以去參加一些同行的沙龍或者分享,清楚的了解這個行業的數據分析師或者同行平時都在幹什麼 。
對比自己當面的知識儲備,更有針對性的補充知識。和在學校的同學共勉一句話:「在學校學的東西都是有用的,只是學校沒有告訴你怎麼用!」
三、開始尋找機會
對於跨行業轉入的同學,當你準備好上述內容的時候。開始找個機會:
1、內部轉崗
2、選擇中,小型公司。先入門,再修行。

幾點建議1)勤動手,多實踐:
看書和看視頻是學不會數據分析的,多參加一些項目,擼起袖子玩數據,英文講"make your hands dirty",校內可以通過參加大賽增加實踐機會,入行找一份能接觸到數據的崗位,任何工作都可以,市場、運營之類的職位很多。
工具先從一個容易上手的學起,excel/spss/sql都可以,順手就行,後續可以再學高級工具如R或者python,人劍合一的時候,柴火棍子也能砍死人,就是這麼回事。
2)終身學習:
大數據是一個實踐性很強的學科,從實際工作中獲取的知識和能力是你在學校裡面無法學習到的,企業最終也是看重你的實際工作能力。你可以在學習社區通過分享和交流補充課外知識get新技能。

《數據分析師訓練營-上海班》開始報名了 ,上海9月9號,僅20席名額!


樓主也是半路出家,從碩士美國TOP 50全獎應數和運籌學轉到博士德國海德堡大學機器學習、計算機視覺這倆數據分析的分支里來,大神可以輕噴。

先說點寬泛的、上綱上線的東西。

機器學習,大數據這些新興專業,是隨著工業界與日俱增的需求而隨之出現的。其實任何專業都是這樣一個需求導向的過程,包括微電子,計算機,還有什麼房地產專業。。你說幾十年前你們聽說過這些專業么?

自然科學如數學、物理、化學、生物長盛不衰,是有其道理的,這也是為什麼我們初高中我們都在學這些東西。而某些專業,也會隨著市場需求的銳減而減少甚至消失。

這些專業名詞在剛出現的時候往往是「憑空造詣」或者是強加術語,然而知識是需要積累的,不是憑空出現的,也就證明了如大數據、機器學習這樣的東西,其實是科研圈已經研究或者已用了很多年了,然後市場需求強烈,為了順應市場需求,大批學校爭相決定開這個專業,於是喊一幫教授或院士過來拍板,這個專業需要哪些基礎課程,我們就把這些基礎課放進來,這也是我下面的回答要強調的。(因此其實最好的答案可以去任何一個開數據科學或機器學習的系裡看課程設置)

本文要講的,不包括資料庫類那個方向的大數據。簡單的說,原理和基礎都在數學這邊,當然有很多偏應用和軟體使用的課程,這些直接大街上報個培訓班就能學會的毫無技術含量的東西,不在我的討論範圍內。我要討論的,是如何系統的學習,然後自己能編出這些處理大數據的程序或軟體,我想,這才能稱為一個合格的數據科學家。

簡單的說,原理和基礎都在數學這邊。

線性代數(矩陣表示和運算)是基礎中的基礎,微積分(求導,極限);

數據處理當然需要編程了,因此C/C++/Python任選一門,數據結構可以學學,只是讓你編程更順手,但是編程不是數據處理的核心。

Mid-level的課程,概率論+統計(很多數據分析基於統計模型),線性規劃+凸優化(統計到最後也還是求解一個優化問題,當然也有純優化模型不用統計模型的)

再高階的課程,就是些研究生的課程了,就比較specific了,可以看你做的項目再選擇選修,比如:Probabilistic Graphical Models, Nolinear Programming, Integer Programming, Machine Learning(其實機器學習,學的都是一些統計和優化),圖像處理,deep learning, 神經網路,等等等等。

學到Mid-level,然後做幾個實際項目,就能上手咯。要讀Phd搞科研,才上高階的。

至於書,沒有特別推薦的,但是建議看英文原版。或者,直接翻牆Youtube看視頻課程,很多國際知名教授都很無私地把自己上課的視頻放在youtube上免費學習。

比如,海德堡HCI 的Fred,圖像處理課程:

然後,就可以著手做項目了,最經典的regression,clustering, outlier detection,看幾篇paper學習幾種不同的模型和演算法,對一個現實問題,從拿到問題,分析問題,數學建模,編程實現,可視化,一套做下來,對項目整個流程有所了解。

完了你就有項目經驗了,恭喜可以找工作了。有名校畢業證會是很好的敲門磚,沒有的話,多積累項目經驗。

歡迎關注我的運籌學專欄,會陸續發布運籌、數據分析、人工智慧相關知識:

[運籌帷幄]大數據和人工智慧時代下的運籌學 - 知乎專欄

更詳細的回答,參見:

想學數據分析需要學哪些課程? - Ruobing Shen 的回答

關於我對最優化理論在諮詢行業的應用,參見

Data Science/Analytics 出身,可以在諮詢行業做些什麼? - Ruobing Shen 的回答

最好按照慣例廣告一波:

歐洲、北美、全球留學及數據科學深度私人定製諮詢,從此DIY - Ruobing Shen的文章 - 知乎專欄


在中國美國的大公司都做過數據分析,講一下職業發展的三類不同道路。

數據分析師的job title 可以說是千奇百怪啥樣的都有,叫同樣名字的可能做得事情卻不同,叫不同名字的確其實是同樣的工作內容。但是進行歸類的話,可以歸為business
analyst、data
scientist和data
analyst三個最典型的工作類別。

Business analyst, 與大數據之前的business
analyst沒有本質上的區別,是企業中對於business
問題進行分析的人員。但是大數據時代消費類行業的business analyst,意味著你在分析商業問題的時候,對於大量數據的分析將會是你分析商業問題的重要手段和工作。你所做的分析,大部分將會是descriptive
analytics,即通過選取不同的角度,對過去數據進行可視化的呈現,以發現商業中的問題和機會,做出商業建議。business
analyst一般不會親自對數據進行建模分析,也不會使用R/Python。主要使用的工具將是SQL、Excel和PPT。business
analyst除了技術上的pull、分析數據之外,將會有大量的general
management、跨部門溝通的工作,對於語言、溝通能力、商業嗅覺的要求最高,技術上的要求則最弱。

Data scientist的主要工作,就是建立預測模型,也就是做predictive
analytics。除了建模之外,pull、清理數據的時間將會佔用data
scientist百分之八十的時間。Data
scientist所建立的預測模型,往往會被自動化code進系統,所以很多企業也會要求data
scientist具備一定的general
編程能力,比如Python,方便和engineering團隊合作。Business
analytics類專業的同學的建模能力和統計知識,其實是足夠做Data
scientist了,但general的編程能力,特別是python的編程能力,將會成為business
analytics類專業畢業生夠不夠格做data
scientist的分水嶺。

最後要介紹的是data analyst。一般 data
analyst就是對於企業的資料庫系統以及數據的含義進行管理、確保數據的準確性和完整性。當企業領導層、business
analyst和data
scientist需要數據的時候給予幫助,並且對持續不斷的同類數據需求進行自動化,建立BI的基礎設施。Data
analyst做常使用的工具就是SQL和Tableau。

寫到這裡,大家可能會好奇,三個職位中,哪一個最好?這個就真的是不分賤貴了。Business analyst需求最大,最有可能做到CEO,但技術門檻相對最低,軟實力和經驗很重要。Data
scientist現在很火,整體薪資較高,但編程能力不強的同學可能難以在這個領域出類拔萃。Data
analyst看上去工作最枯燥,但其實是個不錯的打基礎的職位。因為特別是大企業,商業分析、建模其實都不難,但把底層的數據到底啥意思整的明明白白其實往往是最難的一個環節。很多同學從data
analyst做起,後來轉為data
scientist或者business analyst。


如果想做數據分析師,可以考慮去美國讀一個Business Analytics(MSBA)的碩士,建模那些東西,自己學還是挺麻煩的,有興趣的話可以看下這個網站: http://www.analyticsguides.com 。專門介紹business analytics專業的。


如何轉行做數據分析 - 知乎專欄


入門的話,無法涉及到下面兩個問題:
1)入門的正確路是什麼?
2)怎麼一步一步去實踐學習呢?

關於第一個問題,我剛做了一場4000多人的演講,用戶評價還不錯:

下面是ppt,想入門數據分析的可以參考下。

想聽語音回放的,可以看這裡
知乎Live:入門數據分析的方法論 &>&>知乎 Live - 全新的實時問答


第一次謝邀,雖然回答的有點晚~

首先,想說明一下,數據分析師不是每個人都能從事的職業。很多技能可以後天學習或者培養,比如分析軟體、編程語言甚至統計學,但如果想以此為生,一定要有一些「天賦」。
什麼樣的「天賦」:出門買東西算賬的是不是你?是不是對於各種現象都愛思考為什麼?看數字會不會找到合適的參照系來對比?
以上當然都是很生活化的表示,其深層次的含義則是是否天生就有一種鑒別數字的能力,而這種能力決定了你是否擅長這個職業。
當然,這並不是說沒有這種能力的人就不能從事數據分析師了,只是他通向成功的可能性更低,而為此要付出的努力卻更高。

所以,一個人從事的職業是否有前(錢)途,我認為就看三點:

  1. 你是否擅長——別人做不了,你能做;別人花一天,你花半天甚至更短;
  2. 你是否喜歡——單純地對工作內容發自內心的熱愛;每天早上對即將到來的工作又是否有所期待;
  3. 以及,這個職業是否為社會所需——簡單點,可以看看招聘網站的職位數量和薪資變化。

這也就是職業發展的地利、人和和天時,缺一不可。

寫到這裡,發覺沒有回答樓主問題。

入門的書籍,如果是統計或數學專業畢業,可以看《誰說菜鳥不能數據分析》;不是的話,可以先看《看穿一切數字的統計學》,再看上一本,然後再去深入的學習一門統計分析軟體;以上足夠應付你第一份工作80%的內容。


至於國內數據分析師的就業現狀,我只告訴你我身邊的情況——今年,幾個下屬都很快找到了新工作,面試的機會很多,互聯網行業對此職位的需求旺盛。


謝謝。


想要做好數據分析真的需要掌握多方面的知識和技能,主要分軟+硬兩大實力,軟實力還包括溝通能力、表達能力、設計能力等;另外業務理解能力需要逐步積累。那麼,對於入門,可從思維、心術、理論、工具四方面進行訓練和事先判斷。思維和心術主要靠性格和長期訓練積累。

關於要看什麼書?


數據分析需要具備多方面的理論基礎,比如基本的數據分析知識:統計、概率論、數據挖掘基礎理論等;基本的商業常識:營銷理論、戰略管理等;數據處理知識:資料庫、數據結構等。

但是對於新手而言,這實在是信息量太大了,所以在此階段,能清晰地知道數據分析能解決什麼問題、需要什麼方法論、需要掌握什麼基本技術及原理足夠。記住,我們是入門,懂得常規知識並能找到基礎的工作是我們的目標。


書籍推薦:

《統計學》——紮實統計基礎

《誰說菜鳥不會數據分析》——了解基本知識、工具填寫圖片摘要(選填)

《數據分析:企業的賢內助》——了解分析方法、案例

《金字塔原理》——訓練思維能力

完整內容可以參考:《數據分析,你真的準備好了嗎》數據分析與數據挖掘從這開始


大家都在推薦書,那麼為什麼要看這些書呢?
為什麼這幾年數據挖掘和大數據這麼火?
從商業角度,來談談為什麼會有數據分析的不同思路,產生的邏輯是什麼?


基本思路
經典思路:目前在做數據分析時,採用的是傳統的邏輯推理的分析的思路。先提出問題,再通過嚴謹的邏輯推理進行驗證,解釋商業問題。

新思路:嘗試使用相關性進行數據挖掘分析;就是數據挖掘的一些技術,比如聚類、決策樹、隨機森林等高級統計模型。這種思路做出的東西,一般而言是技術門檻較高、解決經典思路無法解答的問題,也符合當前流行的大數據思維、人工智慧思維。新思路的處理問題邏輯,先有相關性分析,找出導致問題的相關性因素,然後再解釋背後的商業邏輯。

適用範圍
經典思路:符合人腦的思維模式,由A —&>B —&> C的邏輯順序。在解決小而美的獨立case時,效率高。當然,實際商業環境中,80%的問題都是小而美的問題,但是出風頭的往往是那20%。比如,「為什麼今天某個頁面的轉化率突然升高啦」這類的問題,通過邏輯推理,一步一步下鑽,可以很快定位原因。但是對於多因素的問題,交叉影響之下,各有權重,這種思路就有了瓶頸。

新思路:這是AlphaGo下圍棋是採用的思路,決策next move是因為next move對最終贏得棋局概率最高。這是一種結果導向的思維,將智能問題變成了數據問題。AlphaGo不需要知道如何布局,只關注每一次的落子都在提高最終勝利的概率。這種思路可以解決目標明確且影響因素眾多的決策問題。這個思路現在越來越火主要由於計算力和數據量的提升和增多,機器有了足夠的樣本進行testing,如同中國式填鴨式教學,看多了,下意識里就知道如何處理了。


其實入行做數據分析了還不是做做報表,寫寫SQL,count一下,group by 一下等等,即使用到機器學習演算法也大多是邏輯回歸。有很多工作雖然描述的高大上,實際只需要用到Job description上提到的技能的三成。沒什麼工作是難的上不了手的,只需要大膽努力地去應聘,對自己迷之自信就可以。(微笑臉)
PS:一級梯隊互聯網請忽略以上言論 :)


像樓上所說的 數據分析師在國內是一個很好的方向,未來就業和薪資待遇都很不錯,特別是對於IT行業來說。
但你要有心理準備,對於一個普通應屆畢業生來說前期數據分析乾的活兒都是一些清理數據,提取數據等基礎事情。
好的數據分析師是必須要掌握很多門編程語言的,如果想入行多學習一下My SQL ,hadoop, hive等,統計學也要學好,雖然後期用的不多,但忽悠人還是可以的。特別是你應聘BAT這類公司,沒有深厚的統計學功底就不要投簡歷了。


堅持自己的目標,努力向前。加油,你們呢都是最棒的


原文: How to become a data scientist

數據科學是目前最受歡迎的領域之一,數據科學家也處於極度需求之中。 有了很好的理由 - 數據科學家正在從創建自駕車到自動字幕圖像方面做了一切。 鑒於所有有趣的應用,數據科學是一個非常搶手的職業。

數據科學應用於許多領域,包括開發自駕車。

如果你正在閱讀這篇文章,我假設你想學習如何成為一名數據科學家。如果你已經做了一些研究,你可能已經閱讀了幾十本從「學習線性代數」開始的指南,並在5年後結束了「學習Spark」。當我學習的時候,我試圖遵循這些指南,但是我最終感到無聊,沒有任何實際的數據科學技能來顯示我的時間。這些方法就像一個學校的老師,遞給我一堆書,告訴我讀完這些書 —— 一種從未吸引過我的學習方法。

關於所有「成為5年輕數年的數據科學家」指南的不幸部分是它們是已經是專家數據科學家的人寫的。他們看著自己,說「有什麼需要學習做我每天做的事情?」他們忘記了自己想要學習一些東西是什麼樣的事情,需要動力來推動下一個障礙是什麼。

當我學習數據科學時,我意識到當我正在研究一個我感興趣的問題時,我會最有效地學習,而不是學習技能清單,我決定專註於圍繞實際數據構建項目。這種學習方法不但激勵了我,而且也與您在數據科學家角色中所做的工作密切相關。

在這篇文章中,我將分享幾個步驟,幫助您成為數據科學家的旅程。這個旅程並不容易,但是比傳統的方法更能激勵人心。

1、多問為什麼

數據科學的吸引力是使用實際的數據和代碼來回答有趣的問題。 這些問題可以從「我可以預測是否有任何航班準時」?「美國每個學生在教育中花費多少?」 為了能夠提出和回答這些問題,您需要發展分析心態。

發展這種觀念的最好方法是開始使用新聞文章。 查找文章,Can Running Make You Smarter?、Is Sugar Really Bad for You?。 想一想:

  • 根據數據,他們如何得出結論
  • 你如何設計研究進一步調查
  • 如果您有權訪問基礎數據,您可能會問什麼問題

一些文章,像this one on gun deaths in the US、Dissecting Trump』s Most Rabid Online Following 實際上有底層數據可供下載。 此時你可以這樣做:

  • 下載數據,並以Excel或等效工具打開
  • 肉眼觀察,可以在數據中找到什麼模式
  • 你認為數據支持文章的結論嗎? 為什麼或者為什麼不?
  • 你還有什麼其他問題可以使用數據來回答?

以下是找到數據驅動文章的好地方:

  • FiveThirtyEight
  • New York Times
  • Vox
  • The Intercept

閱讀文章幾個星期後,反思您是否喜歡提出問題並回答問題。成為數據科學家是一條漫長的道路,您需要非常熱衷於該領域,使之成為一切。數據科學家不斷提出問題,並使用數學模型和數據分析工具對其進行回答。

如果你不喜歡關於數據推理和提問的過程,你應該考慮嘗試找到你喜歡的數據和事物之間的重疊。例如,也許你不喜歡在抽象中提出問題的過程,但也許你真的喜歡分析健康數據或教育數據。我個人對股市數據非常感興趣,這促使我建立一個預測市場的模式。

在進入下一步之前,請確保您對激情的數據科學過程有所了解。我不能強調這點。如果你的目標是成為一名數據科學家,但你沒有一個特定的激情,那麼你可能不會在努力工作的幾個月中學習。

來自FiveThirtyEight的信息圖

2.學習基礎知識

一旦知道如何提出問題,您就可以開始學習技術技能來開始回答問題。我將首先學習Python編程基礎知識。 Python是一種具有一致語法的編程語言,通常建議初學者使用。幸運的是,它還具有多功能性,使您能夠進行非常複雜的數據科學和機器學習相關工作,如深度學習。

很多人擔心語言選擇,但關鍵點是記住是:

  • 數據科學是關於能夠回答問題和驅動業務價值,而不是工具
  • 學習概念比學習語法更重要
  • 建立項目並分享它們是您在實際的數據科學角色中所做的工作,並以這種方式學習,將為您帶來開始

如上所述,關鍵是不要學習所有的數據科學工具。要學習足夠的技術方面開始建設項目。一些好的做法是:

  • Dataquest - Dataquest通過分析有趣的數據集,如NBA評分或CIA隱蔽操作的數據,教你Python和數據科學的基礎知識。
  • Codecademy - Codecademy教你Python的基礎知識,以及如何構建程序。

關鍵在於學習基礎知識,並開始回答您在過去幾周內提出的一些問題。 這將有助於您鞏固您的學習,並開始構建投資組合。

Enjoying this post? Learn data science with Dataquest!
Learn from the comfort of your browser.
Work with real-life data sets.
Build a portfolio of projects.

Start for Free

3.構建項目

當您學習編碼的基礎知識時,您應該開始構建回答有趣問題的項目,並展示您的數據科學技能。 項目不一定非常複雜。 例如,您可以分析Super Bowl winners以尋找模式。 關鍵是找到有趣的數據集,詢問有關數據的問題,然後用代碼回答這些問題。 如果您需要幫助查找數據集,請查看此帖子以獲取找到它們的好地方列表。

在構建項目時,請記住:

  • 大多數數據科學工作是數據清理。
  • 最常見的機器學習技術是線性回歸。
  • 每個人都從某個地方開始,即使你覺得你做的不是非常優秀,但是還是值得的。

構建項目不僅可以幫助您了解真實的數據科學工作和實踐您的技能,還可幫助您建立一個作品集,向潛在的僱主展示。 以下是一些更為詳細的構建項目指導:

  • Storytelling with data
  • Machine learning project

一旦你建立了一些較小的項目,找到一個你可以深入的興趣領域是極好的。對我來說,就是試圖預測股市。 關於預測股市的好處是,您可以從很弱的Python基礎開始,並嘗試每個月或每周進行預測。 隨著你的技能的增長,你可以通過添加細微的價格和更準確的預測來增加問題的複雜性。

您可以迭代開發的其他一些項目示例如下:

  • 健康跟蹤。 您可以先手動輸入和分析數據,並隨著時間的推移繼續添加更多的相關性和預測因素。
  • 預測NBA比賽獲勝者。 您可以通過手動輸入分數並使用啟發式進行預測,但您可以隨時隨地獲取更多數據並進行更準確的預測。

數據科學項目的一個例子 - 這張地圖顯示了美國的種族多樣性

4、分享你的工作

一旦你建立了一些項目,你應該與他人分享! 將它們上傳到Github是個好主意,其他人可以查看它們。 您可以在這裡閱讀關於將項目上傳到Github的,以及有關在此創作作品集的更多信息。 上傳項目將:

  • 強迫您考慮如何最好地呈現他們,這是您在數據科學角色中所做的工作
  • 允許同行查看您的項目和評論
  • 允許僱主查看你的項目

隨著將工作上傳到Github,您還應該考慮發布博客。 當我學習數據科學時,寫博客文章幫助我:

  • 獲得招聘人員的入站興趣
  • 更深入地學習概念(教學過程真的有助於您學習)
  • 與同齡人聯繫

您可以在此閱讀有關如何發布博客的良好指南。 博客文章的一些好主題是:

  • 解釋數據科學和編程概念
  • 討論你的項目,並走過你的發現
  • 討論學習數據科學的過程,以及你如何做

來自我的博客的信息圖表顯示了每個辛普森角色喜歡的人物

5.向別人學習

在構建項目後,開始與其他數據科學家交流是一個好主意。 您可以面談或在線社區交流。 一些好的在線社區有:

  • /r/datascience
  • DataTau
  • Data Science Slack
  • Quora
  • Kaggle

當我學習的時候,我個人對Quora和Kaggle非常活躍,這對我來說非常有幫助。 參與在線社區是一個很好的方法:

  • 向其他人學習
  • 增強您的個人資料,並尋找機會
  • 通過學習他人來加強你的知識

您也可以通過Meetups親自與人交流。 親身參與可以幫助您向您所在地區的更有經驗的數據科學家那裡了解和學習。

6、向你的極限前進

公司希望聘請數據科學家,他們找到那些可以節省資金或讓他們的客戶更快樂的重要方法。 您必須將相同的過程應用於學習 - 繼續尋找新的問題來回答,並繼續回答更困難和更複雜的問題。 如果您回顧一兩個月前您的項目,而不會對您所做的事情感到尷尬,那麼您可能沒有達到您的極限。 你應該每個月都取得很大的進步,這應該在你的工作中體現出來。

超越極限的一些方法是:

  • 嘗試使用比您喜歡的更大的數據集
  • 啟動一個需要你不了解的項目
  • 嘗試使您的項目運行更快
  • 看看你是否可以教別人你做的項目

你已經知道怎麼做了

學習數據科學並不容易,但關鍵是要保持積極性,享受你正在做的事情。如果您一直在構建項目並進行共享,您將建立您的專業知識,並獲得所需的數據科學家工作機會。

我沒有給你一個學習數據科學的準確路線圖,但是如果你遵循文中這個過程,你會比你想像的走更遠。任何人,包括你和我,如果你有足夠的動力,可以成為一個數據科學家。

由於對傳統網站教的數據科學很失望,我最近創建了Dataquest,這是在線學習數據科學的更好方式。 Dataquest解決了MOOC的問題,在那裡你永遠都不知道接下來要採取什麼行動,而且你從來沒有受到你正在學習的動機。 Dataquest利用我所學到的經驗教訓,幫助數千人學習數據科學,並專註於使學習經歷更有吸引力。在Dataquest中,您將建立數十個項目,並學習成為成功的數據科學家所需的所有技能。 Dataquest學生已經被僱用在像埃森哲和SpaceX這樣的公司。

祝你好運成為數據科學家,如果您有任何有關如何學習的技巧,請在評論讓其他人中知道!

=========================分割線============================================

在Quora上也有答案 How can I become a data scientist?

最後附上一張圖,共勉


數據分析是一種思維能力,統計基礎、軟體基礎都是其次,知道要做什麼才是最主要的。比如領導希望知道明年的銷售額大概是做少。有很多種方法,會統計的人可能是想炫耀一下,用時間序列預測,搞得很高深。沒學過統計學的,可能根據標杆企業的預測乘以一個比例就可以了。完成工作不以技術高深為標準,夠用就行。
數據分析不過是為了完成商業目標的一個用數據說話的過程,其實數據分析不比拍腦袋高明多少。讀一些這類書會有一定的啟發《商務智能:數據分析的管理視角》


小壹首先得和大家說個事實,那是數據分析很重要!

今天的主題便是 「數據運營學習進階之路——入門級篇」


在開始之前,小壹還一如既往的提供資源~

趕緊關注公眾號後回復「數據」,公眾號名稱為Walking手記 即可獲得「深入淺出數據分析」這本電子書(pdf)資源!千萬不要錯過~

長按識別二維碼關注咯~


「深入淺出數據分析」這本書以「章回小說」的形式,生動地向讀者展現優秀的數據分析人員應該學會的數據分析技能,這是一門入門級數據分析學習書籍,非常適合初入職場的新人,或者是初學數據分析的親們~!

那就讓小壹來講講數據分析那些事~


運營包含了諸多繁瑣的工作內容,從基礎的內容編輯審核開始,再到運營所負責的專有領域,例如新媒體運營,活動運營,用戶運營等等。在這些所列舉的運營職責中,數據無可厚非的貫穿其中。


「沒有數據支撐的運營做不好運營工作~」


你可以想像「數據」就如同人一樣,也分顯性印象和隱性印象。你走在路上碰到一個人,首先映入眼帘的便是此人的身高顏值,這種直接就顯露出來的特徵就稱為顯性印象,面對海量的數據,首先你就只能看到這組數據所能代表的基本特徵;如果你對此人進行更深入地了解,或者通過長時間的接觸,比較,分析等就會發現其背後的性格特點等,這種特徵就稱為隱性印象,海量數據通過建議標籤,拆分目標,建立方法便能從數據產出未來的決策,導致的原因等等。


既然數據這麼重要,那又該如何採取步驟對海量的數據進行分析呢?

一:建立維度


面對海量的數據,我們首先需要對數據類型進行區分,每個數據的背後都有它存在的意義與用途,那麼如何將這些數據進行建立標籤呢?(如同對人的顏值進行區分)

舉個例子:用戶運營層面中,我們都知道用戶可分為活躍用戶,潛在用戶,忠誠用戶,迴流用戶,付費用戶等等類型,每種用戶分群都會存在其特定的數據,我們所需要做的便是將這些數據按照特定的維度進行區分。

同樣,我們也可以將海量的數據按照時間的維度,按照自己的目標進行拆分等等。


二:細分數據


經過第一步的步驟成功將海量的數據按照自己設定的維度進行區分後,就到進行細分數據項的步驟了。怎麼解釋呢?每一個維度的數據都存在著特點和指標,我們需要進一步地拆分和細化運營指標,根據數據的包含結構,建立數據指標體系

舉個例子來說,電商公司判斷具體收益的情況 其中一個比較重要的指標便是從訂單數據這一數據維度進行細分分析。於是面對訂單數據這一維度中,我們對其進行細分,可以細分為每日購買用戶數,支付訂單數,支付訂單觸發用戶數,支付訂單實際金額總和,每日訂單量等等子數據。

三:建立目標


經過前2個步驟的完成,我們已經將數據指標體系初步搭建成功了,可是光靠這些數據支撐起的體系只是停留當前的紙面上,我們還需要根據工作特點或者是未來所要達成的高度進行設定目標。我們需要從數據指標體系中,確定能夠進行優化的數據點。

舉個例子,活動運營的主要職責是制定整套活動方式的策劃案,同時也是需要對活動結束後進行復盤。關心的點除了最終參與的效果;活動推廣的渠道有哪些,每一個渠道的路徑轉化率等指標,此外,在清楚了解這些活動造成的效果後,確定能夠進行優化的數據點,並作出建立目標,避免下次活動再次遇到同樣的問題。

四:採集數據


運營人員若需要數據的支撐,其中對數據的採集也是一個「重要工程",這裡所說的採集數據會涉及到數據埋點的問題。產品開發初期,運營人員需要根據運營體系規劃好埋點清單給到開發人員。產品經理與運營人員可對數據展示平台進行溝通,若技術團隊資源豐富可根據實際需要自行開發後台,若技術資源有限,也可與第三方平台達成合作,例如諸葛io,友盟,百度移動統計,神策分析等等

成功對數據進行採集後,我們需要對部分數據進行清理,其中涉及到數據的重複項,缺失項,異常的波峰波谷進行 清洗,以免對真實的分析結果造成影響。特別是波峰波谷的現象,這類往往是問題的關鍵,有可能是額外的銷售突出,也有可能是技術問題。

四:分析方法


小壹在這裡講的是入門的數據分析方法,請做好筆記咯 ~


1. 對比分析法


根據設立的維度,探尋數據的變化,通過數據對比從中發現蘊含的規律。

對比的原元素可包括與歷史同期數據對比,與不同時間段的數據對比,與同行業的數據對比,與競品產品的數據對比,不同用戶分群間的對比等等。


上邊這張圖展示了中國移動2009-2010的用戶數的變化情況,採用的正是通過不同季度之間的對比突出用戶的增長。從圖中可以清晰地看出時間從2010第一季度開始,中國移動地用戶數得到大幅度地增長,再結合當時的手機熱潮的興起,這也符合數據增長的原因。

2.平均分析法

採用這種數據分析方法,可以了解到一定和相同條件下,某個數據指標的一般情況,從而反映出具體的數據點健康程度。


但是使用此中分析方法也是具有局限性的,前面我提到需要在一定和相同的條件下,舉個例子,若是某公司的APP,其產品的盈利點主要針對的主要是廣東地區的用戶,推廣的重點傾向於廣東地區,那若要分析全國的註冊用戶數的基本情況,其利用平均分析法就有點不科學了。同樣的,平均分析法的」平均「是有前提的,必須建立在數據是有效的前提下的,例如該APP的訂單數某天突然降為0,這就要考慮是技術的問題,其數據點不可以運用進平均分析法中。


總的來說,使用平均分析法的前提必須建立在各個數據點是相似的情形下方可使用。

3.整體結構分析法


這種方法比較好理解,就是分析該數據點佔據總體數據指標的權重。通用的格式是(部分/總體)*100%,佔比越大,說明該數據點的重要程度越高。而通常這種方法的展現的形式以餅圖為主。

4.杜邦分析法


還有一種相對複雜的分析方法叫做杜邦分析法,其採用的原理是逐層突破。怎麼解釋呢?

舉個例子,若是某公司的app銷量減少了,需要查出究竟是什麼原因造成的?在不清楚具體的原因情況下,我們可以進行逐層突破。銷量=付費人數*客單價,付費人數=活躍用戶數*付費轉化率,假設付費轉化率不變,我們還可以對活躍用戶數進行突破,活躍用戶數=新用戶的活躍用戶數+老用戶的活躍用戶數,假設老用戶的活躍用戶數變化情況不大,新用戶的活躍用戶數降低了,繼續突破~新用戶的活躍用書數=轉化率率*註冊用戶數,假設轉化率變化不大,我們還可以接著通過推廣渠道進行分析.....直到明確某個點後,我們才可以進行優化運營策略。

其實,我們需要數據分析的目的,便是從數據發現問題,並對問題進行整理後進行頭腦風暴,歸納出運營決策的出現的問題,總結是什麼環節/原因造成問題出現,我們又需要做出什麼動作進行優化.....

造成數據異常的原因,我們可以根據實際的情況進行分析,也可以根據經驗直接判斷。小壹這裡就總結出這幾點(僅供參考),時間,用戶畫像的不同,PEST原理不同,關聯特性,推廣渠道問題,產品體驗感不足等等。

而數據展示的圖例,我們可以採用什麼方法呢?若要看某個指標的佔比情況,可以採用餅狀圖例,若有看數據的發展趨勢,可以利用條形圖,折線圖等等。

下面小壹推薦幾款第三方數據分析平台

友盟,百度移動統計,諸葛io(可以分析用戶畫像,推廣渠道質量,拉新留存情況),神策分析(用戶行為數據分析,用戶分群),BDP,數據觀,文圖(數據圖例構造) 艾瑞,易觀智庫,企鵝智庫,百度指數,搜狗指數,梅花網,尼爾森(數據採集)...

好啦,文章就到這裡了,大家若是有什麼問題或者想要吐槽的,可以在後台私信小壹,也可以加小壹的微信806935515,歡迎~


最後的最後,小壹不定期會發表分享自己的乾貨文章,小壹希望與你踏上學習與工作之旅,若你喜歡本微信公眾號,千萬不要忘記關注哈~微信公眾號是 Walking手記


更新:

由於之前在成都,畢業後來到北京浪一波,根據面試過的公司,總結了以下幾點:

1.想進互聯網公司,SQL是必備的,必備的,必備的!越6越好!!!互聯網公司面試的時候一再強調這一點。因為你做數據分析,數據從哪裡來呢?資料庫跑啊!

2.數據分析師也分很多種:經營數據分析、KPI數據分析、人力數據分析、用戶畫像等,每個方向所需要的背景知識是不一樣的,如果能在面試之前掌握,是不是會有加分呢

3.面試的時候,一定要問面試官如果你面試通過,你所從事的工作內容,同樣是數據分析,工作內容差別也是很大的,有的是專門為業務部門提供數據支持的,比如寫寫SQL、出個圖形什麼的,有的需要你寫分析報告,這個要求就有點高了,需要你對行業、公司有一個精準的把握。所以,問清楚工作內容,看是否與自己的職業發展相匹配。

---------------------------第一次使用分割線------------------------------

最近剛找到數據分析的一份工作,所以,結合在面試過程中和面試官的交流以及剛入職的體驗談一下我認為的數據分析濕什麼樣子。

1.數據分析入門,你需要:

基本的業務知識 數據分析是建立在業務的基礎上,所以做數據分析首先得理解業務,了解數據指標的含義,以及公司基本的業務流程。

Excel 數據預處理、vlookup、數據透視表三項最基本的技能,也是最重要的三項技能。

良好的邏輯思維能力+理解能力+清晰準確的語言表達能力 良好的邏輯思維能力能讓你理清眾多數據指標之間的關係,清晰準確的語言表達能力以及理解能力能讓你快速理解需求以及準確表達自己的意思,因為在做數據分析過程中,不可避免的要和運營等部門打交道,向上級彙報。這時候,溝通能力和表達能力就顯得尤為重要。

PPT 數據分析的最終呈現形式,也是做彙報的時候最重要的數據可視化表達。熟悉PPT的各種圖表,以恰當的圖表展示數據。

除此之外,SQL資料庫當然是plus,其他的統計分析軟體SAS、SPSS有的公司要求,要的不要求。有些互聯網公司還要求掌握python。

2.數據分析職業規劃,個人所了解的有以下三種:

數據分析師—管理諮詢

數據分析—產品運營

數據分析—機器學習—人工智慧


推薦閱讀:

如何快速成為數據分析師?

TAG:數據分析 | 數據分析師 |