怎麼培養數據分析的能力?

怎麼培養數據分析的能力?有沒有相關的書籍可以介紹一下?


如果想深入學習數據分析的話建議了解一些數據挖掘的知識。

  • 如何系統地學習數據挖掘?
  • 做數據分析不得不看的書有哪些?
  • 什麼是數據挖掘?

談一些個人的工作經驗,希望對後來人有幫助。首先總結下平時數據分析的一般步驟。


---------------------------濃縮精華版--------------------------------


第一步:數據準備:(70%時間)

  • 獲取數據(爬蟲,數據倉庫)
  • 驗證數據
  • 數據清理(缺失值、孤立點、垃圾信息、規範化、重複記錄、特殊值、合併數據集)
  • 使用python進行文件讀取csv或者txt便於操作數據文件(I/O和文件串的處理,逗號分隔)
  • 抽樣(大數據時。關鍵是隨機)
  • 存儲和歸檔

第二步:數據觀察(發現規律和隱藏的關聯)

  • 單一變數:點圖、抖動圖;直方圖、核密度估計;累計分布函數
  • 兩個變數:散點圖、LOESS平滑、殘差分析、對數圖、傾斜
  • 多個變數:假色圖、馬賽克圖、平行左邊圖

第三步:數據建模

  • 推算和估算(均衡可行性和成本消耗)
  • 縮放參數模型(縮放維度優化問題)
  • 建立概率模型(二項、高斯、冪律、幾何、泊松分布與已知模型對比)

第四步:數據挖掘

  • 選擇合適的機器學習演算法(蒙特卡洛模擬,相似度計算,主成分分析)
  • 大數據考慮用Map/Reduce
  • 得出結論,繪製最後圖表

循環到第二步到第四步,進行數據分析,根據圖表得出結論完成文章。

------------------------------業務分析版--------------------------------

「無尺度網路模型」的作者艾伯特-拉斯洛·巴拉巴西認為——人類93%的行為是可以預測的。數據作為人類活動的痕迹,就像金礦等待發掘。但是首先你得明確自己的業務需求,數據才可能為你所用。

1. 數據為王,業務是核心

  • 了解整個產業鏈的結構
  • 制定好業務的發展規劃
  • 衡量的核心指標有哪些

有了數據必須和業務結合才有效果。首先你需要摸清楚所在產業鏈的整個結構,對行業的上游和下游的經營情況有大致的了解。然後根據業務當前的需要,指定發展計劃,從而歸類出需要整理的數據。最後一步詳細的列出數據核心指標(KPI),並且對幾個核心指標進行更細緻的拆解,當然具體結合你的業務屬性來處理,找出那些對指標影響幅度較大的影響因子。前期資料的收集以及業務現況的全面掌握非常關鍵。


2. 思考指標現狀,發現多維規律

  • 熟悉產品框架,全面定義每個指標的運營現狀
  • 對比同行業指標,挖掘隱藏的提升空間
  • 拆解關鍵指標,合理設置運營方法來觀察效果
  • 爭對核心用戶,單獨進行產品用研與需求挖掘

發現規律不一定需要很高深的編程方法,或者複雜的統計公式,更重要的是培養一種感覺和意識。不能用你的感覺去揣測用戶的感覺,因為每個人的教育背景、生活環境都不一樣。很多數據元素之間的關係沒有明顯的顯示,需要使用直覺與觀察(數據可視化技術來呈現)


3. 規律驗證,經驗總結

發現了規律之後不能立刻上線,需要在測試機上對模型進行驗證。

P.S.數學建模能力對培養數感有一定的幫助

推薦兩個論壇:

數學建模與數學應用論壇(Mathematical Modeling and Mathematical Applications Forum)

數學中國 (數學建模)-最專業的數學理論研究、建模實踐平台


以上,有時間再補充。

-----------2017年1月更新-----

歡迎關注我存儲知識的地方:預見未來——Han Hsiao的知乎專欄Foresee


想要培養數據分析的能力,我認為可以從兩部分來著手:一是數據分析方法論的建立,二是數據分析從入門到精通的知識學習。

那麼該如何搭建自己的數據分析知識體系?數據分析的價值又在哪裡?做數據分析有哪些具體的方法?又如何學習數據分析?

我把我之前的兩篇文章整理下,和大家分享一下這些問題。


Part 1 | 數據分析方法論 知識體系


1. 數據分析體系:道、術、器

「道」是指價值觀。要想做好數據分析,首先就要認同數據的意義和價值。一個不認同數據分析、對數據分析的意義缺乏理解的人是很難做好這個工作的。

「術」是指正確的方法論。現在新興的「Growth Hacker」(增長黑客)概念,從 AARRR 框架 ( 獲取、激活、留存、變現與推薦五個環節)入手進行產品分析,這是一個非常好的分析方法。

「器」則是指數據分析工具。一個好的數據分析工具應該能幫助大家進行數據採集、數據分析、數據可視化等工作,節省時間和精力,幫助更好理解用戶、更好優化產品。


2. 數據分析的價值

數據分析不能為了分析而分析,而要將落腳點放到業務、產品和用戶上。以產品經理為例,數據分析應該幫助產品經理不斷優化產品設計和迭代,驅動產品和用戶增長。

當我們上線了一個新的產品(product)或者功能時,需要對其進行數據監控和衡量(measure)。然後從監控中採集到產品的用戶行為數據(data),並對這些數據進行分析和總結(learn)。最後從分析中得出結論和觀點(idea),如果數據證明我們的新產品/功能是優秀的,那麼可以大力推廣;如果數據說明我們的產品還存在問題,就需要對產品進行新一輪的優化(build)。

在「產品——數據——結論」的不斷循環中,我們不斷用數據來優化我們的產品,加快產品迭代的步伐、提升用戶體驗。


3. 數據分析的方法

(1)流量分析

a. 訪問 / 下載來源,搜索詞
網站的訪問來源,App 的下載渠道,以及各搜索引擎的搜索關鍵詞,通過數據分析平台都可以很方便的進行統計和分析,分析平台通過歸因模型判斷流量來源,產品經理在分析這些流量時,只需要用自建或者第三方的數據平台追蹤流量變化即可,第三方平台如 Google Analytics 、GrowingIO 等;

b. 自主投放追蹤
平時我們在微信等外部渠道投放文章、H5 等,許多產品都會很苦惱無法追蹤數據。
分析不同獲客渠道流量的數量和質量,進而優化投放渠道。常見的辦法有 UTM 代碼追蹤,分析新用戶的廣告來源、廣告內容、廣告媒介、廣告項目、廣告名稱和廣告關鍵字。

c. 實時流量分析
實時監測產品的訪問走勢,尤其要關心流量異常值。舉個例子,某互聯網金融平台因為一個產品 Bug 導致用戶瘋狂搶購造成的流量峰值,產品經理髮現實時數據異常後迅速下線該產品修復 Bug,避免了損失擴大。

(2)轉化分析

無論是做網站還是 App,產品裡面有很多地方需要做轉化分析:註冊轉化、購買轉化、激活轉化等等。一般我們藉助漏斗來衡量用戶的轉化過程。

影響轉化率的因素很多,我們總結了三個大的方面:渠道流量、用戶營銷、網站 / APP 體驗。以渠道流量為例,通過優選渠道並且量化分配我們的投放資源,可以有效提升總體的轉化率。

更詳細的轉化分析方法,可以參考我之前的這篇回答 如何提升轉化率? - 張溪夢的回答 。


(3)留存分析

在互聯網行業里,通常我們會通過拉新把客戶引過來,但是經過一段時間可能就會有一部分客戶逐漸流失了。那些留下來的人或者是經常回訪我們公司網站 / App 的人就稱為留存。
在一段時間內,對某個網站 / App 等有過任意行為的用戶,稱之為這個網站 / App 這段時間的活躍用戶,這個任意行為可以是訪問網站、打開 App 等等。

現在大家經常會用到所謂的「日活」 (日活躍用戶量,DAU)、「周活」 (周活躍用戶量,WAU)來監測我們的網站,有的時候會看到我們的「日活」在一段時期內都是逐漸地增加的,以為是非常好的現象,但是如果沒有做留存分析的話,這個結果很可能是一個錯誤。
留存是產品增長的核心,用戶只有留下來,你的產品才能不斷增長。一條留存曲線,如果產品經理不做什麼的話,那麼用戶就慢慢流失了。

這是一個常見的留存曲線,我把它分成了三個部分:第一部分是振蕩期,第二部分是選擇期,第三部分是平穩期。

從產品設計的角度出發,找到觸發留存的關鍵行為,幫助用戶儘快找到產品留存的關鍵節點。之前我們發現我們產品裡面,使用過「新建」功能用戶的留存度非常高;於是我們做了產品改進,將「新建」按鈕置於首頁頂部刺激用戶使用,效果非常好。

矽谷流行的 Magic Number(魔法數字)也是留存分析的一部分,比如 Facebook 發現「在第一周里加 10 個好友」的新用戶留存度非常高。作為產品經理,我們也需要通過數據分析來不斷探索我們產品裡面的魔法數字,不斷提高用戶留存度和活躍度。

更詳細的留存分析方法,可以參考這篇文章 你能找到的最深入的留存分析文章 - 留存 · 增長 · Magic Number 。


(4)可視化分析

用戶體驗,是一個非常抽象的概念,我們可以對其進行形象化。目前一個普遍的方法就是對用戶的數據進行可視化,以熱圖的形式呈現。

藉助熱圖,產品經理可以非常直觀了解用戶在產品上的點擊偏好,檢驗我們的產品設計或者布局是否合理。

熱圖的概念、原理、類型和應用,可以參考這個回答 熱力圖是什麼原理? - 張溪夢的回答 。


(5)群組分析 挖掘用戶需求、改進及優化產品

千人千面,產品經理對用戶精細化的分析必不可少。不同區域、不同來源、不同平台甚至不同手機型號的用戶,他們對產品的使用和感知都可能存在巨大的差異。產品經理可以對不同屬性的用戶進行分群,觀察不同群組用戶的行為差異,進而優化產品。

之前我們做過一次分析,網站的總體註冊轉化率是 6%;但是使用 Chrome 瀏覽器的新用戶註冊轉化率高達 12%,使用 IE 瀏覽器的新用戶註冊轉化率才 1%。這樣一分的話,問題就很明顯了,極有可能是瀏覽器兼容性的問題,產品經理應該關注一下這個問題。

詳細的群組分析操作流程,可以參考這個回答 產品經理一般是怎麼搜集產品不好用之處的? - 張溪夢的回答 。

Part 2 | 數據分析知識學習

從入門到精通:互聯網數據分析的書籍清單!

任何一個技能的學習,都有從淺到深的過程,數據分析也不例外。因此我把推薦書籍劃分成幾個段位,更便於大家挑選。

1. 入門版

適合對數據分析的入門者,對數據分析沒有整體概念的人,常見於應屆畢業生,經驗尚淺的轉行者。

深入淺出數據分析 (豆瓣):HeadFirst 類的書籍,一向淺顯易懂形象生動,可以對分析概念有個全面的認知。

誰說菜鳥不會數據分析 (豆瓣):不僅講解了一些常見的分析技巧,並附帶 Excel 的一些知識以及數據分析在公司中所處的位置,對職場了解亦有一定幫助。

赤裸裸的統計學 (豆瓣):作者年輕時是個追求學習意義的學霸,後來自己從統計學中發掘了很多可以應用到生活的地方。這也是本書的主旨,結合生活講解統計知識,生動有趣。可以避免統計學一上來就大講貝葉斯概率和隨機分析的枯燥。

同樣類似的書籍還有「統計數字會撒謊 (豆瓣)」,這本書知名度要高點,不過我還沒看…


2. 進階版

具有一定的行業針對性,要求具備一定的分析常識,適合網站分析師,商業分析師以及數據產品經理。

精通 Web Analytics 2.0 (豆瓣):此書雖老,但其中很多思想和流量分析的案例仍然很有借鑒意義,現在紙質書只能上淘寶買舊書了。

與此類似的有「網站分析實戰 (豆瓣)」,是國內一本講網站分析的書,沒有上面經典,但勝在新出,很多案例和理念都有及時的更新。

深入淺出統計學 (豆瓣):Headfirst 類書籍,可以幫助你快速了解統計方面的知識。

數據化管理:洞悉零售及電子商務運營 (豆瓣):黃成明著,講解在企業中應用數據的例子,讀完受益匪淺,裡面舉的很多例子都很接地氣。雖說偏向於零售業管理,但大道歸一,可適用於很多行業,當時依據裡面的理念規划了美團外賣面向 BD 的數據產品。

MySQL 必知必會 (豆瓣):這本也是我當年學習 SQL 的入門書,薄冊子一本,看起來很快。SQL 是個性價比很高的技能,簡單而強大。任何想進一步提高自己數據分析技能的產品/運營/分析師 同學,都建議點亮 這個技能點。

互聯網增長的第一本數據分析手冊:我司 GrowingIO 出的一本數據分析的增長手冊(封面和目錄見下圖),我們一直在做互聯網行業數據分析知識的普及,目前我們已經做了 15 期「GrowingIO 數據分析公開課」,面向產品經理、運營等等,這裡是我們整理出來的「互聯網增長的第一本數據分析手冊」。為大家提供常見的分析手段講解,如漏斗分析,同期群分析等等。可點擊書籍名字在 GrowingIO 技術論壇中免費下載。

3. 高階版

更高階的數據相對來說專業性較強了,如涉及到企業內部數據治理,數據結合的業務分析,數據可視化等。當然,還有數據挖掘演算法之類的更深入的東西,這塊沒有研究就不瞎推薦了。

決戰大數據 (豆瓣):阿里巴巴前數據副總裁車品覺老師所著,講解了阿里巴巴在企業內部治理數據過程中的心得,所講「存-通-用」數據管理三板斧和「從數據化運營到運營數據」,字字珠璣,可堪借鑒。

精益數據分析 (豆瓣):此書優勢在於將企業分成了幾個大的行業類別,並分門別類的講解了每個行業的商業模式特點及分析技巧,對使用者的分析能力要求較高,且必須具備相應的業務知識。

The Wall Street Journal Guide to Information Graphics (豆瓣),華爾街日報負責商業分析的人做的可視化指南,精華且實用,我之前在公眾號上寫過讀書筆記「華爾街日報是這樣做數據可視化的(1)」,可供大家參考。

《數據倉庫經典教程》:網上有人整理出來的資料,優點是簡單明了,不像正常的數據倉庫教材厚厚一本。


4. 推薦關注

在知乎上有不少數據分析及 Growth 的大牛,在這裡推薦幾位我熟悉的,經常會寫一些相關的文章:

覃超,前 Facebook 早期工程師,關於增長黑客寫了許多優秀的文章;

鄒昕,Facebook 用戶增長數據分析,在數據分析方面很有見解;

范冰,「增長黑客」一書作者,人非常有趣,同時也非常推薦「增長黑客」這本書;

曾加,螞蟻金服 BI-數據分析,數學方面的牛人;

何明科,專註於數據和互聯網產品,許多回答很值得細看。

| 結語

數據分析是一門多學科、多領域的交叉學問,涉及到的東西非常多。要想做好數據分析,應該有一套完整的思維體系,在價值觀、方法論和工具三個層面上儲備相關知識。同時立足於產品和用戶,用數據來打磨產品,用數據來檢驗迭代,不斷提升用戶體驗。


註:本文中熱圖、實時等產品功能均來自 GrowingIO 官網 矽谷新一代數據分析產品 。


首先要學習一些業務分析的邏輯,然後藉助工具去分析和展示。
關於知識理論前面都回答得差不多了,我就從工具體系上來講一講,列舉了不同技術背景的人士,在大數據分析工具方面的進修技術路徑:

一、Excel起步

作為一個入門級工具,Excel是快速分析數據的理想工具,也能創建供內部使用的數據圖。如果在眾多數據分析工具中您只了解最基本的Excel,以下是最好的進階路線

二、SQL起步

如果你了解SQL,說明你已經具備了更快提升的基礎,建議如下進階路線:

三、R語言起步

作為用來分析大數據集的統計組件包,R是一個非常複雜的工具,掌握R意味著你比其他IT專業人士可以更快上手一些專業分析工具和服務。

四、Python起步

五、MySQL起步

六、微軟SQL Server起步

七、BI工具Tableau/FineBI起步

作為大數據前端分析工具,Tableau和FineBI都很容易上手

八、Java起步

九、PostgreSQL起步

十、Visual Basic起步

以上分享在36大數據的一篇文章


最近知乎不斷有消息提示,不知道是不是知乎整個社區最近都比較活躍。

先從問題本身來回答一下,培養數據分析的能力,簡單說就是 理論+實踐
理論:是進行分析的基礎
1)基礎的數據分析知識,至少知道如何做趨勢分析、比較分析和細分,不然拿到一份數據就無從下手;
2)基礎的統計學知識,至少基礎的統計量要認識,知道這些統計量的定義和適用條件,統計學方法可以讓分析過程更加嚴謹,結論更有說服力;
3)對數據的興趣,以及其它的知識多多益善,讓分析過程有趣起來。

實踐:可以說90%的分析能力都是靠實踐培養的
1)明確分析的目的。如果分析前沒有明確分析的最終目標,很容易被數據繞進去,最終自己都不知道自己得出的結論到底是用來幹嘛的;
2)多結合業務去看數據。數據從業務運營中來,分析當然要回歸到業務中去,多熟悉了解業務可以使數據看起來更加透徹;
3)了解數據的定義和獲取。最好從數據最初是怎麼獲取的開始了解,當然指標的統計邏輯和規則是必須熟記於心的,不然很容易就被數據給坑了;
4)最後就是不斷地看數據、分析數據,這是個必經的過程,往往一個工作經驗豐富的非數據分析的運營人員要比剛進來不久的數據分析師對數據的了解要深入得多,就是這個原因。

最後,相關書籍的話,不要臉的自己推薦一下,新書《網站分析實戰—如何以數據驅動決策,提升網站價值》已經開始預售,應該馬上就有貨了,如果有興趣的話可以關注下。


這是一個相當寬泛的問題,人們對於數據分析的看法往往會隨著所處環境的差異而發生變化。比如說,人們通常並不會期望高級管理者親自清理數據,優化和檢驗模型。

但是,當他們手握分析師整理好的報告時,閱讀和理解圖表的能力是不可或缺的,如果能夠從蛛絲馬跡中發現潛在的問題則更好。這是否也可看作一種數據分析的能力呢?

在學校里,學生提交的作業中可以對同一個項目有各種不同結論,老師的評價標準也許涵蓋了從寫作規範到方法科學性的很多方面。

但對公司來說,結果是最主要的衡量標準。即使是一個以擲骰子制定策略的團隊,如果常常能夠獲得成功,那麼他們同樣會有很高的KPI。

不難設想,如果把數據分析的任務結合到業務里具體的場景,那麼這個任務的成敗將不是一個單純的技術問題,比如:能不能做好各部門的協調溝通,得到所需要的數據,就是第一個挑戰。即使有了數據,也要看質量好壞。

在行業里一句諺語叫Garbage in, garbage out,好數據+簡單模型通常遠勝於壞數據+精妙模型

為了避免大而無當的討論,在這裡,我們不妨把問題限定的更狹窄一些。那就是,如果將數據分析看作一項獨立的工作,應該怎樣改善工作的質量。

這可以從兩個方面來分析,一個是思維模式,一個是方法論。

一、思維模式層面

基於數據來進行決策,也即Data Driven,是一種思維模式。

比如說,當你想要在一條街上選擇某家飯館吃飯時,你可以詢問朋友推薦哪一家,也可以打開某個點評類的App(比如Yelp)來比較用戶的打分。粗略地說,前者可以說是基於專家系統的決策方式,而後者則是基於數據的思維模式。

開展數據分析的工作,從最原初的動機來說,一定是源於這種思維模式

僅從前面的例子來看,我們很難斷定,查看評分就一定比求教朋友更加靠譜。朋友也許更加了解你的口味,而基於打分則需要警惕數據的不可靠性(比如水軍)。

因此,從一般的角度來講,基於數據的思維模式,本身並不具有天然的優越性。

路邊小飯館的老闆即使不做數據挖掘,也能大致估計什麼時候顧客多,什麼時候顧客少。對於絕大多數普通人來講,我們在生活中所做的決策,也未必都是基於數據的,比如人與人之間的情感。

當我們認識到這一點的時候,就會發現,用數據來說話,未必是人類的天性,而是一種需要後天訓練和培養的習慣。

怎樣在適當的場景下主動地選擇這樣的一種方法,是一種需要學習的能力。創造性的在新場景中利用數據分析,則有可能構建一個新的體系,比如現代的計量歷史學。

思維模式看起來是很玄奧的一個概念,然而數據分析所依賴的基礎學科,概率論與數理統計,本身就具有這樣的玄奧性(猶如量子力學)。

筆者在讀書時曾聽一位有名的統計學家開玩笑說,統計學是一種神學,或曰信仰,彼時還不以為然。

但多年後筆者在給本科生講統計入門課程的時候,首先告訴學生的就是概率論學者Bruno de Finetti的名言:「Probability Does Not Exist.」

概率論領域眾所周知的兩大學派之爭:頻率學派 vs. 貝葉斯學派,如果從根源來考察,恰好對應於啟蒙時期的大陸理性主義和英國經驗主義——再往上大概就得到柏拉圖和亞里士多德。很多細枝末節的分歧,高度抽象後都可以解釋為思維模式的差異。

對於各位有志於從事數據分析的同學來說,不妨常常思考這些根本性的概念,正如在遊戲《異域鎮魂曲》中的那個著名問題:「WHAT CAN CHANGE THE NATURE OF A MAN?」

二、方法論層面

從方法論的角度來說,數據分析的能力可以從字面上分為數據分析兩部分。

有人估計,在數據分析師的工作中,前期的數據清理工作就可能佔據70%的時間。這未必是一個很理想的狀況,但這也是一個現實的狀況。

尤其在互聯網公司中,管理者往往期待數據方面的人員能夠提供一攬子解決方案,猶如大家常說的「全棧工程師」。

對於長期從事數據分析工作的人員來說,一些基本的能力也是在不斷的實踐中自然積累的,正如一個老司機通常總會有點修車的經驗。

數據的質量檢驗,比如缺失值和異常值的處理,現在都已經有大量的方法和現成的軟體包以供使用。從惟結果論的角度來說,即使一個人完全不知道什麼Missing at random或Missing at complete random,跑跑程序總是容易學會的。評估結果,大致也有現成的標準。

但是筆者仍然希望提示一點,那就是技術要基於實際場景。比如在資源有限的情況下,採用基於模型和蒙特卡洛模擬的方式來進行缺失值填補是否值得,是需要思考的問題。

從輸入到輸出的過程,在統計學人們常稱之為模型,在機器學習領域人們常稱之為演算法。模型這個概念隱含了「模型假設」這一內涵。

所有學過基本的線性回歸的同學都知道,做完之後要進行各種檢驗,看看模型假設是否滿足。有一些模型對於假設的依賴性較弱,也即數據不完全滿足假設的情形下結果依然可控,這通常被稱之為穩健性模型。

而對於分布不做假設(如正態分布)的模型則通常稱為非參數模型。比較模型擬合與實際情況差異時,統計學家常常會使用方差+偏差(二者不可得兼)作為整體的衡量標準。這套思維模式,對於機器學習的用戶而言過於理想化。

機器學習中常見的思維模式就是把一切問題歸結到優化,優化的目標是損失函數最小,而衡量的方法則包括交叉驗證(Cross Validation)等強調預測能力的手段。

機器學慣用戶對於諸如p-value,asymptotic(漸進性)這樣的概念,正如貝葉斯學派一樣,通常不以為然。同樣的一個東西,比如Logistic 回歸,有人認為是最小化損失函數,有人認為是求最大似然估計,有人則認為要研究posterior sample,這些都很正常。

因為教育和工作背景的不同,人們對於數據分析往往會有自己的一套方法論,一種方法論只要能夠滿足實際工作的需求,就應該得到正視。至於具體的技術,諸如支持向量機,決策樹,深度神經網路,網上的文獻汗牛充棟,筆者就不再一一列舉了。

對於數據分析的結果,不同角色的人會期待不同的展示方式。如果老闆只有一分鐘的時間看你的結論,那麼最好不要把事情說得過於複雜。

數據分析本身並不具有生產力,只有落實到具體的業務才有可能創造改變。怎樣能夠推動整個流程,最終讓數據分析具有真正的價值,是一個複雜的問題,已經超出了本文的範圍。

前面已經有很多回答者推薦了不同領域的專業書籍,這裡就推薦一本稍微冷門的書籍:Peter D. Hoff的 A First Course in Bayesian Statistical Methods,這是一本基礎的貝葉斯統計教科書,通過這本書,相信讀者能夠在基本的思維模式和方法論上有煥然一新的視野。

本文作者:京東金融-消費者金融部-信用管理部 張登峰


這個問題我們將從一個數據分析師的所需要的整體知識框架和能力入手,和大家分享一個優秀的數據分析師是怎樣煉成的。 主要包括數據分析師的演變、數據分析價值體系、數據分析師必備的四大能力、七大常用思路以及實戰分析案例。希望對題主有所幫助。

近些年,互聯網公司對數據分析師崗位的需求越來越多,這不是偶然。

過去十多年,中國互聯網行業靠著人口紅利和流量紅利野蠻生長;而隨著流量獲取成本不斷提高、運營效率的不斷下降,這種粗放的經營模式已經不再可行。互聯網企業迫切需要通過數據分析來實現精細化運營,降低成本、提高效率;而這對數據分析師也提出了更高的要求。本文將和大家分享數據分析師的演變、數據分析價值體系、數據分析師必備的四大能力、七大常用思路以及實戰分析案例。

Part 1 | 數據分析師的前世今生

在介紹數據分析師之前,我們先來看一下這幾個歷史人物,看看他們都跟數據分析師有著怎樣的淵源?

(歷史上大名鼎鼎的「分析師」)

上面展示的六個歷史人物(從左往右,從上往下)分別是:張良、管仲、蕭何、孫斌、鬼谷子和諸葛亮。他們是歷史上大名鼎鼎的謀士,有的還做過丞相。他們博覽群書、眼光獨到,通過對大量史實進行總結髮現了很多規律,並且在實踐中成功預測了很多事件。他們通過
「歷史統計——總結分析——預測未來」的實踐為自己的組織創造了絕大的價值,而這就是「數據分析師」的前身。

那麼現在,數據分析師需要哪些必備技能,如何成為一名優秀的數據分析師呢?

Part 2 | 數據分析師的價值金字塔

一個完整的企業數據分析體系涉及到多個環節:採集、清理、轉化、存儲、可視化、分析決策等等。其中,不同環節工作內容不一樣,消耗的時間和產生的價值也相差甚遠。

上面這幅圖是「數據分析師的價值金字塔」。

互聯網企業數據分析體系中至少有三方面的數據:用戶行為數據、交易訂單數據和CRM數據。工程師把不同來源的數據採集好,然後通過清理、轉化等環節統一到數據平台上;再由專門的數據工程師從數據平台上提出數據。這些工作佔用了整個環節90%的時間,然而產生的價值卻只佔10%。

這個金字塔再往上數據分析就和業務實際緊密結合,以報表、可視化等方式支持企業的業務決策,涵蓋產品、運營、市場、銷售、客戶支持各個一線部門。這個部分佔用了整個環節才10%的時間,但是卻能產生90%的價值。

一個優秀的商務數據分析師應該以價值為導向,緊密結合產品、運營、銷售、客戶支持等實踐,支持各條業務線發現問題、解決問題並創造更多的價值。

Part 3 | 數據分析師必備的四大能力

1. 全局觀

某日,產品經理跑過來問我:Hi,
能不能幫我看一下昨天產品新功能發送的數據?謝謝!條件反射我會說:好,我馬上給你!不過我還是禮貌性地問了一句:為什麼需要這數據呢?產品經理回復道:哦,昨天新功能上線了,我想看看效果。知道了產品經理的目的,我就可以針對性地進行數據提取和分析,分析的結果和建議也就更加具有可操作性。

很多時候,數據分析師不能就數說數,陷入各種報表中不能自拔。一個優秀的數據分析師應該具有全局觀,碰到分析需求的時候退一步多問個為什麼,更好地了解問題背景和分析目標。

2. 專業度

某企業的數據科學家針對用戶流失情形進行建模預測,最終得到的用戶流失模型預測準確率高達90%多。準確率如此之高,讓商務分析師都不敢相信。經過檢驗,發現數據科學家的模型中有一個自變數是 「用戶是否點擊取消按鈕」 。而點擊了「取消」按鈕是用戶流失的重要徵兆,做過這個動作的用戶基本上都會流失,用這個自變數來預測流失沒有任何業務意義和可操作性。

數據分析師要在所在行業(例如電商、O2O、社交、媒體、SaaS、互金等等)展示她/他的專業度,熟悉自己行業的業務流程和數據背後的意義,避免上面的數據笑話。

3. 想像力

商業環境的變化越來越快、越來越複雜,一組商業數據的背後涉及到的影響因素是常人難以想像的。數據分析師應該在工作經驗的基礎上發揮想像力,大膽創新和假設。

根據矽谷公司的核心 KPI(Facebook 的 4-2-2 準則,LinkedIn
的 connection 規律),我們也想找到互聯網企業驅動增長最核心的 KPI。基於我們的想像力和「無埋點」全量數據採集的優勢, 我們創造了「GrowingIO 留存魔法師」 。通過全量採集的數據,智能自動的後端計算,以及簡單的使用交互,留存魔法師可以幫助企業迅速找到與其留存最相關的用戶行為,就像魔法師輕輕揮動魔法棒一樣簡單。例如某 SaaS 產品 ,在一周內創建過 3 個圖表的用戶(群)留存率非常高,那麼「一周+3個+圖表」就是我們驅動用戶增長的魔法數字。

4. 信任度

以銷售崗位為例,一個銷售人員首先要和用戶建立起信任;如果用戶不信任你的話,那他也很難信任或者購買你的產品。同理,數據分析師要和各部門同事建立良好的人際關係,形成一定的信任。各個部門的同事信任你了,他們才可能更容易接受你的分析結論和建議;否則事倍功半。

Part 4 | 數據分析常見的七種思路

1. 簡單趨勢

通過實時訪問趨勢了解產品使用情況,便於產品迅速迭代。訪問用戶量、訪問來源、訪問用戶行為三大指標對於趨勢分析具有重要意義。

(分鐘級的實時走勢分析)

(以星期為周期的趨勢對比)

2. 多維分解

數據分析師可以根據分析需要,從多維度對指標進行分解。例如瀏覽器類型、操作系統類型、訪問來源、廣告來源、地區、網站/手機應用、設備品牌、APP 版本等等維度。

(多維度分析訪問用戶的屬性)

3. 轉化漏斗

按照已知的轉化路徑,藉助漏斗模型分析總體和每一步的轉化情況。常見的轉化情境有註冊轉化分析、購買轉化分析等。

(多維度分析訪問用戶的屬性)

4. 用戶分群

在精細化分析中,常常需要對有某個特定行為的用戶群組進行分析和比對;數據分析師需要將多維度和多指標作為分群條件,有針對性地優化產品,提升用戶體驗。

(購買過產品的、資金已贖回的、過去 14 天內有強力購買意願的用戶)

5.細查路徑

數據分析師可以觀察用戶的行為軌跡,探索用戶與產品的交互過程;進而從中發現問題、激發靈感亦或驗證假設。

(通過細查路徑分析用戶的行為規律)

6. 留存分析

留存分析是探索用戶行為與回訪之間的關聯。一般我們講的留存率,是指「新增用戶」在一段時間內「回訪網站 /
app」的比例。 數據分析師通過分析不同用戶群組的留存差異、使用過不同功能用戶的留存差異來找到產品的增長點。

關於更詳細的留存分析,可以看我這篇文章 你能找到的最深入的留存分析文章 - 留存 · 增長 · MagicNumber

(留存分析發現「創建圖表」的用戶留存度更高)

7. A/B 測試

A/B 測試就是同時進行多個方案並行測試,但是每個方案僅有一個變數不同;然後以某種規則(例如用戶體驗、數據指標等)優勝略汰選擇最優的方案。數據分析師需要在這個過程中選擇合理的分組樣本、監測數據指標、事後數據分析和不同方案評估。

Part 5 | 數據分析實戰案例

某社交平台推出付費高級功能,並且以 EDM(Email Direct Marketing,電子郵件營銷)的形式向目標用戶推送,用戶可以直接點擊郵件中的鏈接完成註冊。該渠道的註冊轉化率一直在 10%-20% 之間;但是 8 月下旬開始註冊轉化率急劇下降,甚至不到 5%。

如果你是該公司的數據分析師,你會如何分析這個問題呢?換言之,哪些因素可能造成 EDM 轉化率驟降?

一個優秀的數據分析師應該具有全局觀和專業度,從業務實際出發,綜合各個方面的可能性。因此,EDM 註冊轉化率驟降的可能性羅列如下:

1. 技術原因:ETL 延遲或者故障,造成前端註冊數據缺失,註冊轉化率急劇下降;

2. 外部因素:該時間節點是否有節假日,其他部門近期是否有向用戶發送推廣郵件,這些因素可能稀釋用戶的注意力;

3. 內部因素:郵件的文案、設計是否有改變;郵件的到達率、打開率、點擊率是否正常;郵件的註冊流是否順暢。

經過逐一排查,數據分析師將原因鎖定在註冊流程上:產品經理在註冊環節添加了綁定信用卡的內容,導致用戶的註冊提交意願大幅度下降,轉化率暴跌。

一個看似簡單的轉化率分析問題,它的背後是數據分析師各方面能力的體現。首先是技術層面,對 ETL(數據抽取-轉換-載入)的理解和認識;其實是全局觀,對季節性、公司等層面的業務有清晰的了解;最後是專業度,對 EDM 業務的流程、設計等了如指掌。

練就數據分析的洪荒之力並非一朝一夕之功,而是在實踐中不斷成長和升華。一個優秀的數據分析師應該以價值為導向,放眼全局、立足業務、與人為善,用數據來驅動增長。

本文作者陳明 Justin,GrowingIO 聯合創始人 運營副總裁。陳明畢業於斯坦福大學,先後就職於 eBay、LinkedIn 數據分析部門,有豐富的商務分析經驗。

註:文中實時分析、留存、用戶分群等功能截圖來自 GrowingIO -矽谷新一代數據分析產品


謝邀,看看唄!


《一位資深數據分析師的分享—初入數據分析行業(謹記)》


一、掌握基礎、更新知識。

基本技術怎麼強調都不過分。這裡的術更多是(計算機、統計知識), 多年做數據分析、數據挖掘的經歷來看、以及業界朋友的交流來看,這點大家深有感觸的。

資料庫查詢—SQL

數據分析師在計算機的層面的技能要求較低,主要是會SQL,因為這裡解決一個數據提取的問題。有機會可以去逛逛一些專業的數據論壇,學習一些SQL技巧、新的函數,對你工作效率的提高是很有幫助的。

統計知識與數據挖掘

你要掌握基礎的、成熟的數據建模方法、數據挖掘方法。例如:多元統計:回歸分析、因子分析、離散等,數據挖掘中的:決策樹、聚類、關聯規則、神經網路等。但是還是應該關注一些博客、論壇中大家對於最新方法的介紹,或者是對老方法的新運用,不斷更新自己知識,才能跟上時代,也許你工作中根本不會用到,但是未來呢?

行業知識

如果數據不結合具體的行業、業務知識,數據就是一堆數字,不代表任何東西。是冷冰冰,是不會產生任何價值的,數據驅動營銷、提高科學決策一切都是空的。

一名數據分析師,一定要對所在行業知識、業務知識有深入的了解。例如:看到某個數據,你首先必須要知道,這個數據的統計口徑是什麼?是如何取出來的?這個數據在這個行業, 在相應的業務是在哪個環節是產生的?數值的代表業務發生了什麼(背景是什麼)?對於A部門來說,本月新會員有10萬,10萬好還是不好呢?先問問上面的這個問題:

對於A部門,

1、新會員的統計口徑是什麼。第一次在使用A部門的產品的會員?還是在站在公司角度上說,第一次在公司發展業務接觸的會員?

2、是如何統計出來的。A:時間;是通過創建時間,還是業務完成時間。B:業務場景。是只要與業務發接觸,例如下了單,還是要業務完成後,到成功支付。

3、這個數據是在哪個環節統計出來。在註冊環節,在下單環節,在成功支付環節。

4、這個數據代表著什麼。10萬高嗎?與歷史相同比較?是否做了營銷活動?這個行業處理行業生命同期哪個階段?

在前面二點,更多要求你能按業務邏輯,來進行數據的提取(更多是寫SQL代碼從資料庫取出數據)。後面二點,更重要是對業務了解,更行業知識了解,你才能進行相應的數據解讀,才能讓數據產生真正的價值,不是嗎?

對於新進入數據行業或者剛進入數據行業的朋友來說:

行業知識都重要,也許你看到很多的數據行業的同仁,在微博或者寫文章說,數據分析思想、行業知識、業務知識很重要。我非常同意。因為作為數據分析師,在發表任何觀點的時候,都不要忘記你居於的背景是什麼?

但大家一定不要忘記了一些基本的技術,不要把基礎去忘記了,如果一名數據分析師不會寫SQL,那麻煩就大了。哈哈。。你只有把數據先取對了,才能正確的分析,否則一切都是錯誤了,甚至會導致致命的結論。新同學,還是好好花時間把基礎技能學好。因為基礎技能你可以在短期內快速提高,但是在行業、業務知識的是一點一滴的積累起來的,有時候是急不來的,這更需要花時間慢慢去沉澱下來。

不要過於追求很高級、高深的統計方法,我提倡有空還是要多去學習基本的統計學知識,從而提高工作效率,達到事半功倍。以我經驗來說,我負責任告訴新進的同學,永遠不要忘記基本知識、基本技能的學習。

二、要有三心。

1、細心。

2、耐心。

3、靜心。

數據分析師其實是一個細活,特別是在前文提到的例子中的前面二點。而且在數據分析過程中,是一個不斷循環迭代的過程,所以一定在耐心,不怕麻煩,能靜下心來不斷去修改自己的分析思路。

三、形成自己結構化的思維。

數據分析師一定要嚴謹。而嚴謹一定要很強的結構化思維,如何提高結構化思維,也許只需要工作隊中不斷的實踐。但是我推薦你用mindmanagement,首先把你的整個思路整理出來,然後根據分析不斷深入、得到的信息不斷增加的情況下去完善你的結構,慢慢你會形成一套自己的思想。當然有空的時候去看看《麥肯錫思維》、結構化邏輯思維訓練的書也不錯。在我以為多看看你身邊更資深同事的報告,多問問他們是怎麼去考慮這個問題的,別人的思想是怎麼樣的?他是怎麼構建整個分析體系的。

四、業務、行業、商業知識。

當你掌握好前面的基本知識和一些技巧性東西的時候,你應該在業務、行業、商業知識的學習與積累上了。

這個放在最後,不是不重要,而且非常重要,如果前面三點是決定你能否進入這個行業,那麼這則是你進入這個行業後,能否成功的最根本的因素。 數據與具體行業知識的關係,比作池塘中魚與水的關係一點都不過分,數據(魚)離開了行業、業務背景(水)是死的,是不可能是「活」。而沒有「魚」的水,更像是「死」水,你去根本不知道看什麼(方向在哪)。

如何提高業務知識,特別是沒有相關背景的同學。很簡單,我總結了幾點:

1、多向業務部門的同事請教,多溝通多向他們請教,數據分析師與業務部門沒有利益衝突,而更向是共生體,所以如果你態度好,相信業務部門的同事也很願意把他們知道的告訴你。

2、每天有空去瀏覽行業相關的網站。看看行業都發生了什麼,主要競爭對手或者相關行業都發展什麼大事,把這些大事與你公司的業務,數據結合起來。

3、有機會走向一線,多向一線的客戶溝通,這才是最根本的。

標題寫著告誡,其實談不上,更多是一些心得的總結。希望對新進的朋友有幫助,數據分析行業絕對是一個朝陽行業,特別是互聯網的不斷發展,一個不談數據的公司根本不叫互聯網公司,數據分析師已經成為一個互聯網公司必備的職位了。


推薦書本:在數據分析、挖掘方面,有哪些好書值得推薦? - 書籍推薦


目前正在組建數據分析高級交流社群,歡迎同行加入交流。


數據精英在路上

致力打造數據領域高級交流社群

誠邀資深數據分析、業務分析、數據挖掘、數據產品、 數據倉庫、ETL、商業智能等數據領域從業者加入!

1.為什麼要建立【數據精英在路上】?

或許這是你思考的:

(1)太多群里吹水太多,得不到你想要的信息?

(2)太多大神都是潛水,偶爾浮出水面看看,嘆一口氣,又繼續潛水。

(3)偶然有一些想法想要得到更有效的交流,往往被水軍淹沒

(4)甚至你會有一些項目資源,想要尋找合作而苦於無門

。。。

是的,以上的種種問題,都是【數據精英在路上】想要突破的困境。

既然想要打造一個有價值、有乾貨、有效率的溝通平台,當然需要一群對數據領域有深入了解的工程師加入,這或許就是門檻。

*加入條件:數據領域相關從業3年以上(優秀人員除外)

註:首批群成員上限100人,入滿截止(為了保證更有效的交流)。

2.如何加入?

聯絡人:[群主-Leven]QQ:377122607 [美女管理員-耳濡目染]QQ:593447576

發布一周,已經加入30幾人,多為BAT等知名互聯網從業工程師,截圖如下:


http://www.zhihu.com/question/19640095#112905這裡有書籍推薦,而且@尚小明推薦的書籍也很好。

回答你的第一個問題。如何培養數據分析的能力?
最重要的是形成數據分析的思想、意識,並不斷在實踐過程中找到數據的關聯性,挖掘其內在含義,提升自己的數據分析能力,並利用分析結果對未來的工作作出前瞻和指導,也同時檢驗自己的成果。形成閉環,不斷提升自己。
如何養成這樣的意識呢?簡而言之

  • 事前,採集歷史數據,分析數據關聯性,推測可能的模型和影響因子;
  • 事中,採集線上數據,同前期規劃模型作比較,找到實際問題中的亟待解決的問題和模型改善,為進一步產品改進等做可能性、關聯性分析;
  • 事後,歸納數據,發現自己分析的不足、考慮問題的全面性,為接下來的分析工作做經驗儲備;

這樣的意識就是:

  • 事前估計,為什麼會有這樣的預測,有什麼樣的數據或是模型支持此分析結果;
  • 事中監測,有哪些突變或是自己尚未前瞻到的異常用戶數據,如何將其融合到新一輪的數據分析中,如何更好的為產品改進服務;
  • 事後總結,在這次事件中有哪些問題,問題的原因出自哪裡,模型的問題還是客觀性或是其他問題,不斷提升自己的數據領悟力;

在數據分析中,重數據,卻不拘泥於數據;考慮模型,但要動態變化;不能為數據而數據,應該是客觀的評析數據,提出合理的分析結果;不斷在實踐中提升自己的感悟能力,這不是一朝一夕的事。數據既為上,又為己,希望你可以理解。


回答問題之前我可以先跟你分享一下我好朋友的例子吧,看下能不能給你帶來一定的啟發。

好朋友:男生,大學本科學的是信管專業,跟計算機相關,本身他有一些統計、分析相關的基礎,畢業後也是進入一家公司做分析師,但是大學所學知識肯定不能滿足工作需求,於是從工作的第二個月他每天下班重新回到母校上晚自習,看跟數據分析相關的書籍(後來問了下:跟統計、SPSS等相關的專業書),一切都是靠自學的,沒人教,學習的勁頭遠遠超過了大學四年,後來他來北京去了一家大公司,名字就不說了,現在也在一家大公司,薪資都還不錯,發展也很不錯,能力也得到認可。我想說的是可能你希望一步快速成為分析師,但我還是建議一步一步積累相關的知識,當然這個過程你可以縮短時間,比如你可以在工作中快速積累、快速學習,但是該有的知識還是要有的,也要看你自己學習的速度,希望他這個例子可以給你帶來一些啟發吧。


言歸正傳,咱們談談如何學習數據分析。

1、學科知識:從數據分析涉及到的專業知識點上看,主要是這些:

(1)統計學:參數檢驗、非參檢驗、回歸分析等

(2)數學:線性代數、微積分等

(3)社會學:主要是一些社會學量化統計的知識,如問卷調查與統計分析;還有就是一些社會學的知識,這些對於從事營銷類的數據分析人員比較有幫助

(4)經濟金融:如果是從事這個行業的數據分析人員,經濟金融知識是必須的,這裡就不多說了

(5)計算機:從事數據分析工作的人必須了解你使用的數據是怎麼處理出來的,要了解資料庫的結構和基本原理,同時如果條件充足的話,你還能有足夠的能力從資料庫里提取你需要的數據(比如使用SQL進行查詢),這種提取數據分析原材料的能力是每個數據從業者必備的。此外,如果要想走的更遠,還要能掌握一些編程能力,從而借住一些專業的數據分析工具,幫助你完成工作。

……好好學習,雖然累,但是要堅持!


2、軟體相關:從事數據分析方面的工作必備的工具是什麼

(1)數據分析報告類:Microsoft Office軟體等,如果連excel表格基本的處理操作都不會,連PPT報告都不會做,那我只好說離數據分析的崗位還差的很遠。現在的數據呈現不再單單只是表格的形式,而是更多需要以可視化圖表去展示你的數據結果,因此數據可視化軟體就不能少,BDP個人版、ECharts等這些必備的,好看的數據圖表是很有必要的,工具就看你自己怎麼選了。

(2)專業數據分析軟體:Office並不是全部,要從在數據分析方面做的比較好,你必須會用(至少要了解)一些比較常用的專業數據分析軟體工具,比如SPSS、SAS、Matlab等等,這些軟體可以很好地幫助我們完成專業性的演算法或模型分析,還有高級的python、R等。

(3)資料庫:hive、hadoop、impala等資料庫相關的知識可以學習;

(3)輔助工具:比如思維導圖軟體(如MindManager、MindNode Pro等)也可以很好地幫助我們整理分析思路。

最重要的是:理論知識+軟體工具+數據思維=數據分析基礎,最後要把這些數據分析基礎運用到實際的工作業務中,好好理解業務邏輯,真正用數據分析驅動網站運營、業務管理,真正發揮數據的價值。

希望能幫到你啊,希望你儘快成為一名優秀的數據分析師!!!


背數據!絕對是背數據!!!!
就好像英語的語感是靠背文章來實現,數據的感覺也來源於背數據!
我老大一開始帶我的時候每晚都會讓我背今天的交易數據,用戶數據等等等等,一開始很不理解,後來慢慢上道了才豁然開朗!培養對數據的感覺太重要了!能讓你一眼就看出哪裡的數據有問題,哪裡的數據有關聯,然後開始下一步的分析。

樓上推薦看書的都很有道理,但是作為一個入門級的小白,看各種各樣的方法論效果真的很差!就從熟悉業務數據開始吧!每天對著數據看!背!然後有一天你覺得好噁心,然後就吐了!然後你就頓悟了!

簡單、粗暴!

等你真正有了數據感覺,開始做數據分析了,覺得自己的知識體系太不健全了,這時候樓上的書就可以找來看了!


一般來看,數據分析需要哪些能力?

  • 基本的理論知識:數理統計、模型原理、市場研究等。
  • 常規分析工具的使用。常用辦公軟體(Excel、PPT、思維導圖)、資料庫、統計分析工具、數據挖掘等。
  • 一定的業務理解能力,能理解業務背後的商業邏輯。只有理解問題,才能轉換成數據分析的問題,才知道如何設定分析目標進行分析。
  • 數據報告和數據可視化的能力。數據分析得再好,如果不能以漂亮的方式「表達」,成效也會大打折扣。

學習,建議從分析理論和工具實踐著手。

分析理論

  • 明確業務場景
  • 確定分析目標
  • 構建分析體系
  • 梳理核心指標

首先明確是什麼業務場景,因為業務不同,分析體系也不同。然後結合業務問題確定分析的目標,列出核心指標,整理所需要的數據。

推薦書籍:

數據化管理:洞悉零售及電子商務運營 (豆瓣)決戰大數據 (豆瓣)

工具實踐

從數據分析的幾個步驟來看

  • 數據獲取
  • 數據處理
  • 數據分析
  • 數據呈現

1、數據獲取

數據獲取看似簡單,但是需要把握對問題的商業理解,轉化成數據問題來解決,直白點講就是需要哪些數據,從哪些角度來分析,界定問題後,再進行數據採集。此環節,需要數據分析師具備結構化的邏輯思維。

推薦書籍:

金字塔原理 (豆瓣)

麥肯錫工具 (豆瓣) 、麥肯錫意識、麥肯錫方法;

使用工具:思維導圖工具(Xmind百度腦圖等);

2、數據處理

數據的處理需要掌握有效率的工具:

  • Excel及高端技能:基本操作、函數公式、數據透視表、VBA程序開發。按照我習慣的方法,先過一遍基礎,知道什麼是什麼,然後找幾個case練習。多逛逛excelhome論壇,平常多思考如何用excel來解決問題,善用插件,還有記得保存。
  • 專業的報表工具(成規模的企業會用)日常做報表設計一個模板可通用,只要會寫SQL就可上手。相比excel做報表,開發的技術要求較少,能很快地開發常規報表、動態報表。
  • 資料庫的使用:熟練掌握SQL語言(很重要),常見的有Oracle、SQL sever、My SQL等。學習流行的hadoop之類的分散式資料庫來提升個人能力,對求職有幫助。

3、分析數據

分析數據往往需要各類統計分析模型,如關聯規則、聚類、分類、預測模型等等。

因此,熟練掌握一些統計分析工具不可免:

  • SPSS系列:老牌的統計分析軟體,SPSS Statistics(偏統計功能、市場研究)、SPSS Modeler(偏數據挖掘),不用編程,易學。
  • SAS:經典挖掘軟體,需要編程。
  • R:開源軟體,新流行,對非結構化數據處理效率上更高,需編程。
  • 各類BI工具:Tableau、PowerBI、FineBI,對於處理好的數據可作自由的可視化分析,圖表效果驚人。

推薦書籍:

誰說菜鳥不會數據分析 (豆瓣) 系列,入門級書,初學者最適。

數據挖掘與數據化運營實戰 (豆瓣),內容很系統很全面。

市場研究定量分析方法與應用 (豆瓣),簡明等編著,中國人民大學出版社。

4、數據可視化呈現

很多數據分析工具已經涵蓋了數據可視化部分,只需要把數據結果進行有效的呈現和演講彙報,可用wordPPTH5等方式展現。

對於入門小白,建議從excel工具入手

學習excel也是一個循序漸進的過程

  • 基礎的:簡單的表格數據處理、列印、查詢、篩選、排序
  • 函數和公式:常用函數、高級數據計算、數組公式、多維引用、function
  • 可視化圖表:圖形圖示展示、高級圖表、圖表插件
  • 數據透視表、VBA程序開發

函數和數據透視表是兩個重點:

製作數據模板必須掌握的excel函數

  • 日期函數:day,month,year,date,today,weekday,weeknum。日期函數是做分析模板的必備,可以用日期函數來控制數據的展示,查詢指定時間段的數據。
  • 數學函數:product,rand,randbetween,round,sum,sumif,sumifs,sumproduct
  • 統計函數:large,small,max,min,median,mode,rank,count,countif,countifs,average,averageif,averageifs。統計函數在數據分析中具有舉足輕重的作用,求平均值,最大值,中位數,眾位數都用得到。
  • 查找和引用函數:choose,match,index,indirect,column,row,vlookup,hlookup,lookup,offset,getpivotdata。這幾個函數的作用不用多說,特別是vlookup,不會這個函數基本上複雜報表寸步難行。
  • 文本函數:find,search,text,value,concatenate,left,right,mid,len。這幾個函數多半用在數據整理階段使用。
  • 邏輯函數:and,or,false,true,if,iferror

(以上學會,基本能秒殺90%的辦公室白領。)

數據透視表

數據透視表的作用是把大量數據生成可交互的報表,數據透視表具有這樣一些重要功能:分類匯總、取平均、最大最小值、自動排序、自動篩選、自動分組;可分析佔比、同比、環比、定比、自定義公式。

對於浸淫多年的表哥表姐

現實中,取數或報表+EXCEL+PPT似乎還是主流形式。

工具上,無論是業務人員還是分析人員,都可以通過自動取數工具或者BI工具來製作報表,減少重複操作的時間。

其次,增加與業務人員的溝通,充分了解並挖掘需求,當你的業務水平和他們差不多甚至更高時,自然而然知道真實的需求是什麼了。

最後,站在更高角度上,報表的基本粒度就是指標,可梳理出企業的基本指標體系,從經營分析的角度去做報表,把報表的工作標準化,降低報表的冗餘,避免動不動就做一張報表。標準化包括指標分類,指標命名,業務口徑,技術口徑,實現方式等等。其實,最終目的是實現報表數據一致性,減少重複報表開發,降低系統開銷的戰略性舉措。

業餘時間可以拓展自己的知識面,往上下游發展,補充數理統計知識,學習R、Python語言,都是提升自己的很好方式。

文中觀點部分引用
數據化管理:洞悉零售及電子商務運營 (豆瓣)決戰大數據 (豆瓣)
傅一平 與數據同行


上面的大神們說了這麼多,我就用網上一張經典的圖來給你一個概括:

需要書單,請查看我另一個帖子:http://www.zhihu.com/question/19640095/answer/28403063


  1. 學習數學和統計方法
  2. 學習編程,首推Python
  3. 讀報紙,如Business Insider之類的
  4. 上Quora和知乎向大神們學習
  5. 動手做

當然是看到什麼問題都在想,我要去哪裡拿數據,然後會有什麼結果啦

比如:

因為最近和朋友吃飯,大家都到了大三季,都在糾結自己該以哪裡作為自己職業發展的起點?

也想看看自己的背景,能不能找到靠譜的師哥師姐幫忙,那麼師哥師姐都在哪裡發光發亮呢?

我當時也是午休的時候想到,知乎有那麼多結構化的好的數據,不如抓取之,拿來分析

可以看看名校生們都在哪?

我們行業的人都喜歡哪,哪裡每年帶走一堆人?

然後花半小時寫了個多線程爬蟲,爬下來幾百萬數據(其實是我爬的太猛。。。爬到幾百萬被知乎封號了。。。誰有多的測試號的話可以給我一個)

好的,我們先來看看結果

首先是清華大學的優秀畢業生都去了哪?

接著是北大的

接著我很多兩財一貿的同學,我想知道他們會去哪?

接著我旁邊很多兩電一郵的朋友

復旦的畢業生呢?

上海交通大學的同學呢?是霍格沃滋么?

再看看人民大學的,人民大學的朋友也很多

南京大學的朋友呢?

浙江大學的朋友呢?

中科大呢?

以上的都是學校的,納悶想看看那些有名的公司都招了哪裡的人,去了那些公司我們會遇到哪些學校的校友呢?

首先是BAT

接著是北美FLAG

然後我很多去四大的同學,他們那裡都喜歡收什麼人呢?

那麼諮詢行業呢?

最近大三認識特別多學經濟金融的同學,他們會去哪呢?

那麼我那麼多學法律的同學呢?

這次抓取的數據量有將近200萬,跑了一個下午,然後我把沒有公司或者教育學校的篩掉,就還剩25萬了

拿來公開的,有興趣的朋友可以自己玩玩,我給的是CSV格式,如果excel打開有亂碼,自己百度怎麼辦

https://pan.baidu.com/s/1ceuBjK

我這裡已經有寫好的爬蟲,之後還會爬取,但是賬號暫時被封了。。。。。

誰有測試賬號可以給我一個2333

想要全部數據的也可以私信我~

另外,好內推的可以隨時私信我~


實名反對所有高票答案
(咦,我最近怎麼總喜歡說這句話)


雖然高票答案給出了很有參考借鑒的教程和指導,但是想要應用在實際中,似乎中間還有一個扯到蛋的大跨步要走。

正如同我在問題,業餘時間如何學數據分析? - 知乎 中所說

一上來便是各種教程,二話不說給出一批書單,各種數據處理的方式,講怎麼樣用Python挖掘數據,怎麼用R進行數據可視化,講AB測試。
他們給的教程都很好,數據處理的方式也很有借鑒意義。
且不說,有多少人是光收藏,而不去認真學習的,就算是認真去學習的,他們也會遇到這樣的問題
為什麼這麼用,為什麼這麼做。

在我來看,所謂的數據分析能力,不應該只是,獲取數據,清洗數據,數據建模,數據統計等操作方法
而是,通過「數據處理」的方式,解決問題或者指導決策的能力

因為對於大多數人來說,他們並沒有直接獲取/整理/建模數據的需求,而絕對有解決問題或指導決策的需求

正文開始

如何發現問題,如何將問題量化為相關數據

這個步驟是我認為整個數據分析過程最重要的一步,甚至有可能會佔到你整個流程70%的精力。

那麼,第一步,如何發現問題?

這裡提供一個思路,以問題的方式呈現:

  1. 問題/項目由哪些相關元素構成
  2. 每個組成元素部分是怎麼運行的
  3. 每個元素之間是怎麼交互的
  4. 第一性的原理/原則是什麼
  5. 能夠用什麼知識體系去描述

例一,麻辣燙的選址

舉幾個現實的中的例子,比如還是我表嫂想開麻辣燙店,不知道在哪裡選址


依次回答上邊五個問題就好了

1. 問題/項目由哪些相關元素構成

與店鋪選址的元素包括不限於以下:人流量,地段位置,租金,交通,人群類別,周邊環境,後續發展,城市管理……

2. 每個組成元素部分是怎麼運行的
人流量如何衡量,峰值和峰谷分別是什麼時候 ,地段位置依據那些因素去判斷,租金的趨勢等等等

3. 每個元素之間是怎麼交互的

人流量和地段有可能決定了租金,城市管理有可能制約著後續發展,人群類別有可能影響著周邊環境,後續發展有可能影響著租金……

4. 第一性的原理/原則是什麼
通過選址,盡量擴大投入產出比,賺更多的錢

5. 能夠用什麼知識體系去描述
ROI

當前想明白了這些問題之後,就要想著將相關數據量化,你想到了一下數據類別,和相關的數據獲取方式(此處例子詳見 業餘時間如何學數據分析? - 知乎)

在獲取這些數據過程中,你遇到這些實際的問題

  • 招生計劃怎麼獲得,學校官網還是相關報道?
  • 如何通過在線地圖分析學校面積及相關建築分布的合理性,最小路徑還是順路路徑?
  • 如何獲學校食堂評價,爬取微博數據,獲得地理位置,並且對提及「食堂」的微博進行詞義褒貶分析?或者直接攔路問詢?
  • 人流量怎麼獲得,實地考察的時候,用本子畫正字嗎?

有可能你設計這樣一條公式,來做為判斷依據:


建議推薦開店係數=(人流量*XX/(YY*0.4)+租金*0.5)/ZZ

所以,在這個過程中,你必須要學會以下數據分析的操作來支持:

  • Excel加減乘除,基礎函數;
  • 爬蟲的基本原理,及操作方式;
  • 正則表達式與數據清洗;
  • 語義分析的一般實現方式;
  • 在線地圖API可以獲取的數據有哪些;

例二,個人的社交管理

在日常的社交生活中,單單以微信來舉例,也許你會遇到以下問題:

1. 工作和生活不能很好的分開,經常有各種人多種渠道找到了你,加你為好友,比如我

時間一長,你根本不知道自己加過多少人,又有多少的有效好友?

2. 由於沒有隨手備註的習慣,經常有很多換了頭像的好友,突然跟你說了一句話,十分鐘過去了,你還在翻這個人的朋友圈,想這個人是誰?

3. 自我社交數據是什麼,怎麼評價,流動率又是多少,是否為有效社交,怎麼判斷?

4. 似乎認識很多人,但是需要尋求幫助的時候,卻一個人都找不到?

5. 自己是否真的需要微信去維持社交?

6. 在微信上的的ROI是多少?


針對於以上問題,你想到了通過以下的數據,調研自己的社交水平數據

好友管理,包括不限於以下數據:

  1. 總量及周期增減趨勢
  2. 性別分布
  3. 年齡分布
  4. 地區分布
  5. 職業分布
  6. 標籤分布
  7. 親密程度

問題來了,微信聯繫人的數據如何獲取?打開微信和Excel,看一條手動輸入一條嘛?

這時候,你想到我應該採取數據挖掘的方式獲得這個數據,你想到了以下方式:

  • 微信支持網頁版登錄,是否可以通過在網頁上獲取相關的聯繫人列表?
  • 微信支持電腦備份,是否可以從電腦中的備份文件中讀取到聯繫人列表?

這時候,你會發現:

1.從網頁上獲取相關數據,這時候你登錄了微信網頁版,並且你還知道Chrome有審查元素的功能

你驚奇的發現:

user.getDisplayName()就是用戶名
{"web_wechat_women": user.Sex == 2, "web_wechat_men": user.Sex == 1}代表了性別
Region:就是用戶所在的區域
avatar後邊的圖片地址,就是用戶的頭像

你想著可以用Python 爬蟲的方式,將所有的數據爬下來,所以你有可能就學會了以下數據獲取

技能

  1. 網頁結構,HTML,CSS,JS
  2. Python ,以及常用的庫,比如 ,Scrapy,A Fast and Powerful Scraping and Web Crawling Framework
  3. 正則表達式,因為你爬出來的數據肯定是需要整理的,不然看著多晃眼啊
  4. 相關表格的庫,整理出來一份Excel,看起來多清爽啊,還能給別人分享,所以,你又學會了xlrd和xlwt

或者,你想通過讀取備份文件的方式獲取聯繫人列表,這塊你不太懂,所以你動用了搜索大法:

哇塞,最大同性交友平台(Github,Build software better, together)上邊已經有好多支持微信導出的項目了,真是站在巨人的肩膀上。

或者,你搜索到了這樣的介紹:

Android逆向之旅-靜態方式破解微信獲取聊天記錄和通訊錄信息 | 程序猿大雄

大概看了一遍,感覺自己應該能夠實現的。

所以,不經意間

你還學會資料庫的相關知識

SQL


無論是通過以上任何一種方式,你如願以償的得到了這樣一個表格(以本人的微信舉例)

OK,做一個透視,就能知道相關的性別比例和,地區等相關比例,心情好的話,你還可以畫個圖,比如

(擦,未知是什麼鬼啦)你之前


下來,發現這個數據中,並沒有包含,年齡職業,工作單位等信息,這可如何是好?

你想到,手機通訊錄和微信好友往往有很大的重疊關係,剛好,你還有很好的手機聯繫人管理習慣,所以,你把手機通訊錄導出了,真好,Google聯繫人支持導處csv,(實際上,安卓手機,IPhone都是支持聯繫人導出的)

打開之後,擦,怎麼格式亂成這個鳥樣

不過之前剛不是學了數據清洗嗎,這個對你來說還不是小事一樁?

分分鐘你就把這個表格整理的美觀又整齊了。


下來就是如何把這兩個表聯立起來分析,所以,你又學會了

表關係,表關係指南 - Access(SQL或者其他資料庫是類似的原理)


然後你發現,這些數據並不能解決,用戶增減趨勢的相關數據的問題?

怎麼獲得,這個當做作業留給你解決。


所有的數據都出來了,如何優化?

每個人對於自己的期許都是不一樣的,這個,也肯定是留給你要去回答的問題

那麼現在,做了如上的工作,

你還對自己的社交圈一無所知么?

總結,所以,培養數據分析的能力的方法,

就是親手試著,用數據分析的方式,去解決一個自己實實在在遇到的問題。

相關Live

* 培養數據分析的思維方式

相關回答

* 怎麼培養數據分析的能力? - 知乎

* 業餘時間如何學數據分析? - 知乎

* 零基礎如何學爬蟲技術? - 知乎

* 如何用一個循環語句輸出九九乘法表? - 知乎

* Excel 有什麼神奇用途? - 知乎


-------分割線-------
歡迎關注我的微信公眾賬號:決明子 Jueming_zi
這裡有關於攝影,繪畫,藝術,以及我想說給你們聽的故事

http://weixin.qq.com/r/iUgiOm3EeDAHrSlZ9x2b (二維碼自動識別)


半個月前看到這篇,剛開始覺得不太理解Avinash為什麼會寫一篇這麼宏觀的文章,但是仔細讀完發現這篇文章把整個數據分析生態系統概括的恰到好處,並且以他多年的實戰經驗告訴大家每個階段要做什麼,會遇到什麼問題,需要多少時間等等,因此我覺得很有必要翻譯過來和大家分享一下,所以在導師宋星老師的指導下把這篇翻譯過來,希望對你有幫助。

註:歡迎關注微信公眾號「數字營銷與數據分析」

http://weixin.qq.com/r/8nQvN9HEP4xArZVU9yHg (二維碼自動識別)


【正文】

人們一談到數據分析,總覺得很複雜,可望而不可即。

是的,其中有一些確實很複雜。比如第一方cookies、第三方cookies,以及跟蹤用戶、設備、網站瀏覽器以及其他信息。

但是有些要比你想像的簡單很多很多。

幾天前,我主持了一場關於網站分析領域的討論會,這裡聚集了很多網站分析領域的大咖以及一些新人。在此期間,我找了個時機畫了一張關於數據分析的生態圖,從圖上看,數據分析真的沒那麼難。接下來我會慢慢闡述每一塊拼圖並且解釋這些拼圖之間是如何串聯起來的。

拼完所有的圖片,你會得到一張很實用有趣的圖,這張圖是一條通往優秀分析師的捷徑。我想在這篇博文里和大家分享這些。

不管你在數據分析領域有多少經驗,我相信你都能從中找到價值,哪怕你是某個領域裡的大咖,這將有助於你去向你的上級表達你的想法並且讓他理解你正在做的事情。

那我們按照以下步驟來理解數據分析,我敢說你一定會對數據分析有重新的認識。

Step1 數據分析生態:數據分析的核心因素

Step2 數據分析生態:數據分析的數據投入

Step3 數據分析生態:數據分析的價值輸出

Step4 數據分析生態:分析師三個必經階段

Step5 數據分析生態:各階段的時間成本

看到這幾個階段是不是很興奮?這個過程你會發現很多有用的技巧,去深入的研究,一定會獲得一些新的洞察的。

那現在開始吧

Step1 數據分析生態:數據分析的核心因素

在數據分析中最核心的工作是理解度量的概念。你或許是這樣定義度量的:它只是個簡單的數字。

你的數據分析工具里充滿了度量,一個平均數、一個總和或者某個百分比……

有一類度量很特別,因為他們要直接和KPI(Key Performance Indicator)掛鉤。KPI是一個能夠幫助你明白你的目標完成情況的度量。

這意味著如果你不知道你的商業目標,你是無法設定KPI的。例如X電商網站,轉化率可能就是一個KPI,因為他們當前的目標是和業務趨勢緊密結合的。而Y網站的KPI可能是訂單平均價值。這完全取決於你對業務目標的理解。

請記住:如果你不知道你要去哪裡,那你哪裡也去不了,並且你會迷失自己。

同時,也沒有哪個萬能的KPI讓每個人覺得都適用,因為每家公司都有自己的戰略目標。當然,有些度量是無論如何都不會成為KPI的,一個很好的例子就是跳出率,因為哪怕你的跳出率從100%降到10%,這對你的業務不會產生任何大影響,跳出率降低只能告訴你用戶在跳出前多看了一個頁面,這固然很好,但是很難有什麼決定性的作用。

在你制定KPI的時候請記住這個很重要的警告——了解你的業務目標。

現在你已經有你了數據分析的基礎——度量和KPIs。接下來一層是維度。什麼是維度?維度就是你網站訪問者的屬性。

流量來源、關鍵詞、引薦網站、廣告活動和國家,這些都是維度的例子。再比如,網頁或視頻名稱、設備等也可以是維度。這看起來有點奇怪,但是這些確實都是可以作為維度的,那麼如果你對這些數據進行跟蹤,這會產生很大的價值。

通常情況下,在我們的表格中,維度出現在行里,而度量和KPIs出現在列里。

現在我們擁有了創造美妙音樂的主要材料(譯者註:打比方,比喻可以做優秀的數據分析),同時我們要通過自定義報告(我最喜歡數據分析工具)來實現這一步。

請注意,我說的不是標準報告,我說的是自定義報告。因為在這裡我要強調網站報告和網站分析的區別。當你開始使用自定義報告,你將不得不盯著一張白紙,然後找出到底發生了什麼。如果想讓你的分析工作更加出色,你將不得不和你的領導、同事、客戶交談,並且明白你要回答他們哪些問題。接下來為了更出色地完成工作,你肯定不希望自己隨便做點事就交差了,你必須找到這些問題的最終答案。

所以,如果可以,你就製作自己的自定義報告吧。如果你喜歡,可以先從我的網站上下載我最喜歡的三個自定義報告或者三個SEM廣告分析的自定義報告。

在這個階段,你的直接領導會非常開心的,好像你真的發現了很重要的問題(但任何事情都不是一蹴而就的 ),這將持續四到六個月,我真心希望你能喜歡這樣的感覺。

在這個階段即將結束的時候,你將會注意到一件事,就是將小孩和成年人分開了。高級細分(譯者註:將整體數據按照不同的類型進行分類,以便深入分析)是很重要的功能,原因很簡單,因為把所有的數據完全堆砌在一起,這對分析是毫無益處的。

為了讓你真正理解你的業務、客戶和收入,你需要把數據細分,需要把數據按照不同類別去細分分析,無細分,毋寧死 :p

為了讓自己分析出可行的洞察,你需要從看宏觀的數據到聚焦細分的微觀數據。

現在核心的元素都介紹完了,包括度量、KPIs、維度、自定義報告和高級細分。這部分已經沒有其他要添加的內容了,在數據分析生態里其他的元素都是圍繞著這五個核心元素的。

Step2 數據分析生態:數據分析的數據輸入

數據輸入分三個階段,讓我們從下圖的左側開始吧。

正如上文提到的,要將度量設定為KPIs(當然還要關注度量和高級細分),你需要很清楚你的業務優先順序,這部分很好理解。

要知道業務的優先順序,你需要從你能接觸到的公司的最高領導那獲取相應的信息。你可以聯繫你的CMO或者CEO,這是值得去做的。很多的數據分析結果都會石沉大海,因為很多分析師都會痴迷於他們所感興趣的分析結果,而不是老闆們所關心的內容。不要犯這樣的錯誤。

接下來讓大家看一些真正有意思的內容,不管你的業務有多大。

接下來的數據投入是你的競爭現狀相關的數據。關注那些你知道或者不知道的競爭對手,剛開始的時候可以通過問你的CMO或者CEO:我們的競爭對手是誰,是誰讓你們徹夜難眠?然後去Google(或者Yandex、Baidu和Seznam)輸入和你業務相關的關鍵詞,看看自然搜索和付費搜索結果,不管你喜不喜歡,這些就是你的競爭對手。

研究一下他們的優勢在哪裡?他們在哪些地方和你做的不一樣(不管是比你好的還是比你差的)?他們的流量從哪裡獲取?他們的訪客的趨勢是什麼樣的?這些競爭情報分析都是絕對重要的數據投入,因為這樣可以確保你的業務優先順序是更加合理的。你設定正確的KPIs和高級細分,這直接決定了你要如何設置你的自定義報告。

競爭情報分析不需要每天都做,但是下圖左側最底下部分的投入將會是新機會分析方面的內容。

新的機會將會讓你的業務有完全不同的發展方向。最起碼這將會在戰術和戰略上很大程度地影響你的分析。做好準備,主動地挖掘並找出答案,讓自己成為一個更優秀的數據分析師。

以上就是左側三個部分的內容。

接下來,在頂部和底部將放上你想看到的核心內容。

分析師/大腦(Analysts/Big Brains)放在頂部。

工具放在底部。把工具放在底部不是因為工具不重要,僅僅是放在底部而已。

回到2006年5月,當時我創立了10/90法則,工具做作用就是要比分析師的作用小一些。大家不要對這個結論覺得驚訝。

這裡補充一下10/90法則:如果你有100美元將要投入到數據里,聰明的做法是將10美元投入到工具和部署諮詢上,另外的90美元要投入到分析師(或者大腦)上。

不管你的數據有多少,不管你的工具有多強大,如果你離10/90法則太遙遠,那一切關於大數據的承諾都是不會實現的。

人很重要,聰明的人更重要。工具只是用來輔助他們的,千萬不要本末倒置。

以上是這個圖片完整的三個部分。你可能會擔心到目前為止你只看到投入,是的,一點都沒錯,但是這會給我們之後的工作帶來大量優質的原材料。

Step3 數據分析生態:數據分析的價值輸出

不管我們想輸出多少,第一批要輸出的就是清洗後的數據(譯者註:很多數據會受污染,需要清洗數據才能排除臟數據的干擾)。

輸出清洗後的數據是自然進化的一部分,當你擁有數據的時候你會非常興奮,你迫不及待的想要一吐為快。很多人可能沒有見過數據,所以當他們見到跳出率或者目標路徑報告(Reverse Goal Path )的時候會非常興奮。

你要迅速克制這種興奮的心情,並且你的公司要迅速跟上你的節奏,如果公司只是讓你製作更多的報告,並不過問你更多的洞察,這很有可能是你進入一家不好的公司或者職業生涯出現問題。

通常只要一兩個月,人們就能意識到這些沒有處理過的數據是沒有用的,然後轉向去問你要他們需要的其他有用的數據,這是一個很好的信號,接下來讓我們進入自定義可用數據(CDPs)階段。

這是一個很棒的階段。付費搜索廣告(SEM)團隊會找你要數據,內容製作團隊會找你要頁面價值方面的數據,著陸頁優化團隊會找你要關於網站或者APP的周期性報告,等等。

他們會向你要些沒用的指標數據,即使這樣,他們還會一直要數據。好了,那麼你怎麼才能給他們一些真正有用的數據?

你想讓他們知道他們並不是分析師,他們不懂得如何為數據做細分分析,他們不懂得去深入分析找本質原因,他們更不懂得如何創建自定義分析需求去解決一些很難的問題。但是他們會很快的解決這些問題,給他們幾個月時間就夠了。

在這個輸出階段,最後一部分是:洞察、行動和業務影響。

如果公司開始要你輸出這些東西時,你的目的就達到了。

洞察(Insights)是數據的產物。最常見的就是「數據顯示X現象,當我們深入分析之後,找到了Y和Z兩個原因。」大多數分析師到這就沒有繼續深挖了,因為這是他們在所有圖標中能夠看到的東西,但是要想進一步提升,你必須再次深挖造成Y和Z的原因是什麼。

行動(Action)是商業很重要的一個環節。最常見的業務情形是「這個列表上的關鍵詞在搜索引擎廣告上要有3倍的投入」「要關注佛羅里達的A、B、C三個產品和阿姆斯特丹的Z產品」「因為X原因,我們要對視頻廣告進行投入」等等。行動是商業中很特別的事情,你作為分析師必須要確保有這樣的見解並提出來,而不僅僅做一個撰寫報告的人。

最後是業務影響(Business Impact)的評估,這主要在於你的公司採取了行動後將會給公司帶來哪些影響。最常見的場景是「對這列表上的關鍵詞在搜索引擎上投入三倍以後會給我們每周增加89.3萬美元的收益」「關注特定地區的特定商品將會增加657%的利潤」

以上就是整個圖片的所有內容了。

看起來沒那麼複雜吧。五個核心元素和周圍相應的輸入和輸出。

如果你是一個領導角色或者想成為領導角色,接下去兩個部分會非常有價值。接下去將會看到如果你要執行制定好的戰略,你要走哪些階段,並且要清楚,為了獲得成功哪些團隊應該放在這個生態系統中的哪個部分。

Step4 數據分析生態:分析師的三個成長階段

很多人進入數據分析領域總想做些變革,但是失敗了。在網站分析方面,只要做改革就夠了。一個改革性質的戰略是無法讓公司一夜間突然變強大,但是它能使每個人都能更好地在一起共事。

我喜歡這樣的做事方式,做一件自己認可的事,做到極致,然後帶動你身邊的人一起把事情做到極致,接著一直傳遞下去。

如果你只是一個數據分析領域的菜鳥,你會發現你最好的做法就是將戰略執行下去。如果你的公司沒有做的很好,你需要指出為什麼事情會這麼混亂或者你為什麼沒有取得更多的進展。

這個階段,你做任何執行對於公司、個人能力等都是微不足道的,但是我將會從我多年的工作經驗中告訴你一些在剛接觸這個行業時該怎麼做會獲得最大的收穫。

我相信大部分人經歷以下三個階段就能夠做的很出色了。

階段一:全部都是關於獲取數據。首先部署工具並確定第一批要監測的度量,這樣有助於讓你去理解公司業務的優先順序。

這樣可以讓我們及時完成KPIs和維度的設定。好了,第一步到第五步就是你上面所介紹的。

階段二:全部關於數據報告。此階段從輸出沒有經過任何處理的數據開始,這將幫助公司意識到很多事是工具做不到的,從而讓公司趕緊給分析師更多的投資。請記住要給分析師更多的回報,因為如果你扔出去的是花生,你只能招來猴子。

接下來我們很順理成章的進入到自定義報告和CDPs(沒有經過任何處理的數據),這個階段的最後一步是高級細分。

接下去的這個階段是很少人能夠到達的。

階段三:全是有關於對數據分析領域有顛覆性的事情。

這個階段從識別洞察開始。然後作為行動,試著發一封郵件並用英語描述重要的部分,包括數據要表達的意思以及這樣做的原因。接下來轉移到競爭情報部分,這部分內容將會對我們造成很大的影響,甚至會影響到我們的公司戰略和數據分析。

估算每個行動對業務產生的影響是非常艱巨的。你必須要很擅長預測性的分析,並且要能夠和其他團隊溝通,包括財務部門,了解業務趨勢。最後你只需要弄清楚整個實施的過程,然後評估新的商業機會並將其轉化為價值。

好了,總結一下,第一個階段是培養自己熟練掌握獲取數據的能力;第二個階段就是鍛煉自己做數據報告的能力;第三個階段是數據分析能力的培養。

Step5 數據分析生態:各階段的時間成本

做這些事需要多長時間雖然取決於你自身的很多因素,那請允許我分享一些我這些年工作中積累的經驗。

如果你現在才開始接觸數據分析,那你需要花費6個月的時間才能完成階段一。這包括分析工具的部署等問題(你不需要掌握所有工具的部署)。

第二個階段將要花費6-12個月。此時你的領導團隊也在評估你的工作,他們會給你更多的錢去購買工具,然後制定更合理的戰略。

第三個階段是無止境的,但是這也至少需要花費9-12個月讓你掌握這個階段的技能,這樣你就可以達到一個能夠為公司創造獨特價值的高度了。

第三個階段是你不斷進步的過程,你只會越來越優秀。

我希望這篇博文能幫你認識到整個數據分析的生態系統,讓你知道每個階段要做的事情以及所要花費的時間。

還有很多的事情要做,比如努力工作並堅持下去。

文章主要內容介紹到這了。

現在輪到你了,如果有需要討論的,可以聯繫我。

Wechat:305434975


  • 全球資源為我所用

站在國際視角,大數據是所有中國學生的一個機會。大數據技術仍然在發展初期,中國和歐美髮達國家站在了同一起跑線。根據聯合國的學業能力測試,中國學生的數學基礎教育是全球領先的,而且中國的理工科學生佔到了總數的50%,遠超出美國的20%。中國人口眾多,移動互聯網的普及也使得數據存量迅速增長。人才儲備和數據儲備,為中國發展大數據行業奠定了最重要的基礎。大數據行業剛剛起步,不僅有著廣闊的職業發展空間,而且人才缺口巨大,正在從各個行業吸納人才。無論是什麼專業背景、職業經歷,只要堅定個人轉型升級的信念,就能抓住大數據時代的機遇。

教育是一個人最重要的投資,其價值在技術變革的時代更加凸顯。旺盛的需求使得教育成本迅速增長,對於很多家庭,教育已經成為了房產之外最大的負擔。而我們在此前的報告也指出,隨著高校和企業的差距被技術變革迅速拉大,高校所提供的知識和技能已經難以適應生產力要求。大數據時代的轉型升級,前提就是要跟上生產力升級的步伐,充分利用互聯網的力量。 大數據生長在互聯網的土壤之上,數據通過互聯網採集,通過雲計算得到處理,而大數據分析所要教育資源和軟體工具,幾乎全都都能通過互聯網獲得。

教育作為文化產品,其價格和價值之間並沒有必然關係。在傳統課堂中投入過多的資金和時間,並不是最明智的選擇。互聯網教育的發展,讓價值巨大的優秀教育也已成為免費的服務。在Edx、Coursera這些在線教育平台上,全球範圍內最優秀的教育資源,已經免費開放給了全世界的用戶,許多大數據領域的國際專家都在這些平台上開設了免費的學習課程。

優質、免費的教育是互聯網給所有青年的禮物,而大數據領域最前沿的技術,也向所有人免費開源。只要掌握了使用方法,每個人都可以運用Hadoop搭建數據儲存和計算平台,用R語言進行數據建模和可視化分析。免費的大數據工具功能強大而且性能穩定,在Facebook和IBM這類頂尖企業也被廣泛運用。 分析工具的免費,使得每個人都有了學習和運用大數據技術的機會。大數據工具的迅速普及,車多司機少,駕馭工具的人才就出現了嚴重的供不應求。

吸收大數據分析的知識,應用大數據分析的工具,是實現數據化升級的必要條件。掌握大數據的知識和工具雖然有著很高的學習門檻,但是獲取大數據的教育資源和分析工具的門檻卻已經完全消失。

  • 在實踐中贏取持久戰

大數據包含了很多領域的知識和技能,數學、統計、計算機是基礎,行業經驗、背景知識也必不可少。龐大的知識體量,使得大數據的學習成為了一場持久戰。按部就班地學習教科書中的理論,對於大多數人來說並不現實。理論的討論是可以無限延伸的,面對龐雜的技術理論和漫長的學習周期,很少有人能夠堅持下來,這也是數據人才長期緊缺的原因之一

真正可行的方式,是小處著手,循序漸進,在實踐中學習理論。實踐問題有著具體的場景,理解的成本更低,學習的目標也更明確,從而更容易堅持下去。麻雀雖小,五臟俱全,許多大數據項目的技術相對簡單,卻蘊含著很大的價值。比如銀行業廣泛應用的信貸風險模型,採用了基礎的回歸模型,大幅降低了銀行壞賬和經濟損失。學習大數據,不妨選定一個感興趣的職業方向,在實踐項目中磨練技能,理解理論。在階段性的成果中,不斷獲得成長的動力,在良好的心態中贏取這場持久戰。

只要用數據思維看問題,實踐大數據技術的機會其實很多。阿里巴巴的首席數據官,車品覺先生就給出一個精彩而樸實的例子。他看到屬於個人的信息資料,已經遠遠超出了人們的記憶負荷,於是運用大數據的思想,在「印象筆記」中把自己所有的重要資料都進行了系統化地標記和檢索,大幅度提高了工作的效率。 信息化的時代,利用數據創造價值的機會越來越多 ,而通過實踐內化數據化的思維和技能,我們才能真正抓住這樣的機會。我們能用從學會用大數據管理個人數據開始,到Kaggle這樣的平台中參與大數據分析比賽開始,在項目團隊中學習知識,實踐技能。

  • 大數據時代的合作精神

要想做好大數據分析,除了知識和經驗,還要有充分的合作精神。大數據是信息技術和數理理論的大融合,沒有人能解決全部的問題。在企業和學術界,一個典型的大數據分析項目,需要各方面的專業人士的通力合作,包括擅長統計理論的數據科學家,搭建計算平台的數據工程師,經驗豐富的行業專家和數據分析師,以及負責數據可視化的設計師。計算機、管理、設計、數學、統計等各個專業的同學,都能夠在大數據項目中,找到屬於自己的獨特位置。 在大數據分析項目,每一個同學的專業技能不僅僅停留在腦海中,而是在各個專業的同伴幫助下,轉化成有實際價值的作品。

我們的高校仍然沿襲著工業化的組織結構,不同知識背景的同學被專業和學院割裂開來,身邊的朋友和自己的背景都十分類似。要想開始大數據的實踐,就必須找到目標一致、又技能互補的合作夥伴。可是怎樣找到一群可以共事的合作者?首先可以加入學校的數學建模社團、數據分析協會,這裡往往聚集了全校數學基礎最紮實的同學。我們也可以尋找有特定技能和背景的同學,組成優勢互補的項目團隊,一起參加大數據分析的比賽。

真正的機會往往是以挑戰的形式出現,大數據帶來的職業挑戰背後,正是絕佳的發展機會。大數據技術要求的數學基礎和編程技能,確實有著很高的學習門檻,然而優質的教育資源、開源的數據分析工具、合作實踐平台,也讓我們擁有了駕馭大數據,實現大價值的機會。 是留在門檻之下,做一個隨時可能被技術替代的舊青年,還是在實踐積累中跨越門檻,成為掌控技術能量的新青年,選擇在我們自己手中。


多讀,多想,多嘗試。

書籍的話推薦「誰說菜鳥不會數據分析」,「Web Analytics An Hour a Day 」, 和
"Web Analytics 2.0 The Art of Online Accountability and Science of Customer Centricity
".
前一本是中國人寫的,大部分內容圍繞著excel數據分析和使用技巧來寫的,而且並不是專門針對互聯網數據分析的,只適合入門。
強烈推薦後兩本,作者絕對的大師級水平,完全針對互聯網行業寫的,主要工具是GA,不過由於書籍的翻譯水平不是很好,建議英語可以的話直接讀英文版。


這個問題,很多優秀的答主都已經給出了自己的深刻見解,也已經推送了不少優秀而經典的數據分析書籍。這裡再補充幾本新書給諸位。


1.數據科學家養成手冊 (豆瓣)

這是一本結構和思路比較新穎的書籍,與現在市場上大多數的數據相關的書不同——它更為側重於思維方式和思路在落地中的滲透,而非單純強調演算法或數學。

作者高揚,2010年後一直專註於資料庫、大數據、數據挖掘、機器學習、人工智慧等相關領域的研究。曾在金山軟體西山居任大數據架構師,負責大數據平台構架與搭建。現任歡聚時代資深大數據專家,負責大數據、深度學習等基礎技術與理論研究和實際產品的結合。

最重要的是,這本書可以讓你——

通過歸納的方法總結出數據科學的性質與應用特點,再通過分化逐步認識數據科學的分支領域和各自的局限性。

書中講解的在一個完整的大數據生命周期各個階段數據科學可以發揮的作用,對於整個數據科學應用的梳理工作非常有幫助。


這本書適合於軟體工程師、大數據架構師、開發架構師、數據科學研究人員、市場人員等人員閱讀。具備大專以上數學水平的讀者,尤其是懂得統計學、高等數學的讀者讀起本書來會更為得心應手。


2.數據化運營速成手冊 (豆瓣)

一位熱愛數據分析工作的年輕人寫了一本名為《數據化運營速成手冊》的書,雖然學習沒有捷徑,但是作者希望通過這本有溫度的書,不遵從教科書的邏輯,從實際應用出發,不斷回顧、提煉、打磨自己的工作場景,盡所能融合統計科學、商業思維、視覺工具等多領域知識,感知和挖掘數據的價值,盡量幫助大家提高學習效率,入門數據科學家!


3.大數據時代小數據分析 (豆瓣)

在人人都說大數據的時代,至少需要懂得基本的數據分析。大數據是團隊制勝,我們可以先從小數據分析入門開始。

這本書從數據分析職場新人的角度,以對話的形式將統計分析的一些生澀難懂的內容以易懂的方式進行講述,並結合軟體操作,將數據分析的方法層層解析出來。

這本書適合數據分析入門者、對數據分析感興趣者閱讀,讀者具備初級統計學知識即可。


本貼持續更新中……

--------------------------------------------------分割線--------------------------------------------------------------------

博文視點(Broadview)在IT出版領域打磨多年,以敏銳眼光、獨特視角密切關注技術發展趨勢,致力於將技術大師之科學思想、一線專家之實戰經驗集結成書,為眾多愛學習的小夥伴奉獻精誠佳作,助力個人、團隊成長。

關注微信公眾號:博文視點Broadview,獲取人工智慧、數據分析等領域最新學習資源。


數據分析從業人員來說說。
首先我覺得你要有個正確的認識和態度。數據分析不單單是一門學問,更多的是一門技術(數據分析哪家強?)既然是技術了,那就不存在學完的問題,必須持之以恆的學習。態度首先是要好的。尤其是當今社會,互聯網發展迅速,大數據時代的到來,數據分析雖然是成為了非常熱門的行業,但是想學好並不那麼容易。(阿貓阿狗都可以說自己是從業者)而且數據分析是非常非常累的,要求思維跟得上,技術還得過硬,收入還真不一定有多高。(金融分析師什麼的請自行繞道)所以支撐你的動力更多的是對數據的熱愛,和對這個事業的喜歡。(說的很裝,但實際就是這樣。我做數據分析時候的滿足感是支撐我進行這份事業的最大動力)

態度有了,接下來自然是硬的乾貨了。那就是技術。基礎的像題主所說的什麼編程啊,C++啊這都不提了,這都是門檻,必備的,沒有不行。那接下來就說說除了這些必備的,對於一個數據分析人員來說,最重要的技能都有什麼。
1.要有極強的、對於數據的敏感性
大數據都已經被人說爛了,什麼意義概念之類的blablabla自己去查吧。總之數據會越來越多,有用的也會越來越多,自然冗餘也會越來越大。(有人說了,你這不廢話么)那我們看下,就以微博營銷為例,為什麼那些所謂的公眾人士,尤其是段子手或者是娛樂博主,能夠實現盈利,甚至是大規模的盈利。原因就在於他們對於信息的把握上。前面已經說了,好信息多了冗餘多了,在這種情況下,如何把握住好的信息,並第一時間得到,然後加以分析,就非常非常非常的重要了。所以,作為數據分析人員,敏感的把握住重要的信息,第一時間得到他們,用相應的方法分析,得出結論發布,是工作的重要環節。無論你是企業單位傳統的數據從業者,還是大數據時代新興行業的工作人員,這個流程都適用且非常的關鍵。

2.要有良好的技術功底,同時有很好的學習能力
我想100%的數據分析從業人員都會SPSS等數據分析軟體,也都能學會ucinet等與數據分析相關的其他學科的數據應用軟體。那為什麼有的人、利用相同的數據、操縱相同的軟體,能夠得出比你準確而又有用的分析結果呢?我想,對於數據軟體的把握程度就是其中的原因。作為在應試教育體系成長起來的我們(海龜等請自行繞道),沒有自主學習能力是我們想取得進步的最大制約。以office辦公組件中的excel這個最簡單的數據分析軟體來說,其實可以實現大部分的數據分析功能。可是我們對於它的利用僅限於打字和做表,以至於很多人認為excel只有這些功能。我很欣慰很多的地方比如知乎經常出現那些辦公組件深化應用的課程或是講解。在否定某些東西的同時,首先應當具有能否定它的能力。不要刻意的去追求多難多難(別人口中)的數據分析軟體。掌握好其中的幾個就足夠了。
除此之外一定要有持續的學習能力。就拿SPSS18.0和19.0舉例來說。其間的差距非常大,功能菜單視圖的變化也不是一星半點的。所以千萬不能吃老本,一定要隨著時代的進步和變化進行相應的學習。墨守陳規的使用軟體只能意味著你被淘汰。

3.要有極強的數據意識
前面提到的技術其實很好學,態度端正也不是什麼難事,真正難的就在這裡,那就是數據意識。甚至說大了,有的時候這裡面就是天賦。有的人看了一組數據,就能想出其中某些數據和其他數據的關聯,就能聯想到其他的事情;有些人看了某組數據,就能想像出其可視化圖所反映出的趨勢。所以天賦達不到怎麼辦?沒錯,我想你也猜出來了,就是多做。一個老數據分析師就基本能做到看數據,知圖表。這並不意味著他們的天賦有多強,純粹就是多做的結果。數據分析這個行業要的就是量的積累,當然你說你有很強的天賦,那就另當別論了。

最後還有提一點,既然是數據分析,千萬不能忘了數學在其中的重要作用。數學作為數據之本,是絕對不能在數據分析中捨棄的,換句話說學不好數學的人做不好數據分析。這裡面的數學絕非我們課堂中那種學習,為了成績的那種,而是一種能力。


推薦閱讀:

機器學習里的 kernel 是指什麼?
零基礎自學如何成為合格的數據挖掘工程師?
意識到了自己沒有辦法成為 top 1% 的程序員,還應該選擇程序員的道路么?
有哪些比較好的機器學習、數據挖掘、計算機視覺的訂閱號、微博或者是論壇?
機器學習(machine learning)在經濟學領域是否有應用前景?

TAG:數據挖掘 | 編程 | 統計學 | 數據分析 | 統計 |