數據分析方法論、流程和框架?

數據分析方法有很多,有沒有一些比較成熟的常用的方法論,即數據分析的套路?另外,數據分析的流程和框架又是怎樣的?


謝邀。

針對題主的問題,接下來我就從兩部分來回答:一是數據分析方法論的建立,二是數據分析的流程框架,最後再給題主提供一份詳盡的數據分析學習書單,以及知乎上建議關注的數據分析領域大神們。

Part 1 | 數據分析方法論 知識體系

一、 數據分析體系:道、術、器

「道」是指價值觀。

要想做好數據分析,首先就要認同數據的意義和價值。一個不認同數據分析、對數據分析的意義缺乏理解的人是很難做好這個工作的。

那麼如何讓數據分析真正發揮價值?

我認為必須在價值認同、工作定位和商業模式三點上取得突破。

(一)數據分析的價值認同

做好數據分析,首先要認同數據的意義和價值。一個不認同數據、對數據分析的意義缺乏理解的人是很難做好這個工作的。

放到一個企業裡面,企業的 CEO 及管理層必須高度重視和理解數據分析的價值。你想一下,如果老闆都不認可數據分析的價值,那麼數據相關的項目在企業裡面還能推得動嗎?然後,企業內部還需要有數據驅動的公司文化。如果大家寧可拍腦袋做決定也不相信數據分析師的建議,那麼數據分析往往是事倍功半、走一下形式而已,反之則是事半功倍。

(二)數據分析的工作定位

做好數據分析,要對數據分析的價值有清楚的定位。既不要神化數據分析,把它當做萬能鑰匙;也不要輕易否定數據分析的意義,棄之不用。數據分析應該對業務有實際的指導意義,而不應該流於形式,淪為單純的 「取數」、「做表」、「寫報告」。

在 LinkedIn 那麼多年的工作時間裡面,我們對數據分析的工作早已有了清晰的定位:利用(大)數據分析為所有職場人員作出迅捷、高質、高效的決策,提供具有指導意義的洞察和可規模化的解決方案。

當時我們還採用了一套 EOI 的分析框架,對不同業務的數據分析價值有明確的定位。針對核心任務、戰略任務和風險任務,我們認為數據分析應該分別起到助力(Empower)、優化(Optimize)、創新(Innovate)的三大作用。

(三)數據分析的商業模式

做好數據分析,要對企業的商業模式非常了解。數據分析的最終目的還是服務於企業的增長目標,所以務必要對行業背景、業務含義、產品和用戶有著深刻的認知。

還是以 LinkedIn 為例,作為企業增長的重要環節,LinkedIn 在產品設計之初就優先考慮到了數據的價值模式。首先是用戶的增長、使用和活躍,然後產生大量的數據,最後根據數據進行業務變現(企業廣告、企業招聘、高級賬號等業務)和用戶增長,從而不斷良性循環。

只有認可分析價值、明確工作定位、深諳商業模式,數據分析才能走在正確的軌道上。

「術」是指正確的方法論。

(一)數據分析的兩個方法論

數據分析應該幫助我們不斷優化營銷、運營、產品、工程,驅動企業和用戶的增長,而不是為了分析而分析。在這裡我給大家介紹兩個方法論,一個是業務上的 AARRR 模型,另一個是分析上的學習引擎。

AARRR 是著名的 Growth Hacker (增長黑客)海盜法則,依序分別是 Acquisition(獲取用戶)、Activation(激發活躍)、Retention(提高留存)、Revenue(增加收入)和 Referral(推薦傳播)的首字母簡稱,覆蓋用戶整個生命周期。

我們在進行數據分析的時候,應該考慮用戶正處於 AARRR 模型的哪個部分、關鍵數據指標是什麼、對應的分析方法又是什麼?

「 學習引擎 」 是《精益創業》一書中提倡的精益化運營方式,在矽谷被大小企業廣泛採納。

當我們有一個想法的時候,可以採用最簡可行化產品(MVP)的方式將其構建(Build)出來。產品上線後,我們需要衡量(Measure)用戶和市場的反應。通過分析收集到的數據,我們可以驗證或者推翻我們之前的想法,從而不斷學習(Learn)和優化。

(二)數據分析的具體方法

數據分析的具體方法有很多,接下來我就選幾種典型的講講。

(1)流量分析

a. 訪問 / 下載來源,搜索詞

網站的訪問來源,App 的下載渠道,以及各搜索引擎的搜索關鍵詞,通過數據分析平台都可以很方便的進行統計和分析,分析平台通過歸因模型判斷流量來源,產品經理在分析這些流量時,只需要用自建或者第三方的數據平台追蹤流量變化即可,第三方平台如 Google Analytics 、GrowingIO 等;

b. 自主投放追蹤

平時我們在微信等外部渠道投放文章、H5 等,許多產品都會很苦惱無法追蹤數據。

分析不同獲客渠道流量的數量和質量,進而優化投放渠道。常見的辦法有 UTM 代碼追蹤,分析新用戶的廣告來源、廣告內容、廣告媒介、廣告項目、廣告名稱和廣告關鍵字。

c. 實時流量分析

實時監測產品的訪問走勢,尤其要關心流量異常值。舉個例子,某互聯網金融平台因為一個產品 Bug 導致用戶瘋狂搶購造成的流量峰值,產品經理髮現實時數據異常後迅速下線該產品修復 Bug,避免了損失擴大。

(2)轉化分析

無論是做網站還是 App,產品裡面有很多地方需要做轉化分析:註冊轉化、購買轉化、激活轉化等等。一般我們藉助漏斗來衡量用戶的轉化過程。

影響轉化率的因素很多,我們總結了三個大的方面:渠道流量、用戶營銷、網站 / APP 體驗。以渠道流量為例,通過優選渠道並且量化分配我們的投放資源,可以有效提升總體的轉化率。

更詳細的轉化分析方法,可以參考我之前的這篇回答 如何提升轉化率? - 張溪夢的回答 。

(3)留存分析

在互聯網行業里,通常我們會通過拉新把客戶引過來,但是經過一段時間可能就會有一部分客戶逐漸流失了。那些留下來的人或者是經常回訪我們公司網站 / App 的人就稱為留存。

在一段時間內,對某個網站 / App 等有過任意行為的用戶,稱之為這個網站 / App 這段時間的活躍用戶,這個任意行為可以是訪問網站、打開 App 等等。

現在大家經常會用到所謂的「日活」 (日活躍用戶量,DAU)、「周活」 (周活躍用戶量,WAU)來監測我們的網站,有的時候會看到我們的「日活」在一段時期內都是逐漸地增加的,以為是非常好的現象,但是如果沒有做留存分析的話,這個結果很可能是一個錯誤。

留存是產品增長的核心,用戶只有留下來,你的產品才能不斷增長。一條留存曲線,如果產品經理不做什麼的話,那麼用戶就慢慢流失了。

這是一個常見的留存曲線,我把它分成了三個部分:第一部分是振蕩期,第二部分是選擇期,第三部分是平穩期。

從產品設計的角度出發,找到觸發留存的關鍵行為,幫助用戶儘快找到產品留存的關鍵節點。之前我們發現我們產品裡面,使用過「新建」功能用戶的留存度非常高;於是我們做了產品改進,將「新建」按鈕置於首頁頂部刺激用戶使用,效果非常好。

矽谷流行的 Magic Number(魔法數字)也是留存分析的一部分,比如 Facebook 發現「在第一周里加 10 個好友」的新用戶留存度非常高。作為產品經理,我們也需要通過數據分析來不斷探索我們產品裡面的魔法數字,不斷提高用戶留存度和活躍度。

更詳細的留存分析方法,可以參考這篇文章 你能找到的最深入的留存分析文章 - 留存 · 增長 · Magic Number 。

(4)可視化分析

用戶體驗,是一個非常抽象的概念,我們可以對其進行形象化。目前一個普遍的方法就是對用戶的數據進行可視化,以熱圖的形式呈現。

藉助熱圖,產品經理可以非常直觀了解用戶在產品上的點擊偏好,檢驗我們的產品設計或者布局是否合理。

熱圖的概念、原理、類型和應用,可以參考這個回答 熱力圖是什麼原理? - 張溪夢的回答 。

(5)群組分析 挖掘用戶需求、改進及優化產品

千人千面,產品經理對用戶精細化的分析必不可少。不同區域、不同來源、不同平台甚至不同手機型號的用戶,他們對產品的使用和感知都可能存在巨大的差異。產品經理可以對不同屬性的用戶進行分群,觀察不同群組用戶的行為差異,進而優化產品。

之前我們做過一次分析,網站的總體註冊轉化率是 6%;但是使用 Chrome 瀏覽器的新用戶註冊轉化率高達 12%,使用 IE 瀏覽器的新用戶註冊轉化率才 1%。這樣一分的話,問題就很明顯了,極有可能是瀏覽器兼容性的問題,產品經理應該關注一下這個問題。

詳細的群組分析操作流程,可以參考這個回答 產品經理一般是怎麼搜集產品不好用之處的? - 張溪夢的回答 。

懂得每一種方法的原理是一回事,在業務中靈活應用又是另外一回事。以產品經理為例,可以把「用戶行為 - 數據分析 -產品設計優化 」三位歸於一體,在不斷的實踐應用中掌握各種分析方法的精髓和要義。

因為數據來源於用戶,數據分析的最終目的也是服務於企業和用戶。做數據分析之前,一定要清晰業務目的和數據指標,選擇科學的分析方法,用數據來指導產品和用戶增長。

「器」則是指數據分析工具。

「 大數據、大數據,最重要的就是數據。但數據在哪裡呢?現在最缺乏的,是統一的數據採集平台!」這是很久之前我接受採訪時的觀點,現在仍是如此!

(一)為什麼工具那麼重要?

在我創立 GrowingIO 的時候被投資人拉進一個交流群,群裡面是矽谷各種創業公司的 CEO。我發現群裡面討論的東西很有趣,就兩件事情:一個是創業增長的方法論,另外一個就是討論各種工具。「 工欲善其事,必先利其器 」 說的就是這個道理,古今中外概莫如此!

很久之前我就跟人談起過這個問題,整個數據框架下面的部分可能花費了你 80% 的時間和精力,但是產生了不到 20% 的價值。大家都在搭建數據採集平台、都在寫代碼埋點、都在做 ETL、都在建 BI 系統,哪裡還有更多的時間和人力來做 Analytics 和 Insight 。

以前我在 eBay、LinkedIn 工作的時候,市面上沒有好的數據分析工具,我們不得不自己去部署很多的系統、建立很多的機制,甚至僱傭三四個團隊去做一件事。今天市面上有很多好的工具來幫助我們進行數據分析,為了節省時間、資源(特別是成長型企業),大家完全沒有必要內部建造一套分析系統,應該擅用好的工具來幫助自己做數據分析。

(二)選擇合適的分析工具

選擇什麼樣的分析工具,跟你的工作崗位、分析場景息息相關。每種場景都有若干種工具可以選擇,有些工具也可以用於多種分析場景,關鍵在於你對工具的熟悉和理解。

Excel 絕對是最基本、最常見的數據分析工具了,對於數據量較小的情況,無論是數據處理、數據可視化還是一些統計分析都能支持。一旦數據量大了,這個時候就需要大型的資料庫來支持。

市場營銷人員需要對廣告投放進行數據分析,網站流量監測是他們關注的重點。產品和運營重點關注用戶行為和產品使用,用戶行為數據分析工具是他們的首選。以前大家只關注業務數據,然而這些結果型的數據並不能告訴他們中間發生了什麼、為什麼發生;現在大家越來越關注精細化運營、對用戶行為數據的需求也越來越高,這也是我回國創立 GrowingIO 的原因。

如果你能懂一些 R 和 Python,在數據建模、統計分析、數據科學的方向上有所發展,那麼你的數據分析水平就更上一層樓了。

Part 2 | 數據分析的框架

在整個數據分析框架中,用戶是數據的來源,也是數據分析最終要服務的對象。整個分析框架可以分為四大層次,依次是:數據規劃、數據採集、數據分析和數據決策。從用戶、業務系統,到數據採集平台、ETL、數據倉庫, 再到分析、BI、DM、AI、洞察,再到決策、行為、價值,最終回到用戶。

上面整個分析框架中,越底層的佔用的時間和精力越多,而頂層的耗時較少。從產生的價值來看,越底層的產生的價值越低,越頂層的產生的價值越高。大家想一下就會理解,做數據分析的過程大多時間是耗費在數據採集、清理、轉換等臟活累活上面,最有價值的分析和決策部分往往耗時很少。

因此,大家做數據分析應該把重心放在最有價值的分析和決策兩個層面上,並且儘可能使用工具實現底層的自動化操作。

Part 3 | 數據分析知識學習

從入門到精通:互聯網數據分析的書籍清單!

任何一個技能的學習,都有從淺到深的過程,數據分析也不例外。因此我把推薦書籍劃分成幾個段位,更便於大家挑選。

1. 入門版

適合對數據分析的入門者,對數據分析沒有整體概念的人,常見於應屆畢業生,經驗尚淺的轉行者。

深入淺出數據分析 (豆瓣):HeadFirst 類的書籍,一向淺顯易懂形象生動,可以對分析概念有個全面的認知。

誰說菜鳥不會數據分析 (豆瓣):不僅講解了一些常見的分析技巧,並附帶 Excel 的一些知識以及數據分析在公司中所處的位置,對職場了解亦有一定幫助。

赤裸裸的統計學 (豆瓣):作者年輕時是個追求學習意義的學霸,後來自己從統計學中發掘了很多可以應用到生活的地方。這也是本書的主旨,結合生活講解統計知識,生動有趣。可以避免統計學一上來就大講貝葉斯概率和隨機分析的枯燥。

同樣類似的書籍還有「統計數字會撒謊 (豆瓣)」,這本書知名度要高點,不過我還沒看…

2. 進階版

具有一定的行業針對性,要求具備一定的分析常識,適合網站分析師,商業分析師以及數據產品經理。

精通 Web Analytics 2.0 (豆瓣):此書雖老,但其中很多思想和流量分析的案例仍然很有借鑒意義,現在紙質書只能上淘寶買舊書了。

與此類似的有「網站分析實戰 (豆瓣)」,是國內一本講網站分析的書,沒有上面經典,但勝在新出,很多案例和理念都有及時的更新。

深入淺出統計學 (豆瓣):Headfirst 類書籍,可以幫助你快速了解統計方面的知識。

數據化管理:洞悉零售及電子商務運營 (豆瓣):黃成明著,講解在企業中應用數據的例子,讀完受益匪淺,裡面舉的很多例子都很接地氣。雖說偏向於零售業管理,但大道歸一,可適用於很多行業,當時依據裡面的理念規划了美團外賣面向 BD 的數據產品。

MySQL 必知必會 (豆瓣):這本也是我當年學習 SQL 的入門書,薄冊子一本,看起來很快。SQL 是個性價比很高的技能,簡單而強大。任何想進一步提高自己數據分析技能的產品/運營/分析師 同學,都建議點亮 這個技能點。

增長黑客手冊 | 如何用數據驅動爆髮式增長:我司 GrowingIO 2017 年第 1 期電子書,(封面和目錄見下圖),我們一直在做互聯網行業數據分析知識的普及,目前我們已經做了 4 本電子書,以及 24 期「GrowingIO 數據分析公開課」,面向產品經理、運營等等。這本增長黑客手冊是關於增長黑客的普及和養成手冊,簡單易讀,結合多個實戰案例,非常適合新手。

免費下載傳送門

3. 高階版

更高階的數據相對來說專業性較強了,如涉及到企業內部數據治理,數據結合的業務分析,數據可視化等。當然,還有數據挖掘演算法之類的更深入的東西,這塊沒有研究就不瞎推薦了。

決戰大數據 (豆瓣):阿里巴巴前數據副總裁車品覺老師所著,講解了阿里巴巴在企業內部治理數據過程中的心得,所講「存-通-用」數據管理三板斧和「從數據化運營到運營數據」,字字珠璣,可堪借鑒。

精益數據分析 (豆瓣):此書優勢在於將企業分成了幾個大的行業類別,並分門別類的講解了每個行業的商業模式特點及分析技巧,對使用者的分析能力要求較高,且必須具備相應的業務知識。

The Wall Street Journal Guide to Information Graphics (豆瓣),華爾街日報負責商業分析的人做的可視化指南,精華且實用,我之前在公眾號上寫過讀書筆記「華爾街日報是這樣做數據可視化的(1)」,可供大家參考。

《數據倉庫經典教程》:網上有人整理出來的資料,優點是簡單明了,不像正常的數據倉庫教材厚厚一本。

4. 推薦關注

在知乎上有不少數據分析及 Growth 的大牛,在這裡推薦幾位我熟悉的,經常會寫一些相關的文章:

@覃超,前 Facebook 早期工程師,關於增長黑客寫了許多優秀的文章;

@鄒昕,Facebook 用戶增長數據分析,在數據分析方面很有見解;

@范冰XDash,「增長黑客」和「增長黑客實戰」作者,人非常有趣,同時也非常推薦「增長黑客」以及「增長黑客實戰」兩本書;

@空白白白白 ,數據分析界的清新美女,很多高票答案都非常接地氣,可讀性很強

@路人甲 ,數據分析小王子,擅長用數據分析講故事

@何明科,專註於數據和互聯網產品,許多回答很值得細看。

| 結語

數據分析是一門多學科、多領域的交叉學問,涉及到的東西非常多。要想做好數據分析,應該有一套完整的思維體系,在價值觀、方法論和工具三個層面上儲備相關知識。同時立足於產品和用戶,用數據來打磨產品,用數據來檢驗迭代,不斷提升用戶體驗。

註:本文中所有數據分析產品功能均來自 GrowingIO 官網 矽谷新一代數據分析產品 。

我們最近還發布了行業和崗位解決方案,包括互聯網金融、在線旅遊和企業服務,以及產品、運營市場、管理者三個崗位的定製化用戶行為分析解決方案。

歡迎各位有用戶行為數據分析需求的朋友免費試用。

試用傳送門


站在更大卻更為實際的角度講一下吧。

這裡要講的分析可能並不是某一個細小的事件,更多的是站在一項業務上去考慮,流程和工作量都要更為龐雜些。

數據分析的方法論

講方法論之前,先思考什麼情況需要數據分析?通常情況下是當領導或者自己發現某個問題,比如這一陣銷售額低迷,存貨量居高不下,客戶流失率只增不減……這樣的一個一個問題,可以稱之為「點」。於是,第一時間對比自己的目標,這個月的銷售額是要達到多少多少萬,但是目前的問題是完全不符合自己的KPI的,所以會促使你去分析原因,找到解決的措施。問題與目標對接,兩點成為一「線」。撇開流程,在業務外,是否有外部因素影響到了數據,這也是需要考慮的,一條直線和直線外一點,構成「面」,這裡就強調分析問題要全面。多面成體,如果說能夠考慮到影響目標結果的各個因素點,那麼體則是從多面角度出發,能夠從「旁觀者」的角度看待整個分析「體」,更多的是強調全局觀。

以上就是針對實際業務的一個分析方法論,要形成體,一方面要梳理組織架構,讓數據在各個環節流程上流通起來,另一方面則需要一套行之有效的方法體系,指導日常的運營分析,而這個方法論就是我要提出的「點、線、面、體,四位一體方法論」。

點,這裡是指業務上的痛點或high點,進一步可理解為業務發展異常點或進階發展點,未來業務拓展關鍵點和BOSS關注點等。在數據上則體現為業務發展趨勢中的波峰、波谷和數據離散點。

點是我們在數據運營中首先要關注的地方,是整個數據運營分析中的起點和基礎點,也是「點、線、面、體」四位一體方法論中最基礎的元素,是整個數據運營進程的擴展點。例如我們平時在網站或APP分析過程中,發現某一天的訪客數明顯低於正常水平,那麼是什麼原因導致這個異常點出現呢?又比如當月的銷售量,某日的銷售量明顯低於其他什麼原因引起的?此時的這個點就是我們數據運營的切入點。

點的發現關鍵在於數據的統計整理,形成規範,找出規律和切入點。比如我關注流量這一指標,通過可視化分析工具將各時段的流量數據抽取出來,前端做成一個dashboard界面,利用時間和查詢控制項供自助查詢。

兩點成一線,推己及人,將業務中的異常點和我們日常運營目標有效的結合起來,就能形成一條清晰的數據運營分析線。除此之外,在數據運營數據積累過程中,隨著時間的推進,也能形成一條它自己的「時間序列曲線」,進而在分析過程中實現數據的時間價值。線的分析是實現數據與數據關聯的過程,是看趨勢的過程,是實現數據的時間價值與串聯識別價值的過程。

另一方面,線的分析是維度分析的基礎,思考問題的開始,這個過程有如數據在資料庫中實現上下鑽取、OLAP分析的過程。理解線的分析,一方面通過對運營目標的分析,來反思影響這一目標的各指標權重影響,簡單點說,哪個因素髮生變化會對銷售量產生巨大影響,那這個指標的權重就越大,需要控制好。另一方面,比如分析流量在某一天下滑對月度銷售額的影響,從流量下滑這一點出發,到對目標結果影響這一點關聯分析的過程。一個是從結果出發分析影響因素,一個是從過程出發預測對關注目標的影響。「線」的分析在數據分析操作上體現在分析模型的建立,各指標的關聯。

面在「直線」分析的基礎上將外部影響因素「點」考慮進來,形成對目標分析更周詳的考慮。面的分析一線與多點的考慮,面比較點和線多的是輻射的影響與考量,是點、線分析整合的基礎上引入了運營場景的考量,並將不同數據運營過程場景化,簡單的講,一個場景就代表一個面。

理解面的分析方法,應從應用場景方面考量,考量各方影響因素。因為「面」,所以有了數據的角色化、場景化。

同樣是銷售的分析,對內受一些列因素影響,比如營銷力度、人員分布。但放到市場環境中也會受到來自同行或者同產業鏈的輻射影響。有些企業會將市場環境因素納入到分析監控中。

多面成體。如果說面是考慮到了影響店與目標結果的各個因素,那麼體則是從多面角度出發,能夠從「旁觀者」的角度看待整個分析「體」,更多的是強調全局觀,是對整個分析體系的認知,是對點、線、面的全面整合,是完成的數據運營體系。

點、線、面、提「四位一體」方法論是一個層層遞進的過程,是對運營業務場景分析從簡單到複雜的過程,從局部到全局的過程,是利用數據運營的思維方法。

業務分析的流程

明確分析目的→梳理業務形成分析思路→搭建分析指標體系→收集數據→處理數據→製作分析模板→可視化管理。

明確分析目的梳理業務

分析要有目的有方向。是對現在面對的某個問題分析,還是梳理整體的業務現狀,抑或是對未來某個指標的預測監控。簡單來講,就是解惑、監控、預測,目的是提效、增益。

明確目的後,需要梳理思路,怎麼梳理?如果是分析近一個月銷售額普遍下降的原因點,就要從下至上,還原整個事情進展的過程。購買環節涉及成交量、客單價和折扣率,然後還要分各類產品;瀏覽環節涉及瀏覽量、PV/UV;用戶維度還有流失率、活躍度、復購率等等,把分析目的分解成若干個不同的分析要點,然後針對每個分析要點確定分析方法和具體分析指標。

搭建分析指標體系

搭建分析指標體系就是分析整個「體」,將分析框架的體系化,明確每個點都是什麼指標,任何一個分析路徑都能對應到指標(當然現實是不會有這麼完美的體系的)。

以電商為例,遵循「人貨場」的思維邏輯。常用的業務分析場景有銷售、商品、渠道、競品、會員等等,而商品可進一步細分為商品的庫存、商品的利潤以及關聯銷售分析。在整個業務分析體系中,確保體系化,即先分析什麼,後分析什麼,使得各個分析點之間具有邏輯聯繫,使分析結果具有說服力。

關於零售行業的指標體系——如何針對業務場景做數據分析?

如何取數?

SQL是最基本的資料庫語言,無論從什麼資料庫、數據倉庫、大數據平台取數,都需要掌握。

Hive和Spark都是基於大數據的,Hive可以將結構化的數據文件映射為一張資料庫表,通過類SQL語句快速實現簡單的MapReduce統計。

清洗和處理數據

原始數據來自於各個業務系統,指標口徑對不上,總會出現不一致、重複、不完整(感興趣的屬性沒有值)、存在錯誤或異常(偏離期望值)的數據。這些都可以通過

數據清洗:去掉雜訊和無關數據

數據集成:將多個數據源中的數據結合起來存放在一個一致的數據存儲中

數據變換:把原始數據轉換成為適合數據挖掘的形式

數據歸約:數據立方體聚集,維歸約,數據壓縮,數值歸約,離散化和概念分層等

製作模板可視化展示

分析模板多用excel或者報表工具。如果業務部分有設立數據分析崗或者集團有特定的數據中心團隊,會通過搭建BI平台來完成針對性的業務分析。

使用常規Excel或者傳統報表工具,可以將做成的圖表貼至PPT中,涉及Excel的高級功能,就需要學習VBA和數據透視表,但Excel適合已經處理好的成品數據。一旦涉及大數據量或頻繁鏈接資料庫,一些帶有介面的數據可視化工具或報表工具就比較適合。

如何才能成為EXCEL數據處理大神?

做分析用什麼工具?不想再用Excel了!

框架沒什麼好說的,弄懂了以上這套,就差不多了!


針對這個問題,我從一個十年大數據人的日常工作實踐、可落地可實施的角度總結歸納分享給大家。(節選自小講「數據分析師-從零入門到精通」)

第一部分:數據分析框架。

為了分析問題的聚焦,我們具體拿互聯網電商來舉例子說明,至於其他的比如互聯網金融、教育、社交等等,可以依此借鑒。

(1)從互聯網實體角度分析。我們可以從以下7個角度構建互聯網數據分析體系。

買家:基本特徵分析、交易行為分析、流量行為分析、售後滿意分析等

賣家:基本特徵分析、經營效果分析、流量曝光分析、售後滿意分析、產品分析等

產品:基本特徵分析、交易行為分析、流量曝光分析、售後滿意分析等

行業:基本特徵分析、經營分析、曝光分析、售後分析、產品分析、買賣家分析等

設備:移動端分析、PC端分析、訪問對象分析、cookie分析、session分析等

日誌:訪問對象URL分析、cookie分析、session分析等

事件:登錄、流量、點擊、曝光、下單、交易、支付、物流、評價、糾紛、仲裁等分析

這個實體分析方法,可以稱得上是萬能的數據分析框架,適用於所有的互聯網企業。我曾工作過的阿里巴巴、騰訊、隨手記等企業,我個人都是按照這個套路去構建互聯網的分析體系。

(2)從用戶的關鍵路徑進行分析。

關鍵路徑分析方法是一個行之有效的常用分析方法,也是做數據化運營的常用工具。關鍵路徑分析讓我們聚焦於核心環節,排除雜音,定位出業務的核心問題,快速的加以解決。在應用關鍵路徑分析時候,我們往往先把可能的結果、以及最關心的結果梳理出來,以結果為導向追溯行為的根本,當然,也可以從行為的初始出發,梳理出所有可能的行為路徑,找出關鍵行為,導向我們最終設計好的結果中去。下面我們舉例子說明下:

在電商網站中,我們假設我們運營目標是讓用戶購買網站上的商品(在這裡,我要插說幾句,我們的目標有時候不只是購買,在精細化運營中,往往會根據用戶的生命周期,確定關鍵路徑的目標,比如對於一個進入期的新買家,我們通常會發一些購物攻略加以指導,針對流失期的買家,關鍵路徑的結果我們可能導向申領我們的優惠劵之類,等等。關於這一部分數據化精細化運營方面,在大數據應用系列的數據化運營小講,我們會詳細加以分享,敬請關注)。剛才談到,我們假設我們運營目標是讓用戶購買網站上的商品,那麼我們可以把關鍵路徑,也即,用戶的購買路徑梳理出來:

a.用戶登錄/註冊》搜索關鍵詞》查看商品詳情》加入購物車》點擊下單》確認付款》確認收貨

b.用戶搜索關鍵詞》類目和店鋪》賣家交流》點擊下單》確認付款》確認收貨

通過這種關鍵路徑,我們還常常進行漏斗分析,從而進行流量的轉化分析,找出影響到達最終結果的關鍵環節。

(3)從KPI拆解角度分析。

KPI拆解分析方法也是比較常見的互聯網分析方法。核心思想是先定一個總體目標,比如今年營收12億,那麼可以把這個指標拆解到各個業務線去,業務線再進行拆分,比如分解為12個月,每個月需要達成營收額,接著,就是達成該營收額,根據流量的轉化情況,估算出需要多少的流量,目前平台已有多少流量,需要外拓引流多少流量才能達成目標,這就可以層層的拆解指標,最終或落地到產品團隊或部分到運營團隊去承擔KPI任務。

第二部分:數據分析常用分析方法

常用的數據分析方法有:PEST分析方法、5W2H分析法、4P營銷分析法、邏輯樹分析法、指標拆分法、對比分析法、漏斗分析法、用戶行為分析法、用戶生命周期分析法、金字塔分析法等等,下面我們逐個的簡單說明下

(1)PEST分析方法

這個方法主要應用於行業研究中。從政治(Political)、經濟(Economic)、社會(Social)、技術(Technical),簡稱PEST角度對一個行業進行比較分析。下面我們舉一個例子:我們小講開始就談到數據分析行業前景,那麼我們在此利用PEST分析下大數據行業前景如何?

(2)5W2H分析法

這個方法主要應用於用戶行為研究和專項問題分析,從時間、地點、人物、事情、原因、方式、價格等7個方面對一個問題進行刻畫研究。請看如下案例二:

(3)4P營銷理論

這個方法主要應用於公司整體經營狀況分析,是比較經典的營銷分析方法。該方法從產品、價格、渠道、促銷等四方面對企業經營狀況進行全面分析。請看如下案例三:

(4)邏輯樹分析法

這個方法也稱作問題樹分析方法,主要應用於針對業務存在的問題進行專題分析,是數據分析方法中非常常見的一種分析方法。請看案例四:

(5)指標拆分法

這個方法也是經常適用的方法,特別是為了達成業務目標,我們往往都會先定一個總的目標,然後再初步的拆解指標。下面我們講講案例五:

(6)對比分析法

對比分析法是非常常用的基礎分析方法,雖然方法特別簡單,但幾乎所有的分析報告中,都會採取對比分析方法。比如去年同期相比、上個月環比、目標和實際達成相比、各個部門和業務線相比、行業內競品比較、營銷效果對比,等等。這裡需要注意的是我們不管是橫向比較還是縱向比較,比較的雙方一定要有可比性,並且在同一個維度、粒度上去比較,要不是毫無意義的。

(7)漏斗分析法

漏斗分析方法經常應用於產品的轉化分析。舉個電商的例子:用戶登錄網站1千萬,瀏覽商品詳情頁200萬,加入購物車80萬,下單支付50萬,支付成功40萬。每一步都是轉化率的問題。針對關鍵路徑進行漏斗分析能夠幫助我們快速的定位到問題所在。從而能夠及時做出決策。

(8)用戶行為理論

也稱用戶的活動周期理論。該分析方法,往往用於對用戶的基礎研究中。用戶行為過程分為認知、熟悉、試用、使用和忠誠5個步驟。

(9)用戶生命周期理論

該分析方法,也往往用於用戶基礎研究中,在互聯網領域應用廣泛。用戶的生命周期分為進入期、成長期、成熟期、衰退期、流失期。每一個階段用戶的行為特徵是不一樣的,其價值是不一樣的,需要精細化的運營。不可急功近利。

(10)金字塔理論

金字塔這個分析方法正好和漏斗分析方法相反,它是基數大,上層小。最初是英國歷史學家、政治學家諾斯科特·帕金森(C.Northcote Parkinson)在《帕金森定律》(Parkinson"s Law)一書中,論述在行政管理中,行政機構會像金字塔一樣不斷增多,行政人員不斷膨脹,每個人都很忙,但組織效率越來越低下。這條定律又被稱為「金字塔上升」現象。後來,人們將這一理論延伸應用,不再只限於本意。大凡是基數大,上層小,符合金字塔特徵的研究分析都可以套用到該理論中。所以,金字塔這幅圖也常常見於各分析報告中。比如,分析用戶群體特徵(馬斯洛需求層次模型、用戶價值模型等等)

綜上所述種種數據分析方法,如果在一份分析報告中,能夠把這些分析方法都靈活反覆體現和應用,那麼,這個分析報告一定會比較豐滿的。

第三部分:數據分析的流程。

數據分析的流程主要分為六步驟,遵循這種方法,一個完整的數據分析項目就出來了。

(1)明確分析目的:我們接到一個分析任務,首先要弄清楚我們分析的對象是什麼,要達成怎樣的目的,不能陷於為了分析而分析。然後,要熟悉行業和業務,透徹的理解分析的目的,構建起分析的角度和體系。

(2)進行數據準備:我們有哪些數據,通過什麼途徑可以獲取到需要的數據,往往涉及到內部數據和外部數據,內部數據常常是我們的業務庫或者基礎數據團隊建立起來的數據倉庫系統,外部數據方面,現在各行各業都有大數據交易源,還有大量的公開市場數據。

(3)進行數據加工處理:主要通過數據清洗工作,對重複值進行去重處理、對異常值錯誤值進行修正或剔除、對缺失值進行填充修正或刪除。如果軟體環境為支持大數據量情況下,還需要對數據進行抽樣處理。經過這些預處理後,最重要的就是進行數據的計算統計、合併轉換,讓數據符合目標分析過程。

(4)進行數據分析挖掘:絕大部分的分析目標達成都可以剛才介紹的分析方法外加常見統計分析等達到。主要的分析:整體和組成分析、走勢趨勢分析、均值方差分析、排序TOP分析、同比環比縱橫比較分析、頻度頻率分析、相關關係分析、數量和比例的雙坐標分析、邏輯結構分析、金字塔分析、漏斗圖分析、矩陣圖分析、指標拆解分析、PEST分析、5W2H分析法、4P營銷分析等等。還有一部分分析需要到更高級的數據分析方法才能得到結論,這一部分在第3章會詳細介紹。

(5)進行數據結果圖表展現:數據分析的目的就是要解決問題的,往往數據分析師不是需求的發起人,那麼這就需要數據分析師把分析的數據和結論展現給需求方。最佳的方式就是通過圖表,有理有據形象的重點突出且專業的表達出來。根據第(4)步驟的分析,我們可以選取恰當的圖標。比如常用的有:折線圖、柱形圖、條形圖、餅圖、冒泡圖、散點圖、矩陣圖、雷達圖、雙坐標圖、瀑布圖、帕累托圖、金字塔圖、漏斗圖等等。

(6)寫出分析報告:數據分析最終的結論全部體現在分析報告中,一個分析師水平如何,只要看他寫過的一份分析報告就可以完全清楚了。綜合靈活應用這麼多的分析方法和各種各樣的展示圖表,分析報告一定會顯得非常豐滿。下面一個問題我們再詳細和大家討論數據分析報告的相關事情。

以上就是我在日常工作當中的實踐總結,比較少理論性的東西,更多的是可落地的非常具體的經驗總結。本文是節選於小講「數據分析師-從零入門到精通」的 「第二章 數據分析師的基本能力素質模型」的第2小節「2.數據分析方法論,流程和框架?(基礎篇),經過整理後的文章。

結尾附上完整的live( 「數據分析師-從零入門到精通」)分享章節,整個分享的整體思路和框架如下:

在第一部分,談談數據分析的行業前景、數據分析的價值所在,以及數據分析師的日常崗位內容,目的其實就是傳達一個信息給大家,數據分析這個職業前景非常的好,個人職業發展通道暢通,大量的就業崗位,工作內容想多淺就有多淺,想多深就有多深,正好適合於我們新入行者,從淺入手找到工作,在工作中進行深挖,逐步提升自己的數據分析技能。

在第二部分,我跟大家分享了數據分析師需要掌握哪些傍身技能,有技術上的,更有業務上的要求。目的就是讓大家清楚,分析師要學習什麼,要培養什麼,行業中有哪些分析套路。幫助大家快速學習數據分析基本技能,培養數據分析思維,掌握數據分析的方法論和框架。

在第三部分,我跟大家分享了厲害的數據分析師的職業門檻在哪裡,希望大家在日常的學習工作中,不斷學習和追求,努力把自己提升到一個高度,建立起自己的職業壁壘和護城河。同時,我試圖讓大家了解到,真正厲害的數據分析師,一定是一個技術專家,更是一個業務專家,還同時也是一個戰略家、謀略家。他是一個公司的神經中樞--大腦,是老闆身邊的參謀、智囊團。

在第四部分,主要跟大家分享數據分析師的個人成長、個人的職業規劃,以及在選擇公司和行業時候我們應該最關心哪些,而不僅僅是看薪資、看大機構,另外,也分享了一些應聘面試的技巧,讓大家能夠在招聘面試中,應付自如,戰無不勝。同時,找到讓自己薪資增長和職位晉陞最快的方法途徑,更重要的是讓大家明白自己未來會成為怎樣一個人,提前做好自己的職業生涯規劃。

第一章 數據分析行業概況

1.什麼是數據分析,其行業前景如何?轉行做數據分析師值得嗎?

2.數據分析崗位日常工作內容有哪些?為啥數據分析最適合女生、新入行者、初學者?

3.數據分析的價值在哪裡?

第二章 數據分析師的基本能力素質模型

1.數據分析師需要具備哪些能力和基本素質?

2.數據分析方法論,流程和框架?(基礎篇)

3.如何寫出一份優秀的分析報告?如何解讀分析報告中的數據?

4.案例應用:如何構建互聯網數據分析體系?

第三章 數據分析師的進階之道:走向巔峰

1.牛X的分析師和普通的分析師差別在哪裡?如何讓自己成為一個得到老闆賞識的牛X的分析師?

2.數據分析方法論,流程和框架?(高階篇)

3.牛X的分析師需要精通哪些模型和演算法?精通掌握哪些常用領域?

4.牛X的分析師除了掌握技術和業務外,還需要具備哪些嗅覺?

5.成為大數據科學家?

第四章 數據分析師的職業生涯規劃

1.數據分析師的職業發展通道是怎樣的,如何做好自己的職業生涯規劃?

2.如何有節奏的實現薪資的培增?

3.選擇一個好的公司和行業,成為時代的弄潮兒?

4.做好簡歷,成為一個Offer收割機?

結語:贈送自學指南

在校生、初學者如何自學數據分析?

歡迎大家拍磚指正,歡迎大家關注我的知乎專欄「大數據實踐與職業生涯」並留言,專欄會陸續的推出過往十多年的大數據工作經驗總結和我的一些研究實踐成果。如果你是大數據新人,或者想轉行進入大數據領域,或者職業生涯上存在一些疑惑,都歡迎關注我的知乎live分享「大數據人的職業生涯規劃」 和 「數據分析師-從零入門到精通」。


講數據分析的書很多,但是如果你想實戰的話會覺得大部分書的內容都是隔靴搔癢,學不到具體怎麼做

這是為什麼呢?因為他們根本不會分析數據,只會講課而已。當然不排除有些人會做,寫書只是為了撈錢做廣告,並不打算給乾貨。

數據分析怎麼做?我給一個萬能的套路

梳理業務--建立業務模型--匹配數據--建立數學模型(如果需要的話)-各種方法論和手段--得出結果。

發現沒有,各種教你做數據分析的書都在講後面兩步,前面的根本不給你講

要分析數據,先分析業務。若是做宏觀分析,就要知道一個事情在宏觀上是怎麼運行的,要是做具體的案例分析,就得知道這個案例的環境和自身情況。這些事情應該在看數據之前就一清二楚,而不是通過數據來反推實際情況。

在分析師當中有一句經典的忽悠叫「數據會騙人」,什麼意思呢,就是說你看到的數據跟實際情況是不一樣的,根據數據來判斷實際情況可能是不對的。但是這句話其實只是推脫責任,這幫人不接地氣不實際深入業務,拿著數據憑空想像一些場景,當然會錯漏百出啦。最後還要把問題推到數據上,好像是數據騙了他們而不是他們又懶又蠢。

具體應該怎麼來做一個全套數據分析呢?舉個例子

我們招分析師面試有一個經典的題目:如果我們是12306,怎麼通過數據分析識別黃牛?

有很多分析師一上來就pv,uv,購票頻次balabala一頓分析,有的人還有各種高大上的方法論,這種人直接就淘汰了,沒有下一輪面試了。實際上他們也是(將)會被數據騙的人。

正確的套路應該是分析正常購票乘車的流程,黃牛購票賣票的流程,買黃牛票購票乘車的流程,然後建立一個正常購票和黃牛購票的業務差異的模型,然後把數據放上去,然後根據實際情況選取分析角度和手段(在此背後體現你的方法論),最後得出結論。

下面我們來做一個示範

首先正常的購票乘車流程,查票--買票(下訂單)--付款--取票--進站(首次驗票,驗身份證)--乘車(可能有二次驗票,驗身份證)--出站(可能有三次驗票)

黃牛的購票賣票流程,查票--買票--對接買票人--賣票(關鍵點)

買黃牛票乘車的流程,對接黃牛--買黃牛票--取票--後續進站乘車跟正常購票一樣

那麼問題來了,由於現在火車票跟身份證是綁定的,黃牛怎麼賣票給別人呢?據我所知一般來說有兩種手段,一種是把身份證和票給買票人,讓他混進站,然後把身份證找人帶出來,但是這樣有可能造成二次驗票的時候無法通過;還有一種是黃牛當場退票,讓買票人當場上12306搶票。

以上述業務模型為基礎,把虛擬的12306的各項數據附上去,就會發現應該選取購票頻次和退票頻次為突破口。

以此為基礎,如果有必要的話建個數學模型,剩下的事情各種書上就都有講了。

由於我不是很熟悉鐵路情況,所以上述場景只是模擬一下,真實情況未必如此。在實際業務中,為了確認具體業務情況,各種調研訪談問卷和直接參与業務等等手段都是有用到的。

整個數據分析,最基礎的是建模型,模型建起來以後,該用什麼手段就很清晰了。


誒.我只想說.一切脫離企業經營和盈利的數據分析都是大忽悠.

只是感慨切勿對號入座.


以數據分析忽悠為生的人很多,套路嘛大框架就那樣,關鍵和核心那就不是套路能解決的了


推薦閱讀:

APP數據分析中,需對哪些關鍵指標進行挖掘?
RStudio無法安裝各種包,為何?
鞋類B2C,如何對用戶進行分類,並得出每類用戶在下單前行為軌跡是什麼?
數據分析師或金融分析師有無發展前景?
數據分析入門及職業規劃?

TAG:數據挖掘 | 數據分析 | 數據分析師 | 數據科學家 | 大數據 |