一文讀懂數據分析的流程和方法論

一文讀懂數據分析的流程和方法論

關於數據分析,這裡想站在更大卻更為實際的角度講一下。

這裡要講的數據分析可能並不是某一個細小的事件,更多的是站在一項業務上去考慮,流程和工作量都要更為龐雜些。

數據分析的方法論

講方法論之前,先思考什麼情況需要數據分析?通常情況下是當領導或者自己發現某個問題,比如這一陣銷售額低迷,存貨量居高不下,客戶流失率只增不減……這樣的一個一個問題,可以稱之為「點」。於是,第一時間對比自己的目標,這個月的銷售額是要達到多少多少萬,但是目前的問題是完全不符合自己的KPI的,所以會促使你去分析原因,找到解決的措施。問題與目標對接,兩點成為一「線」。撇開流程,在業務外,是否有外部因素影響到了數據,這也是需要考慮的,一條直線和直線外一點,構成「面」,這裡就強調分析問題要全面。多面成體,如果說能夠考慮到影響目標結果的各個因素點,那麼體則是從多面角度出發,能夠從「旁觀者」的角度看待整個分析「體」,更多的是強調全局觀。

以上就是針對實際業務的一個分析方法論,要形成體,一方面要梳理組織架構,讓數據在各個環節流程上流通起來,另一方面則需要一套行之有效的方法體系,指導日常的運營分析,而這個方法論就是我要提出的「點、線、面、體,四位一體方法論」。

點,這裡是指業務上的痛點或high點,進一步可理解為業務發展異常點或進階發展點,未來業務拓展關鍵點和BOSS關注點等。在數據上則體現為業務發展趨勢中的波峰、波谷和數據離散點。

點是我們在數據運營中首先要關注的地方,是整個數據運營分析中的起點和基礎點,也是「點、線、面、體」四位一體方法論中最基礎的元素,是整個數據運營進程的擴展點。例如我們平時在網站或APP分析過程中,發現某一天的訪客數明顯低於正常水平,那麼是什麼原因導致這個異常點出現呢?又比如當月的銷售量,某日的銷售量明顯低於其他什麼原因引起的?此時的這個點就是我們數據運營的切入點。

點的發現關鍵在於數據的統計整理,形成規範,找出規律和切入點。比如我關注流量這一指標,通過可視化分析工具將各時段的流量數據抽取出來,前端做成一個dashboard界面,利用時間和查詢控制項供自助查詢。

兩點成一線,推己及人,將業務中的異常點和我們日常運營目標有效的結合起來,就能形成一條清晰的數據運營分析線。除此之外,在數據運營數據積累過程中,隨著時間的推進,也能形成一條它自己的「時間序列曲線」,進而在分析過程中實現數據的時間價值。線的分析是實現數據與數據關聯的過程,是看趨勢的過程,是實現數據的時間價值與串聯識別價值的過程。

另一方面,線的分析是維度分析的基礎,思考問題的開始,這個過程有如數據在資料庫中實現上下鑽取、OLAP分析的過程。理解線的分析,一方面通過對運營目標的分析,來反思影響這一目標的各指標權重影響,簡單點說,哪個因素髮生變化會對銷售量產生巨大影響,那這個指標的權重就越大,需要控制好。另一方面,比如分析流量在某一天下滑對月度銷售額的影響,從流量下滑這一點出發,到對目標結果影響這一點關聯分析的過程。一個是從結果出發分析影響因素,一個是從過程出發預測對關注目標的影響。「線」的分析在數據分析操作上體現在分析模型的建立,各指標的關聯。

面在「直線」分析的基礎上將外部影響因素「點」考慮進來,形成對目標分析更周詳的考慮。面的分析一線與多點的考慮,面比較點和線多的是輻射的影響與考量,是點、線分析整合的基礎上引入了運營場景的考量,並將不同數據運營過程場景化,簡單的講,一個場景就代表一個面。

理解面的分析方法,應從應用場景方面考量,考量各方影響因素。因為「面」,所以有了數據的角色化、場景化。

同樣是銷售的分析,對內受一些列因素影響,比如營銷力度、人員分布。但放到市場環境中也會受到來自同行或者同產業鏈的輻射影響。有些企業會將市場環境因素納入到分析監控中。

多面成體。如果說面是考慮到了影響店與目標結果的各個因素,那麼體則是從多面角度出發,能夠從「旁觀者」的角度看待整個分析「體」,更多的是強調全局觀,是對整個分析體系的認知,是對點、線、面的全面整合,是完成的數據運營體系。

點、線、面、提「四位一體」方法論是一個層層遞進的過程,是對運營業務場景分析從簡單到複雜的過程,從局部到全局的過程,是利用數據運營的思維方法。

業務分析的流程

明確分析目的→梳理業務形成分析思路→搭建分析指標體系→收集數據→處理數據→製作分析模板→可視化管理。

明確分析目的&梳理業務

分析要有目的有方向。是對現在面對的某個問題分析,還是梳理整體的業務現狀,抑或是對未來某個指標的預測監控。簡單來講,就是解惑、監控、預測,目的是提效、增益。

明確目的後,需要梳理思路,怎麼梳理?如果是分析近一個月銷售額普遍下降的原因點,就要從下至上,還原整個事情進展的過程。購買環節涉及成交量、客單價和折扣率,然後還要分各類產品;瀏覽環節涉及瀏覽量、PV/UV;用戶維度還有流失率、活躍度、復購率等等,把分析目的分解成若干個不同的分析要點,然後針對每個分析要點確定分析方法和具體分析指標。

搭建分析指標體系

搭建分析指標體系就是分析整個「體」,將分析框架的體系化,明確每個點都是什麼指標,任何一個分析路徑都能對應到指標(當然現實是不會有這麼完美的體系的)。

以電商為例,遵循「人貨場」的思維邏輯。常用的業務分析場景有銷售、商品、渠道、競品、會員等等,而商品可進一步細分為商品的庫存、商品的利潤以及關聯銷售分析。在整個業務分析體系中,確保體系化,即先分析什麼,後分析什麼,使得各個分析點之間具有邏輯聯繫,使分析結果具有說服力。

如何取數?

SQL是最基本的資料庫語言,無論從什麼資料庫、數據倉庫、大數據平台取數,都需要掌握。

Hive和Spark都是基於大數據的,Hive可以將結構化的數據文件映射為一張資料庫表,通過類SQL語句快速實現簡單的MapReduce統計。

清洗和處理數據

原始數據來自於各個業務系統,指標口徑對不上,總會出現不一致、重複、不完整(感興趣的屬性沒有值)、存在錯誤或異常(偏離期望值)的數據。這些都可以通過

數據清洗:去掉雜訊和無關數據

數據集成:將多個數據源中的數據結合起來存放在一個一致的數據存儲中

數據變換:把原始數據轉換成為適合數據挖掘的形式

數據歸約:數據立方體聚集,維歸約,數據壓縮,數值歸約,離散化和概念分層等

製作模板&可視化展示

分析模板多用excel或者報表工具。如果業務部分有設立數據分析崗或者集團有特定的數據中心團隊,會通過搭建BI平台來完成針對性的業務分析。

使用常規Excel或者傳統報表工具,可以將做成的圖表貼至PPT中,涉及Excel的高級功能,就需要學習VBA和數據透視表,但Excel適合已經處理好的成品數據。一旦涉及大數據量或頻繁鏈接資料庫,一些帶有介面的數據可視化工具或報表工具就比較適合。


推薦閱讀:

為什麼Kaggle對找工作有幫助?如何入門?
MobData上海網吧選址報告| 智慧商業2.0時代大數據反哺實體經濟
如何利用數據提升營銷渠道效果
《金字塔原理》思維導圖
用Python讀紅樓夢之——二、詞雲美化

TAG:數據分析師 | 數據分析 | 互聯網數據分析 |