標籤:

數據分析的三板斧

感覺自己工作也有一段時間了,想好好總結一下自己的一些想法,一些思考,所以也就準備寫個專欄,好好思考總結一下。這應該算是第一篇文章,主要是對數據分析的方法論的一丟丟學習總結思考。

一直都在想,要是做數據分析的方法論可以變得更簡單一點,似乎在實際工作中碰到問題時也會變得更有信心,更有方向感。經過一些學習思考,發現似乎用是什麼?為什麼?怎麼做這三板斧(三個步驟)來理解數據分析會變得更為清晰。

一.是什麼?

數據分析的問題大概可以分為三類:是什麼?為什麼?和怎麼做?整個流程的順序是:是什麼?->為什麼?->怎麼做?,我們得到的問題可以是這三個問題中的任意一個,但是無論是什麼問題,「是什麼?」這一步都是特別重要的,可以說是整個數據分析的基石,一旦「是什麼?」這一步出現問題了,後面的整個分析流程都會出現錯誤,我個人在這一步就出現過數不清的好笑的錯誤。

就如同這字面意思,「是什麼?」這一步主要是要弄清楚到底是什麼問題?在我們接收到一個異常數據時,我們在思考是什麼之前,還有很多事情是需要我們做的!首先,我們得想辦法確認一下這個數據的真實性,以我還有點嫩的眼光來觀察有經驗的前輩,每次接收到一個數據都不厭其煩地會找負責這個數據的人員核實這個數據的真實性,核實的內容大概可以總結為:1.是否是這個數(有時候會有三人成虎的情況發生,不知道什麼時候就多了一個虛假的數據);2.這個數是否為該欄位的含義(比如我們說的是PV,但是這個數卻是代表訪次);3.這個數的更新頻率(比如我想知道今天下午三點整個商城的UV,但是報表裡面數據時每天更新一次,今天的數據還沒出來);4.這個數的數值是否對(如果存在一些計算步驟的情況,可能會出現計算出錯等情況)。當我們確認這個數據的真實性後,我們還得從真實業務端好好想想這究竟是不是一個問題,比如說周末商城的訪客數會明顯低於周內的訪客數,假如我們的商城不是那種玩耍的商城,很大幾率這都會是一個正常情況,畢竟大家周末都得好好玩耍嘛,誰管那麼多啊。有一個關於數據分析的笑話,某一公司數據分析人員驚人的發現該公司每年2月份的銷售額都會遠遠低於1月份和3月份的銷售額,於是針對這一驚人發現公司特地組織的特定項目組進行分析,這個項目組花了很長的一段時間、用了各種各樣的分析方法對窮盡各種辦法的拿到的數據進行分析,最後終於發現原因出在2月份工作日變少了。於是該項目組做了一份堪稱完美的報告準備將這一成果告知給所有人,就在這時,保潔阿姨說2月份不是都在過年嗎?於是這個項目組默默的刪除了這份報告。

當我們確認數據,然後確認這就是一個問題後,接下來就到了我們激動人心的弄清「是什麼」環節了。我的習慣,首先針對這一數據的結構化流程形成一個漏斗圖來查看一下在整體流程中問題出在哪裡。如下圖就為一個典型的漏斗圖。

漏斗圖不但可以幫助我們理解整個流程,有一個特別棒的優點:我們不但可以用用戶在商城裡面每一步的操作數來建立漏斗圖(如每個按鈕的點擊數),還可以用邏輯上的步驟來完成這個漏斗圖(如AARRR模型中的用戶獲取多少人,多大的比例進行了激活,留存的比例又有多少)。需要注意的是,盡量在一個漏斗圖中環節不要超過5個,量級也不要超過100倍,一個是容易造成信息混亂,另外一個是量級過大可能會讓實際意義很難被察覺。

我認為當發現一個問題時,想把這個問題是什麼給弄清楚,實際上就是找到一個更為清晰的清晰指標。首先可以對已發現的問題指標進行公式拆分然後再進一步明確問題,比如說本周的訂單成交轉化率較上周的訂單轉化率環比下降了20%,其實這個數據是有點模糊的,因為訂單轉化率是一個計算結果,訂單轉化率=成交訂單數/訂單數,訂單成交轉化率減小了,是訂單多了還是成交的訂單數減少了,都需要我們進一步拆分。然後我們對已知的問題指標進行邏輯樹多維度進行拆分,在構建邏輯樹時,盡量遵守MECE原則,也就是完全獨立和窮盡。以銷量為例:

總結一下,當想弄清一個異常指標是什麼情況時,其實在數據層面更為直接的就是將根源的異常指標給找出來。可以根據已知的異常指標縱向(對流程進行漏斗圖查找)、橫向(按照獨立窮盡原則對指標進行拆分)。

二.為什麼?

在前面「是什麼?」這個環節,我們基本上已經找到問題了,而這一節內容,我希望可以簡單介紹一些尋找這些問題內外因素的套路。

如:可控的內部因素有:產品近期上線更新、市場投放渠道變化、產品粘性、新老客戶留存和核心目標轉化(面對可控的內部因素可以立即執行);可控的外部因素有:市場競爭對手近期行為、用戶使用習慣的變化、時間變化(活動時間);不可控的內部因素有:產品策略、公司戰略和客戶群定位(比如說只做醫療行業);不可控的外部因素有:行業趨勢、整體經濟形勢、季節性變化等。

三.怎麼做?

在前面已經完成「是什麼」和「為什麼」後,有時候是需要我們給出建議,這一塊主要是從具體業務角度對已經發現的問題以及出現這一問題的原因做出合理的解答。在這一步,更多的需要對業務的了解。

最後簡單總結一下這篇文章,整個數據分析可以分為三步:是什麼、為什麼和怎麼做。整個的關鍵環節在於是什麼這個環節,可以縱向、橫向以及公式法拆分數據尋找異常的根源情況。針對已經找到的異常情況,我們可以從內部/外部區分角度來對為什麼會發生這一情況進行探尋原因,當找到原因後,就類似那句廣告語:哪裡不好就優化哪裡,哪裡很好就傳播一下先進經驗。

推薦閱讀:

數據團隊建設思考
阿里數據招人啦
零基礎學習Python數據分析:科學計算庫NumPy(2)
挑戰自我-python數據分析師成長路徑
Kaggle機器學習之泰坦尼克號生還預測

TAG:數據分析 |