數據分析的基本方法論
2017.12.3受「水滴互助」的朋友相邀,分享了個人在數據分析領域的一些基本方法論。數據產品以沉澱數據分析思路為基本點,這兩個領域略有重合之處。在這裡整理成文章分享給大家。個人微信公眾號 ourStone,歡迎大家關注交流。
「Why-What-How」在講解概念和執行上是個不錯的思維模型,這次依例按此框架來拆分「數據分析」。相信很多朋友已經有了較豐富的分析經驗,這裡權且從個人的角度進行梳理,以資參考。為了幫助大家更好地理解本文,先貼出一張思維腦圖:
一. WHY:為什麼要做數據分析
在目前講解數據分析的文章里,大多數會忽略數據分析本身的目的。這會導致我們在執行時,會出現動作變形的情況。以終為始,才能保證不會跑偏。個人的理解上, 數據分析是為了能以量化的方式來分析業務問題並得出結論。其中有兩個重點詞語:量化和業務。
首先講下量化。量化是為了統一認知,並且確保路徑可回溯,可複製。 統一認知後,才能保證不同層級,不同部門的人在平等話語權和同一個方向進行討論和協作,才能避免公司內的人以「我感覺」「我猜測」來猜測當前業務的情況。路徑可回溯可複製指的是,通過量化後的結果,許多優化的方法是可以被找到原因並且可以被複制的。同樣是轉化率優化,用 A 方案和 B 方案,誰的效果會比較好和具體好多少,都是可被預測的。
要想做到量化,需要做到三點:建立量化體系,明確量化重點和保證數據準確性。
1.1 建立量化體系
建立量化體系,主要是根據「指標設計方法」,設計業務的「核心指標+拆解指標+業務指標」,最後落地成全公司通用的「指標字典」和「維度字典」。這種工作一般是由數據分析師或數據 PM 來擔任完成。通過這種方式,我們就能初步建立面向全公司全面,系統的量化分析框架,保證日常分析可以做到「逐層拆解,不重不漏」。
1.1.1 指標設計方法
講到指標設計方法,大家可能覺得,之前聽過了產品設計方法,程序開發方法,指標這種東西也有設計方法么?確實有,指標設計是一套以準確和易懂為準則,集合統計學和業務效果的方法論。
準確是指能夠準確滿足衡量目的,易懂是指標演算法能直觀顯示好與壞,並且指標的演算法也能夠通俗易懂。這兩者很多時候需要有所抉擇,準確是第一位的。舉個例子:當我們想衡量一個群體收入的差異性時,用方差還是用基尼係數?方差好懂,但不能顯示兩個極端的差異性多大。基尼係數演算法不好懂,但能準確描述這個問題。
具體到指標設計,我們需要使用一些常用的統計學工具:
以顧客質量分析為例:概況是我們看下顧客的平均支付金額,或者支付中位數,來了解顧客概況。如果我們想了解這批顧客的質量是都比較好,還是良莠不齊,則需要通過方差和標準差來描述。如果想知道更詳細的內容,可以了解每個區間的用戶數是多少,來做判斷。
有一些 Tips 供大家參考:
- 比率指標:關注實際效果(下單轉化率,光看下單數是沒有用的)
- 伴生指標:既要看新客數也要看 CAC,確保數量的前提也要確保質量
- 防止壞指標:錯誤指標,虛榮指標,複雜指標
這裡簡單解釋下每個 Tips 的目標。之所以採取比率指標和伴生指標,是因為能夠明顯反映業務的「效率」且能夠有效防止因為追求單個指標而導致動作變形。如果說這輛車能跑十萬公里,其實並不能表示這輛車的性能怎麼樣。只有「速率=路程/時間」,才能反映這輛車的效率。同時,如果片面追求速率,會導致汽車在設計時劍走偏鋒,給駕駛者帶來危險,因此需要再加個「故障率」或「事故率」等伴生指標來確保安全。
壞指標中的「虛榮指標」首次出現《精益數據分析》一書中,作者簡單把「PV/UV」等指標都歸為虛榮指標。剛開始時我頗為認可,但後續在實際的應用過程中,發現對於很多業務的監控,這些指標並避免不了。後續我便把「虛榮指標」更正為「把距離業務目標過遠的環節定義為核心監控指標」。對於一個即時通訊 APP 來講,下載次數,啟動用戶數,註冊用戶數需要監控,但不能作為核心監控的指標。更合適的應該是消息數或「進行過對話的用戶數」。複雜指標往往是各種「指數」,用了很多指標各種加減乘除,這會導致此類指標在發生波動時,很難分析原因。
擁有對指標的定義權和解釋權是個段位非常高的事情。這要求設計者深入了解業務和擁有極高的抽象能力。對於分析師來講,擁有指標定義權將凸顯出你在業務方的重要性。當然,這裡並不是鼓勵大家為了定義指標而定義指標。尋找業界已有量化方法並在公司內推廣,也是件功德無量的事情。
舉個美女外賣的「美女廚師率加權指導值」為例。為避免泄露商業機密,將這個原本用來衡量用戶體驗的指標換成「美女廚師率」,以下背景也稍作修改,大家領會精神即可。指標的背景是為了保證用戶的用餐體驗,美女外賣總部提出每個城市的商家必須配備一定比例的美女廚師。但城市提出異議:不同城市擁有的商家情況不一樣,大型的商家廚師多,美女廚師率會相對較低,不能用統一的值來對比所有城市。因此總部便設計出來這麼一個指導值:將全國商家進行分層,每個層次的商家得出全國平均值,然後各個城市對標平均值產出自身的對標值,即「美女廚師率加權指導值」。雖然在計算上稍微複雜點,但在實際應用的過程中,BD 們只需要知道總體的差距和每一層商家的差別,很容易針對性的落地和優化。
1.1.2 建立指標體系
在根據「指標設計方法」上,如何建立起圍繞業務的指標體系呢。核心是根據業務特徵確定核心指標,在核心指標的基礎上以不同的角度進行拆解。然後再慢慢補充其他業務的指標情況。。
拆解的時候,要做到按指標拆解而非維度。比如訂單數,也可以拆解為各品類的訂單數合計。這一點可以通過保持上下兩層指標名稱不一致來避免。拆解的過程依照金字塔方法論的「逐層拆解,不重不漏(MECE)」。若拆解出來或業務補充的指標過多,可借鑒數據倉庫的「域」概念來管理這些指標,如上圖的「交易域」,「商品域」和「用戶域」。
在一個規範的指標體系中,已經涉及到元數據管理的領域了。包括針對指標命名的規範,數據存儲和計算的管理等等。大家有興趣地可以搜下相關文章,或閱讀阿里巴巴新出的《阿里巴巴大數據實踐之路》。下面截取一張來自雲棲大會的,關於指標命名規範的 PPT 給大家:
1.1.3 建設指標維度字典
這裡是轉轉公司早期部分的指標維度字典,(Bus Matrix),一定程度上解決了之前公司內對於指標定義不清或不統一的問題。現在這套東西已經產品化,可以在可視化產品中查看和顯示了。
對於暫沒能力產品化的公司,建議可由分析師們通過 Google Docs 或 Wiki 對一些關鍵和常用的指標進行統一的維護。
對於維度匯流排矩陣,主要是在以維度建模的數據倉庫,設計數據產品,多維度交叉分析時提供框架和基礎。
1.2 明確量化重點
每個階段,都應該明確當前的業務重點。量化體系需要根據業務階段,更改量化重點及方式。這同時意味著,有更細節的指標及更大的監控和推廣力度。
比如外賣行業早期,經歷了看重訂單數,到訂單額,到新客數+補貼率,到新客數+資金使用效率(交易完成進度/費用完成進度)的歷程。我們可以看到,隨著戰爭的階段不斷升級和變化,從不計成本打下市場份額,到看中訂單質量,到存量市場爭得差不多了,開始考慮新客數量,同時控制補貼力度,到戰爭趨於常態化,開始控制整體補貼額度,靠拼效率來戰勝對手。每個階段,都需要根據不同的戰場情況來判斷當前重點,從而圍繞該重點建立一套360度無死角的分析監控體系。
1.3 確保數據準確性
在數據準確性這個話題里,數據產品已經有成熟的數據質量管理方法,涉及了數據源,指標計算和數據呈現等各個環節的監控。本文主要從分析師的角度闡述確保準確性的方法,數據產品相關的就先不贅述了。
- 採取可信來源:多來源交叉確認,採用新來源時需格外小心
- 確認加工方式:指標定義和加工演算法
- Double Check:量級,計算邏輯和業務常識
這裡著重講下 Double Check 的技巧,這些技巧可以讓很多管理層或投資人在不了解業務的前提下,就能判斷出來數據是否有問題。
量級 Check:每個數據有它的大概範圍,比如 DAU,WAU 和 MAU。
計算邏輯 Check:一般對於整體部分型的分數,比如市場份額,那麼它必須滿足:1,取值最大不能超過1;2,各部分加和應為1;3,兩數字加和後,和應該在中間範圍內。
業務常識 Check:根據其他常用數字推算出該業務範圍。如果有人跟你說某某社交 APP DAU 過億,你大概知道是否在吹牛,因為日活過億的 APP 就那麼幾個。對於 DAU/MAU,各個行業都有響應的範圍值,淘寶為:34.6%,天貓15.5%,京東15.8%。
1.4 站在業務方的角度
除了「量化」之外,另外一個重點詞語是「業務」。只有解決業務問題分析才能創造價值。價值包括個人價值和公司價值。對於公司來講,你提高了收入水平或者降低了業務成本,對於個人來講,你知道怎麼去利用數據解決業務問題,這對個人的能力成長和職業生涯都有非常大的幫助。
如何站在業務方的角度思考問題呢,總結起來就是八個字「憂其所慮,給其所欲」。這裡不僅適用於分析師這個崗位,在所有以供需為主要關係的交互過程里,精準理解對方需求對於供給方都是最重要的。比如 PM 對於用戶,分析師對於業務方,下級對於上級。
在具體的落地過程中,主要是在這以下幾個環節
- 溝通充分
- 結論簡明
- 提供信息量及可落地建議
- 尋求反饋
在溝通上,確定業務方想要分析什麼,提出更合理專業的衡量和分析方式,同時做好節點同步,切忌一條路走到黑。在分析業務需求上,跟很多產品需求分析方法論是類似的,需要明確所要數據背後的含義。舉例來講,業務方說要看「頁面停留時長」,但他實際想要的,可能是想衡量用戶質量,那麼「留存率」「目標轉化率」才是更合適的指標。
在闡述分析結果上,要記得結論先行,逐層講解,再提供論據。論據上,圖 > 表 > 文字。因為業務方或管理層時間都是有限的,洋洋洒洒一大篇郵件,未看先暈,誰都沒心思看你到底分析了啥。需要做到,在郵件最前面,用 1-3 句話先把結論給出來,即使需求方不看後續內容都可以了解你報告 80% 的內容。
在「提供信息量及可落地建議」上,先要明白什麼叫信息量:提供了對方不知道的信息。太陽明天從東方升起不算信息量,從西方升起才是。在分析的過程中,一定要從專業的角度,從已知邊界向未知邊界進軍,力求角度新穎論證紮實,並且根據分析內容給出可落地的建議。舉個簡單例子:
尋求反饋是很多分析過程所缺乏的一步,數據分析給出去後便沒有持續跟進。那你就不知道到底做得對不對。反饋猶如一面鏡子,讓你及時地調整和優化自己的方法論。
二. WHAT:什麼是數據分析
數據分析的本質是抓住「變」與「不變」。
「變」是數據分析的基礎,如果一個業務每天訂單是 10000 單,或者每天都是以 10% 的速度穩步增長,那就沒有分析的必要了。而若想抓住「變」,得先形成「不變」的意識。
積累「不變」,就是養成「數據常識(Data Common Sense)」的過程。「不變」是根據對歷史數據不斷的觀察和積累而來。一般來說會是個範圍,範圍越精準,你對「變」就越敏感。這裡有三個個人的習慣,可以幫助養成「不變」:
- 形成習慣,每天上班第一時間查看數據:實時&日周月報
- 記住各個指標大數,反覆推算
- 記錄關鍵數據(榜單&報告)
大部分指標沒有記住全部數字的必要,簡單記住大數,萬以下只需要記到萬位,有些數字只需要記住百分比。 而指標之間的推算可以幫助你對各個指標的數量級關係和邏輯脈絡梳理清楚,出現波動時便能更加敏感。記錄關鍵數據是將工作生活遇到的比較有趣的榜單或數據報告保存在一個統一的地方,方便查閱和分析。
在「不變」的基礎上,便能逐漸培養出指標敏感性,即意識指標偏離的能力。這主要是通過各種日環比,周月同比的監控以及日常的好奇心來保持。
這裡插播一則管理林元帥的野史:林彪領軍,有個習慣是記清楚每場戰鬥的繳獲和殲敵的數量和種類。在 1948 遼瀋戰役尋找對方軍長的過程中,發現了一個遭遇戰的戰報數據有了細微的變化。他從過去「不變」的基礎意識到了指標偏離:繳獲的短槍與長槍比例,繳獲和擊毀的小車與大車比例及俘虜和擊斃的軍官與士兵比例都比其它戰鬥略高。他根據這個偏離的指標迅速圈定了對方指揮所的所在地,一舉端掉了對方的大本營。
我們從一個 Questmobile 2017 年春季榜單上,來簡單看下「指標偏離」是怎麼應用到日常的分析上的:
這裡先跟大家分享下怎麼看這種榜單:
- 看整體排行:看哪些 APP 排在前方是出乎你意料之外的
- 分行業看排行:看行業里排行及其變動
- 看增長率:哪些 APP 增長比較快
- 看使用時長等其他指標
這裡我試著拋出幾個問題:
- 新浪新聞竟然比騰訊新聞還高?今日頭條竟然比一點資訊低?
- 秒拍竟然比快手高?
- 百度地圖在榜單上比高德高,為什麼去年俞永福還敢宣稱活躍終端數第一位?
- QQ 的時長已經連續兩個季度月活出現下降了,是否意味著什麼?
- 按增長率排序,最快的王者榮耀,其次是今日頭條,快手,高德地圖。高德既然還算增長得較快的 APP?
數據分析的定義,還有國外一本商務分析的書籍的定義作為註腳:
三. HOW:怎麼進行數據分析
任何數據分析都是「細分,對比,溯源」這三種行為的不斷交叉。最常見的細分對比維度是時間,我們通過時間進行周月同比,發現數據異常後,再進行維度或流程上的細分,一步步拆解找到問題所在。如果找到了某個維度的問題,則需要溯源到業務端或現實端,確認問題產生的源頭。如果多次細分對比下來仍然沒有確認問題,則需要溯源到業務日誌或用戶訪談來更進一步摸清楚情況。
3.1 細分
以下內容在上篇《大數據與用戶研究》中略有提及,這裡再做一個總結。在細分方式上,主要有以下三種方式
- 橫切:根據某個維度對指標進行切分及交叉分析
- 縱切:以時間變化為軸,切分指標上下游
- 內切:根據某個模型從目標內部進行劃分
橫切上,以轉轉舉例,我們對維度和指標做做了分類和交叉,當某一類的指標出現問題時,我們便知道該從什麼維度進行分析。在進行橫切分析時,經常需要多個維度交叉著使用。這在數據分析術語上叫:交叉多維分析。這也是剛才講的「維度匯流排矩陣」看到的各維度交叉情況了。
縱切上,有目的有路徑,則用漏斗分析。無目的有路徑,則用軌跡分析。無目的無路徑,則用日誌分析。
漏斗分析分為長漏斗和短漏斗。長漏斗的特徵是涉及環節較多,時間周期較長。常用的長漏斗有渠道歸因模型,AARRR,用戶生命周期漏斗等等。短漏斗是有明確的目的,時間短,如訂單轉化漏斗和註冊漏斗。在軌跡分析里,桑基圖是一種常用的方式。常見於各頁面的流轉關係,電商中各品類的轉移關係等等。日誌分析,則通過直接瀏覽用戶前後端日誌,來分析用戶的每一個動作。
各種手段的細分往往交叉著使用,如訂單漏斗縱切完可以接著橫切,看看是哪個維度的轉化率導致的問題。
內切上,主要是根據現有市面上常見的分析模型,RFM,Cohort 和 Segment等方式進行分析。RFM 即最近購買時間,頻率及金額三個指標綜合來判定用戶忠誠度及粘性。Cohort,即同期群分析,是通過對不同時期進入平台的新用戶分群分析,來區分不同新用戶的質量,如留存率或目標轉化率等。Segment 通過若干個條件對用戶分層,然後針對不同用戶進行分層分析和運營,如用戶活躍度分層等等。
3.2 對比
對比主要分為以下幾種:
- 橫切對比:根據細分中的橫切維度進行對比,如城市和品類
- 縱切對比:與細分中的縱切維護進行對比,如漏斗不同階段的轉化率
- 目標對比:常見於目標管理,如完成率等
- 時間對比:日環比,周月同比;7天滑動平均值對比,7天內極值對比
時間對比嚴格來說屬於橫切對比。但因為時間這個維度在數據分析和產品中極為重要,所以單拎出來說。橫切對比中,有個比較著名的數據應用方式即是「「排行榜」。通過這種簡單粗暴的方式,來驅動人們完成目標,或者佔領人們的認知。前者有銷售完成排行榜。後者有品類售賣暢銷榜。
3.3 溯源
經過反覆的細分對比後,基本可以確認問題所在了。這時候就需要和業務方確認是否因為某些業務動作導致的數據異常,包括新版本上線,或者活動策略優化等等。
如果仍然沒有頭緒,那麼只能從最細顆粒度查起了,如
- 用戶日誌分析
- 用戶訪談
- 外在環境了解,如外部活動,政策經濟條件變化等等
3.4 衍生模型
在「細分對比」的基礎上,可以衍生出來很多模型。這些模型的意義是能夠幫你快速判斷一個事情的關鍵要素,並做到不重不漏。這裡列舉幾個以供參考:
- Why-How-What
- 5W1H
- 5Why
- 4P模型(產品,價格,渠道,宣傳)
- SWOT 模型(優勢,劣勢,機會,威脅)
- PEST 模型(政治,經濟,社會,科技)
- 波士頓矩陣
舉個例子,最近京東和美團外賣可能會發現送貨時長延長,針對物流相關的客訴增加,從 PEST 模型就可以分析出來是否在政治上出了問題。而當你在競品做比對分析時,SWOT 或者 4P 模型能夠給你提供不同的角度。
四. 數據分析如何落地
以上講的都偏「道術技」中的「術」部分,下面則通過匯總以上內容,和實際工作進行結合,落地成「技」部分。
4.1 數據分析流程和場景
根據不同的流程和場景,會有些不同的注意點和「術」的結合
4.2 數據分析常見謬誤
- 控制變數謬誤:在做 A/B 測試時沒有控制好變數,導致測試結果不能反映實驗結果。或者在進行數據對比時,兩個指標沒有可比性。
- 樣本謬誤:在做抽樣分析時,選取的樣本不夠隨機或不夠有代表性。舉例來講,互聯網圈的人會發現身邊的人幾乎不用「今日頭條」,為什麼這 APP 還能有這麼大瀏覽量?有個類似的概念,叫 倖存者偏差。
- 定義謬誤:在看某些報告或者公開數據時,經常會有人魚目混珠。「網站訪問量過億」,是指的訪問用戶數還是訪問頁面數?
- 比率謬誤:比率型或比例型的指標出現的謬誤以至於可以單獨拎出來將。一個是每次談論此類型指標時,都需要明確分子和分母是什麼。另一方面,在討論變化的百分比時,需要注意到基數是多少。有些人即使工資只漲 10% ,那也可能是 150萬…
- 因果相關謬誤:會誤把相關當因果,忽略中介變數。比如,有人發現雪糕的銷量和河溪溺死的兒童數量呈明顯相關,就下令削減雪糕銷量。其實可能只是因為這兩者都是發生在天氣炎熱的夏天。天氣炎熱,購買雪糕的人就越多,而去河裡游泳的人也顯著增多。
- 辛普森悖論:簡單來說,就是在兩個相差較多的分組數據相加時,在分組比較中都佔優勢的一方,會在總評中反而是失勢的一方。
最後以幾句話作為總結,也是全文中心:
- 數據準確性是第一位的
- 站在業務方的角度思考問題:憂其所慮,予其所欲
- 定義「變」與「不變」
- 細分,對比,溯源
大數據產品漫遊系列:
4年估值20億美元的大數據公司:Domo的神秘國度
秋毫明察,實時數據產品一覽
在數據產品這個行業里,你需要知道這些內幕
三個步驟告訴你如何設計高效Dashboard
數據 PM 專業技能系列:
數據產品必備技術知識(1):數據倉庫之基本架構及ETL
華爾街日報是這樣做數據可視化的(1)
互聯網數據分析從入門到精通的書籍清單
數據分析的坑,都在統計學裡埋過
*****作者簡介*****
陳新濤,現任轉轉數據負責人,曾任美團外賣首任數據PM
轉轉是國內領先的二手交易平台,2017.4 獲得騰訊 A 輪領投 2 億美元
長按以下圖片可關注本號,點擊原文可加入小密圈讀者群
推薦閱讀:
※林俊傑的高音如何用數據描述?
※SF 講堂推薦「剖析大數據實時olap數據的實現:Druid源碼導讀」要開播啦
※如何用數據探索未知?這幾個獲獎作品讓你腦洞大開
※人工智慧需要學習海量數據,數據的準確性如何來保證呢?