1. 什麼是數據分析
05-06
什麼是數據分析?
一句話定義,數據分析是一個從數據中通過分析手段發現業務價值的過程。這個過程的起點是獲取一份數據,這個過程的終點是發現業務價值。過程可以大致為分數據獲取——數據清洗——數據處理——數據建模——分析結果呈現——業務價值發現——業務價值實現這幾個階段。
在具體說明每個階段之前,首先要談下我對數據和業務價值這兩個概念的理解。
- 數據:我認為數據不是簡單的數字,換句話說,如果你只告訴我一串數字 170、172、180而沒有其他信息,那麼這幾個數字就僅僅是數字而已,而不是數據。數據除了數字本身之外,還必須包含數字的來源、度量方式、單位、代表的業務場景(即數據產生的上下文環境)等等。其中,我認為場景是最重要的。仍舊拿上面的例子來說,如果你告訴這是三個地區的平均身高,那可以說這是一組有意義的數據了,至於單位,我會猜到是厘米;而來源和度量方式決定了這個數據的可信程度。
- 業務價值:不能服務於業務的數據分析是沒有生命力的,不能產生業務價值的數據分析是徒勞無功的。因此,能否實現業務價值決定了這是否是一次成功的數據分析。而分析工作只是實現了這個過程的第一步,它通過分析師的視角將價值呈現於業務人員面前,分析的結果只有被業務人員理解,並最終通過業務人員的努力轉化為業務實施(在大多數公司數據分析和業務運營這兩種不同的角色會分屬不同的部門,增長黑客則是一種新的形式),才可能最終實現價值。
過程的詳細說明:
- 數據獲取:這個階段的輸入需要一個分析目標,哪怕不是那麼的明確和清晰。為什麼需要一個目標?在一個大型企業中,可以獲取的數據往往是海量,如果沒有一個目標限制,那數據分析往往是無從著手的。這個階段的輸出是一個數據子集,它可以是物理上的貨邏輯上的。所謂物理上的,就是把分析中用到的數據單獨拷貝到一個地方;而邏輯上就只是定義出可用的數據範圍,比如時間周期、維度、指標等。這個階段的困難之處在於理解相關的數據源,因為數據源文檔不完整或者變更的情況經常在業務中發生。
- 數據清洗:通常包括異常數據的處理、缺失數據的處理、數據的一致性變換、編碼的替換等
- 數據處理:對數據進行匯總,或者形式上的變換,以便可以適用於後期的建模
- 數據建模:用統計分析或機器學習演算法對數據建模,以便描述數據或對未來進行預測。其實大多數分析師在這個階段只觀測數據的同比、環比的趨勢上的變化,亦或對指標在不同維度上進行拆分,以觀察維度對指標變化的影響。以上三個階段在很多書籍中都有具體的技術描述,不再贅述。
- 分析結果呈現:通常認為,這個階段的主要任務是把建模的結果以圖、表或者更加複雜的可視化方式呈現出來。但我認為不止於此。首先,呈現結果不是這個階段的目的,目的應該是讓業務人員對分析結果有充分的理解。其次,呈現的手段除了可視化,最重要的應該是溝通。而溝通是雙向的,可以保證結果最大程度上被他人理解。
- 業務價值發現:通常數據分析師會在分析結果中提出對業務的價值,但是這個價值只有被業務人員認可才有可能實現。所以,此處的「發現」應該是分析師和業務人員的「共同認知」。
- 業務價值實現:業務價值發現和實現經常不被包含在數據分析過程中。但是,就如同我對數據分析的定義,業務價值才是數據分析的終極目的。因此,我認為價值的實現才是整個過程的最後一個階段,這個階段雖然是有業務人員控制的,但是仍然需要分析師的深度參與。因為雙方對於分析結果的理解和價值的發現經常出現偏差,需要在實踐中逐步達到統一。
最後,關於數據分析過程,我認為有幾點需要給予非常的重視:
- 在開始做分析之前,首先要有分析目標!分析目標!分析目標!重要的事情說三遍。
- 過程不是單向的,在後一個階段中發現問題時可以跳回到前一階段
- 過程不是一次性,而是不斷循環往複的。上一次分析過程的終點,可能是下一次分析過程的起點。我們經常會在業務價值發現和實現階段發現新的分析主題,並把它作為下一次分析的起點。
- 對於任何一次分析來講,不是每個階段都是必需的
- 整個過程中的大多數時間都需要分析師和業務人員的密切合作
推薦閱讀:
※一文讀懂數據分析的流程和方法論
※數據團隊建設思考
※數據分析階段性總結
※大數據時代的小人物
※新飾覺陳列|懂數據的陳列師,能夠撐起店鋪銷售半邊天···