10. 數據分析三元論:勢、道、術

  • 勢:有個成語叫「大勢所趨」,順應趨勢、迎合潮流的事情做起來總是事半功倍的。在做數據分析之前,我們要問一問:在這個時代、行業、公司做數據分析是大勢所趨嗎?要回答這個問題,首先要搞清楚哪些因素構成了數據分析的「勢」。我列舉如下幾個:
    • 行業:我以為只有那些能夠產生大量數據、且市場需求和業務模式變化較快、競爭較為充分的行業更適合做數據分析。大量數據是基礎和原材料;市場需求和競爭壓力是內在的驅動力。比如To C的電商行業,數據量已經到了一定量級,而人的需求往往是變化較快的,且這個行業沒有形成事實上的壟斷。雖然阿里、京東的電商平台已經佔據了很大的市場份額,但是他們之間仍然存在競爭,而且像嚴選、考拉、網紅電商等垂直電商也還有生存空間。再比如電信和金融行業,也能滿足以上幾個條件。但是有些行業,看起來業務規模大,但實際上不適合去做數據分析。比如家裝、餐飲,這兩個行業雖然古老,但除了某些巨頭之外,信息化做的相對較差,數據採集都是問題,更談不上做數據分析了。再比如能源行業,也能夠產生大量的數據,但是因為市場需求相對穩定,且基本形成了國家壟斷,沒有做數據分析的內在需求。
    • 公司的數據環境:數據環境包括信息化水平、數據文化、老闆對數據的重視程度等。這幾個因素是很好理解的。信息化水平決定了數據的量和質量,消除數據不一致、清洗臟數據要花多少時間和精力,做過的人都知道。。。數據文化包括數據相關的流程、規章、制度,公司內部對數據認知和利用的程度等。最後,我向來認為數據是一把手工程,由於數據從採集到價值產出,都是涉及多個部門的利益,沒有老闆的支持,做好數據是天方夜譚。
  • 道:所謂「道」,主要指分析體系和框架、目的和價值。而這些主要受公司的業務模式和業務需求的影響。說白了,業務模式越簡單、越清晰,數據分析越容易出成果。因為簡單的業務模式能顯著減少數據分析師學習業務的成本。分析體系和框架也會簡單明了,在分析時需要考慮的影響因素就越少。而價值鏈短業務模式更容易讓分析主題直接與業務收益掛鉤,更容易讓數據分析成果變現。而分析需求越穩定,就可以給分析師更多的時間深入研究下去,不斷迭代,最終產出更大的價值。分析需求越清晰,花在需求討論中的時間就越少,最終分析成果被轉化的可能性就越大。
  • 術:所謂「術」,是指數據分析的方法和過程,其中分析思維和分析技術對分析結果的影響。正如我在開篇所述,數據分析所涉及技術體系非常龐大,而且學習資料也很多,不在本專欄範圍之內。我重點想說說我經驗中的一些分析技巧(包括思維和方法):
  1. 分析主題的定性與定量:設計分析主題中的重要一步,是要確定分析的目的是定性或是定量。如果是定性,通常只要考慮有關或無關,正面影響或負面影響。定量分析是很受業務方歡迎的,分析也更加複雜和困難,通常要通過機器學習模型解決。
  2. 發現分析主題的兩個切入點:指標監控與業務問題。在《如何設定分析目標》一節講過,數據部門更適合從指標監控中發現問題,業務部門更適合從業務中發現問題。但對於一個成熟的數據部門,把指標監控和業務監控深度結合,對於發現分析主題更有利。
  3. 數學建模:我對數學建模技術了解並不深。但是如果能把業務問題轉化為一個數學模型,對於確定分析思路會很有幫助。
  4. 指標創新:指標其實是數據分析師分析業務問題的武器。因為無論你用什麼分析方法,總要用到一些數據,而這些數據的計算方法、範圍會很大程度上影響分析結果。且不說任何一個建模過程中的特徵選擇都非常重要,即使只是對業務的簡單監控,一個好的指標往往能準確無誤地反映出問題。對於互聯網,PV、UV、時長、留存、點擊率、退出率這些是大家很常用的。用來監控整體業務是沒有問題的,但是對於某個小的業務板塊就不太夠了。比如,作為內容平台,我想衡量一次曝光的用戶體驗如何,應該用什麼指標?有人會建議用點擊率,但是點擊率會受到標題黨的影響,此時高的點擊率並不代表好的用戶體驗。比較好的選擇是把點擊率、閱讀時長、閱讀進度等合成一個指標。
  5. 整體與個體:大處著眼,小處著手。無論是數據還是業務,都不是孤立存在的,系統性思維對於分析師非常重要。所以在看到一個小問題的時候,要知道它絕對不會影響這一小塊業務;而看到大的目標出現問題的時候,要能意識到可能是一些小的業務環節出了岔子。在動手層面,對於數據分析來說,微觀分析更容易獲取實驗數據,也更容易找到因果關係。所以要不斷地對問題分解和細化。
  6. 分析維度的引入:在低維空間上解決不了,在高維空間上就不是個事(想到三體了嗎)。比如SVM,低維空間上無法做到線性可分的數據樣本,在高維空間上就可以。所以如果你在某個分析問題中費了牛勁也找不到答案,也許正是因為你忽略了某個重要的因素。當然也不是維度越多越好,因為維度越多,解釋起來就越困難,不要忘了,結果是給人看的。
  7. 大膽假設,小心求證:試想求解一個方程式,我把某個解代入方程驗證是否正確,要比我從空間中求解容易得多。同理,由於在現實世界中可能影響業務的因素太多,選擇其中最有可能的因素去驗證無疑是一條捷徑。這個假設怎麼去做?首先要對業務有足夠的敏感度。是的,業務老鳥就是比新手能更快地「嗅」出問題的根源;其次要對數據有足夠的敏感度,數據之間都是有關係的,某個相關的指標變化也許就能告訴我們答案。究竟這個假設是不是問題的答案,最終取決於數據驗證。「小心」的意思是,一定要保證在驗證過程中不受其他因素的干擾,AB測試無疑是個很好的方法。還有,在求證過程中要保持邏輯的嚴密。

推薦閱讀:

人人都是數據科學家?Airbnb數據大學開課了
八大數據分析模型之——用戶模型(一)
北京最佳旅遊時間分析
大眾點評網口碑影響因素分析
學習數據分析的意義和實踐計劃

TAG:數據挖掘 | 數據分析師 | 數據分析 |