數據埋點:從採集到評估

數據分析的前提,是要有數據。因此,在討論數據分析方法之前,我們需要先了解怎麼獲取數據,怎麼將用戶行為記錄下來並用作數據分析。

用戶數據收集從大類上分為兩類,一類是線下收集,一類是線上收集。線下收集顧名思義,收集的過程主要在線下完成,包括但不限於線下調查,用戶訪談等等。當然,線下數據收集不在此節討論範圍內。本節主要討論線上的數據收集邏輯。

1.不同平台埋點採集

線下數據如果從數據數據採集的終端可以分為移動端、PC端,H5端,當然也可能包含一些新的平台比如小程序統計等。埋點有多種平台,一般我們會更加關注移動端和PC端的埋點。因為對於大部分產品而言,移動端和PC端佔據了絕大部分流量。相同的產品,PC端和移動端的埋點會有很大的不同。

PC端難以統計瀏覽事件,但是移動端可以很好的統計。在PC端埋點主要通過頁面中不同的用戶觸發的操作進行統計,比如用戶點擊了某個按鈕,觸發的跳轉鏈接裡面可以加入一些參數來記錄用戶的點擊行為。如果一個用戶就是在瀏覽器中打開了某個網頁,不做操作,這個時候用戶不管是切換到別的產品,或者是在持續瀏覽,對於瀏覽器的埋點而言都是不可知的,雖然有一些近似的方法可以統計。在移動端用戶是否讓產品在前台是可以通過系統獲取的。

埋點移動端有一個明顯的優勢,就是可以獲取終端信息的多種類型的信息,PC端獲取的信息類型有限。比如用戶的設備號,在iOS中比較關鍵的是IDFA,在Android端比較核心的是IMEI。比如如果獲得了用戶的授權,還可以獲得的地點信息。

PC端可以很方便的追蹤網站流浪的來源,但是移動端難以追蹤APP打開之前的行為。在PC端,用戶從其他網站廣告跳轉到產品的網站,這些操作信息都是可以獲取到的。但是在APP端,我們甚至不能知道用戶APP從哪個廣告跳轉到了應用商店下載了APP。

不同平台的埋點採集和數據清洗是一個非常複雜的系統,然而不管使用什麼平台,我們希望獲得的數據本質上都是一致的。

2.數據埋點的參數

數據埋點從大的緯度一般分為兩類。一類是點擊事件,一類是瀏覽事件。瀏覽事件就是記錄用戶對內容的瀏覽行為,點擊事件則是記錄用戶對的內容點擊行為。點擊事件一般定義比較明確,就是用戶發生了明確的點擊則認為事件發生,瀏覽事件定義則比較困難,比如在移動端常見的內容列表頁,快速滑動是否可以認為用戶產生了瀏覽,當用戶停留多久可以認為是產生了瀏覽,這些都是需要進一步的定義。在目前的手機屏幕中可以認為用戶停留超過一秒則產生了瀏覽。

無論是瀏覽事件還是點擊事件,重要的不僅僅是事件發生本身,而是需要記錄足夠的事件發生的信息。在埋點時間的統計中,主要採集兩大類數據,一類是用戶基本信息,一類是業務信息。

用戶基本信息是指用戶使用產品時我們能獲得的能識別該訪問用戶情況的信息,包括用戶的平台,版本、時間,設備ID,用戶ID,訪問IP,網路環境、瀏覽器版本等等。這些基本信息就是用戶訪問產品的基礎信息,無論收集用戶什麼類型的數據,都應該如實記錄這些用戶的基本信息。

業務信息主要指一些業務邏輯,比如事件的來源,事件發生的產品頁面,事件發生的業務線,數據的類型,數據的順序,數據的AB test參數等等,簡而言之,所有業務需要區分的數據,都應該在業務信息裡面體現出來。

3.數據埋點的評估

設計合理的數據埋點收集系統只是數據收集的第一步,能夠高質量的收集數據埋點也是至關重要。那麼這就要求我們了解評估數據埋點質量的方法。另一方面,即使選擇了第三方數據系統的中小型公司,也需要知道如何評估數據系統,然後才能選擇合適的數據系統。

數據埋點的評估有兩個層面,宏觀層面是對整個數據系統層面的評估,主要是評估這個系統產出數據的可靠性和可用性。宏觀的數據質量主要看四個方面:數據丟失率,數據更新頻率,數據來源和維度。

數據丟失率是對數據從用戶發生操作到數據進入數據存儲系統中數據損失的比率。數據埋點從用戶操作到進入數據系統需要經過多個環節,從客戶端上傳開始,每一步都有可能丟失數據,評估一個數據系統的可靠性,數據整體的丟失率是最重要的指標。數據系統丟失往往有多重情況,可能是客戶端手機數據SDK本身造成數據丟失,可能是數據倉庫穩定性比較差,容易發生問題,也可能是隨著數據規模的不斷擴大,系統本身架構所限,數據穩定性變得越來越差。簡而言之,數據丟失率是一個只有持續的監控和投入才能保持在一個比較低的水平,對於中小型團隊而言,選擇比較靠譜的第三方數據系統往往是個更好的方式。

數據更新頻率一般分為兩種,一種是及時更新,一種是次日更新。目前越來越多地業務需要及時更新的數據作為業務的保障,比如廣告系統,推薦系統,搜索系統,往往需要根據用戶的數據及時反饋在系統的排序中,在數據平台構建的時候,最好在一開始就做到及時更新,或者至少在系統構建的時候考慮到為後續及時更新功能留出擴展空間。

好的數據系統一定要能收集多個來源的數據和多個指標的數據。多個來源是指多個平台的數據,無論是客戶端還是網頁端,所有的數據統一存儲和處理有利於後續數據處理分析。多個維度的指標我們在數據埋點採集中已經提到,只有一個數據有足夠多的細分維度,才能在數據分析的結果中真正指導業務的發展。

除了宏觀層面的數據分析,作為產品經理,無論是專門的數據產品經理還是業務產品經理,一定要評估清楚數據的定義是否符合業務的需求。如有可能,在每個客戶端版本發布前,也可以驗收下關鍵性指標是否埋點準確。數據定義核實以及數據埋點驗收都數據臟活累活,但是如果不在這個上面下足夠的功夫,可能會在工作中踩到坑,我也是在踩了很多坑之後才特彆強調這兩點的重要性。在做搜索推薦業務的時候,這兩個坑我都踩過。有一個排序數據我一直按照之前文檔的定義進行理解,因為沒有核實這個關鍵數據,導致線上搜索排序幾乎長時間出於比較混亂的狀態。還有一次因為客戶端發版沒有驗收埋點,導致線上Android埋點搜索數據丟失,這個問題也是在緊急發版之後才進行了修復。也就是在這兩次事件之後,每次有新的業務數據,我都會先核實數據的具體定義,以及數據的收集方法,並且在版本發布之前驗收數據是否符合定義。

4. 小結

了解基礎的數據分析方法相對比較容易,而了解數據埋點的邏輯相對比較困難。對數據埋點的理解,往往決定了一個人數據分析能力的上限,這是非常有意思的事。產品經理的大部分知識都很簡單,門檻很低,要成為優秀的產品經理,往往需要從各個領域汲取知識。

要判斷一個產品經理有沒有成長空間,需要做多種判定,如果只保留一條,我覺得那就是看這個人是否具備快速學習的意願和能力,是否有通過快速學習達成目標的經歷。當然,快速學習的意願和能力是一個很虛的指標,可以再具體一些。產品經理中,有多少人會看數據報表,有多少人會分析數據結果,有多少人會關心數據定義,有多少人會在乎埋點方法。一葉知秋。

說到「秋」,天涼了,注意保暖,多喝熱水,注意膳食平衡。這篇文章就這樣生硬地結束了。


推薦閱讀:

深度 | Mingke:人工智慧技術不成熟,產品經理如何規避「智障」?
一張表,成就了一百美元上的男人!每天按著這張表格自省就能成為愛迪生+馬化騰+周恩來!??
互聯網簡訊-20171220
目前在一家初創公司做UI設計,交互界面視覺都是我一個人做,後面想往交互設計轉,想問該掌握哪些東西?

TAG:数据分析 | 埋点 | 产品经理 |