標籤:

如何用數據驅動產品和運營(上)

作者:桑文鋒,Sensors Data的創始人&CEO,前百度大數據部技術經理

本文內容來自3月4日在PMCAFF微課堂的線上分享,感謝工作人員的筆記。我潤色後,分為上下兩篇,放到專欄上。

內容1:【大數據思維】

首先,來看第一個部分內容——談一下大數據思維和數據驅動。

在2011年、2012年大數據概念火了之後,可以說這幾年許多傳統企業也好,互聯網企業也好,都把自己的業務給大數據靠一靠,並且提的比較多的是大數據思維。

那麼大數據思維是怎麼回事?我們來看個例子:

【案例1:輸入法】

首先,我們來看一下輸入法的例子。我2001年上大學,那時用的輸入法比較多的是智能ABC,還有微軟拼音,還有五筆。那時候的輸入法比現在來說要慢的很多,許多時候輸一個詞都要選好幾次,去選詞還要多次調整才能把這個字打出來,效率是非常低的。

到了2002年、2003年出了一種新的輸出法——紫光拼音,感覺真的很快,鍵盤沒有按下去字就已經跳出來了。但是,後來很快發現紫光拼音輸入法也有它的問題,比如當時互聯網發展已經比較快了,會經常出現一些新的辭彙,這些辭彙在它的詞庫里沒有的話,就很難敲出來這個詞。

在2006年左右,搜狗輸入法出現了。搜狗本身是一個搜索,它積累了一些用戶輸入的檢索詞這些數據。用戶用輸入法時候也會產生的這些詞的信息。搜狗輸入法將它們進行統計分析,把一些新的辭彙逐步添加到詞庫里去,通過雲的方式進行管理。

比如,去年流行一個詞叫「然並卵」,這樣的一個詞如果用傳統的方式,因為它是一個重新構造的詞,在輸入法是沒辦法通過拼音「ran bing luan」直接把它找出來的。然而,在大數據思維下那就不一樣了,換句話說,我們先不知道有這麼一個辭彙,但是我們發現有許多人在輸入了這個辭彙,於是,我們可以通過統計發現最近新出現的一個高頻辭彙,把它加到司庫裡面並更新給所有人,大家在使用的時候可以直接找到這個詞了。

【案例2:地圖】

再來看一個地圖的案例。在這種電腦地圖、手機地圖出現之前,我們都是用紙質的地圖。這種地圖差不多就是一年要換一版,因為許多地址可能變了,並且在紙質地圖上肯定是看不出來,從一個地方到另外一個地方怎麼走是最好的?中間是不是堵車?這些都是有需要有經驗的各種司機才能判斷出來。

在有了百度地圖這樣的產品就要好很多,比如:它能告訴你這條路當前是不是堵的?或者說能告訴你半個小時之後它是不是堵的?它是不是可以預測路況情況?

此外,你去一個地方它可以給你規劃一條防擁堵路線,這些就是因為它採集到許多數據。比如:大家在用百度地圖的時候,有GPS地位信息,基於你這個位置的移動信息,就可以知道路的擁堵情況。另外,他可以收集到很多用戶使用的情況,可以跟交管局或者其他部門來採集一些其他攝像頭、地面的感測器採集的車輛的數量的數據,就可以做這樣的判斷了。

這裡,我們來看一看紙質的地圖跟新的手機地圖之間,智能ABC輸入法跟搜狗輸入法都有什麼區別?

這裡面最大的差異就是有沒有用上新的數據。這裡就引來了一個概念——數據驅動。有了這些數據,基於數據上統計也好,做其他挖掘也好,把一個產品做的更加智能,變得更加好,這個跟它對應的就是之前可能沒有數據的情況,可能是拍腦袋的方式,或者說我們用過去的,我們想清楚為什麼然後再去做這個事情。相比之下數據驅動這種方式效率就要高很多,並且有許多以前解決不了的問題它就能解決的非常好。

【數據驅動】

對於數據驅動這一點,可能有些人從沒有看數的習慣到了看數的習慣那是一大進步,是不是能看幾個數這就叫數據驅動了呢?這還遠遠不夠,這裡來說一下什麼是數據驅動?或者現有的創業公司在進行數據驅動這件事情上存在的一些問題。

一種情況大家在公司裡面有一個數據工程師,他的工作職責就是跑數據。

不管是市場也好,產品也好,運營也好,老闆也好,大家都會有各種各樣的數據需求,但都會提給數據工程師老王。然而,這個資源也是有限的,他的工作時間也是有限的,只能一個一個需求去處理,他本身工作很忙,大家提的需求之後可能並不會馬上就處理,可能需要等待一段時間。即使處理了這個需求,一方面他可能數據準備的不全,他需要去採集一些數據,或做一些升級,他要把數據拿過來。拿過來之後又在這個數據上進行一些分析,這個過程本身可能兩三天時間就過去了,如果加上等待的時間更長。

對於有些人來說,這個等待周期太長,整個時機可能就錯過了。比如,你重要的就是考察一個節日或者一個開學這樣一個時間點,然後想搞一些運營相關的事情,這個時機可能就錯過去了,許多人等不到了。有些同學可能就乾脆還是拍腦袋,就不等待這個數據了。這個過程其實就是說效率是非常低的,並不是說拿不到這個數據,而是說效率低的情況下我們錯過了很多機會

對於還有一些公司來說,之前可能連個數都沒有,現在有了一個儀錶盤,有了儀錶盤可以看到公司上個季度、昨天總體的這些數據,還是很不錯的。

對老闆來說肯定還是比較高興,但是,對於市場、運營這些同學來說可能就還不夠。比如,我們發現某一天的用戶量跌了20%,這個時候肯定不能放著不管,需要查一查這個問題出在哪。這個時候,只看一個宏觀的數那是遠遠不夠的,我們一般要對這個數據進行切分,按地域、按渠道,按不同的方式去追查,看到底是哪少了,是整體少了,還是某一個特殊的渠道獨特的地方它這個數據少了,這個時候單單靠一個儀錶盤是不夠的。

理想狀態的數據驅動應該是怎麼樣的?就是一個自助式的數據分析,讓業務人員每一個人都能自己去進行數據分析,掌握這個數據。

前面我講到一個模式,我們源頭是一堆雜亂的數據,中間有一個工程師用來跑這個數據,然後右邊是接各種業務同學提了需求,然後排隊等待被處理,這種方式效率是非常低的。理想狀態來說,我們先將大數據源本身整好,整全整細了,中間提供強大的分析工具,讓每一個業務員都能直接進行操作,大家並發的去做一些業務上的數據需求,這個效率就要高非常多。

內容2:【數據處理的流程】

接下來我們講第二部分數據處理的流程。

大數據分析這件事用一種非技術的角度來看的話,就可以分成一個一個數據金字塔,自底向上的是三個部分:第一個部分是數據採集,第二個部分是數據建模,第三個部分是數據分析,我們來分別看一下。

【數據採集】

首先來說一下數據採集,我在百度幹了有七年是數據相關的事情。我最大的心得——數據這個事情如果想要做好,最重要的就是數據源。數據源這個整好了之後,後面的事情都很輕鬆。

用一個好的查詢引擎、一個慢的查詢引擎無非是時間上可能消耗不大一樣,但是數據源如果是差的話,後面用再複雜的演算法可能都解決不了這個問題,可能都是很難得到正確的結論。

好的數據源我覺得就是兩個基本的原則,一個是全,一個是細

:就是說我們要拿多種數據源,不能說只拿一個客戶端的數據源,服務端的數據源沒有拿,資料庫的數據源沒有拿,做分析的時候沒有這些數據你可能是搞不了的。另外,大數據裡面講的是全量而不是抽樣。不能說只抽了某些省的數據,然後就開始說全國是怎麼樣。可能有些省非常特殊,比如新疆、西藏這些地方它客戶端跟內地可能有很大差異的。

:其實就是強調多維度,在採集數據的時候盡量把每一個的維度、屬性、欄位都給它採集過來。比如:像where、who、how這些東西給它採集下來,後面分析的時候就跳不出這些能夠所選的這個維度,而不是說開始的時候也圍著需求。根據這個需求確定了產生某些數據,到了後面真正有一個新的需求來的時候,又要採集新的數據,這個時候整個迭代周期就會慢很多,效率就會差很多,盡量從源頭去做好數據採集

【數據建模】

有了數據之後,就要對數據進行加工,不能把原始的數據直接暴露給上面的業務分析人員,它可能本身是雜亂的,沒有經過很好的邏輯抽象的。

這裡就牽扯到數據建模。首先,提一個概念就是數據模型。許多人可能對數據模型這個詞產生一種畏懼感,覺得模型這個東西是什麼高深的東西,很複雜,但其實這個事情非常簡單。

我春節期間在家干過一件事情,我自己家裡面家譜在文革的時候被燒掉了,後來家裡的長輩說一定要把家譜這些東西給存檔一下,因為我會電腦,就幫著用電腦去理了一下這些家族的數據這些關係,整個族譜出來。

我們現實是一個個的人,家譜裡面的人,通過一個樹型的結構,還有它們之間數據關係,就能把現實實體的東西用幾個簡單圖給表示出來,這裡就是一個數據模型。

數據模型就是對現實世界的一個抽象化的數據的表示。我們這些創業公司經常是這麼一個情況,我們現在這種業務,一般前端做一個請求,然後對請求經過處理,再更新到資料庫裡面去,資料庫裡面建了一系列的數據表,數據表之間都是很多的依賴關係。

比如,就像我圖片裡面展示的這樣,一個業務線發展差不多一年以上它可能就牽扯到幾十張甚至上百張數據表,然後把這個表直接提供給業務分析人員去使用,理解起來難度是非常大的。

這個數據模型是用於滿足你正常的業務運轉,為產品正常的運行而建的一個數據模型。但是,它並不是一個針對分析人員使用的模型。如果,非要把它用於數據分析那就帶來了很多問題。比如:它理解起來非常麻煩。

另外,數據分析很依賴表之間的這種格式,比如:某一天我們為了提升性能,對某一表進行了拆分,或者加了欄位、刪了某個字短,這個調整都會影響到你分析的邏輯。

這裡,最好要針對分析的需求對數據重新進行建模,它內容可能是一致的,但是我們的組織方式改變了一下。就拿用戶行為這塊數據來說,就可以對它進行一個抽象,然後重新把它作為一個分析表。

用戶在產品上進行的一系列的操作,比如瀏覽一個商品,然後誰瀏覽的,什麼時間瀏覽的,他用的什麼操作系統,用的什麼瀏覽器版本,還有他這個操作看了什麼商品,這個商品的一些屬性是什麼,這個東西都給它進行了一個很好的抽象。這種抽樣的很大的好處很容易理解,看過去一眼就知道這表是什麼,對分析來說也更加方便。

在數據分析領域,特別是針對用戶行為分析方面,目前比較有效的一個模型就是多維數據模型,「在線分析處理」這個模型。它裡面有這個關鍵的概念,一個是維度,一個是指標

維度
就是一個屬性。比如「城市」是一個維度,它有「北京」、「天津」、「上海」這些取值。「操作系統」也是一個維度,有「Mac OS」、「iOS」、「Android」這些取值。

通過維度交叉,就可以看一些指標情況,比如用戶量、銷售額,這些就是指標。比如,通過這個模型就可以看來自北京,使用 iOS 的,他們的整體銷售額是怎麼樣的。

這裡只是舉了兩個維度,可能還有很多個維度。總之,通過維度組合就可以看一些指標的數,大家可以回憶一下,大家常用的這些業務的數據分析需求是不是許多都能通過這種簡單的模式給抽樣出來。

內容3:【數據分析方法】

接下來看一下互聯網產品採用的數據分析方法。

對於互聯網產品常用的用戶行為分析來說,有這麼四種:

  • 一種是多維事件的分析,分析維度之間的組合、關係。
  • 第二種是漏斗分析,對於電商、訂單相關的這種行為的產品來說非常重要,要看不同的渠道轉化這些東西。
  • 第三種留存分析,用戶來了之後我們希望他不斷的來,不斷的進行購買,這就是留存。
  • 第四種回訪,回訪是留存的一種特別的形式,可以看他一段時間內訪問的頻次,或者訪問的時間段的情況

【方法1:多維事件分析法】

首先來看多維事件的分析,這塊常見的運營、產品改進這種效果分析。其實,大部分情況都是能用多維事件分析,然後對它進行一個數據上的統計。

1. 【三個關鍵概念】

這裡面其實就是由三個關鍵的概念,一個就是事件,一個是維度,一個是指標

事件就是說任何一個互聯網產品,都可以把它抽象成一系列事件,比如針對電商產品來說,可抽象到提交訂單、註冊、收到商品一系列事件用戶行為。

每一個事件裡面都包括一系列屬性。比如,他用操作系統版本是否連wifi;比如,訂單相關的運費,訂單總價這些東西,或者用戶的一些職能屬性,這些就是一系列維度

基於這些維度看一些指標的情況。比如,對於提交訂單來說,可能是他總提交訂單的次數做成一個指標,提交訂單的人數是一個指標,平均的人均次數這也是一個指標;訂單的總和、總價這些也是一個指標,運費這也是一個指標,統計一個數後就能把它抽樣成一個指標。

2. 【多維分析的價值】

來看一個例子,看看多維分析它的價值。

比如,對於訂單支付這個事件來說,針對整個總的成交額這條曲線,按照時間的曲線會發現它一路在下跌。但下跌的時候,不能眼睜睜的看著它,一定要分析原因。

怎麼分析這個原因呢?常用的方式就是對維度進行一個拆解,可以按照某些維度進行拆分,比如我們按照地域,或者按照渠道,或者按照其他一些方式去拆開,按照年齡段、按照性別去拆開,看這些數據到底是不是整體在下跌,還是說某一類數據在下跌。

這是一個假想的例子——按照支付方式進行拆開之後,支付方式有三種,有用支付寶alipay,或者用微信支付,或者用銀行卡支付這三種方式。

通過數據可以看到支付寶、銀行支付基本上是一個沉穩的一個狀態。但是,如果看微信支付,會發現從最開始最多,一路下跌到非常少,通過這個分析就知道微信這種支付方式,肯定存在某些問題。

比如:是不是升級了這個介面或者微信本身出了什麼問題,導致了它量下降下去了?

【方法2:漏斗分析】

漏斗分析是用數據來看一個用戶從做第一步操作到後面每一步操作,實際的轉化過程。

比如,一批用戶先瀏覽了你的首頁,瀏覽首頁之後可能一部分人就直接跑了,還有一部分人可能去點擊到一個商品裡面去,點擊到商品可能又有很多人跑了,接下來可能有一部分人就真的購買了,這其實就是一個漏斗。

通過這個漏斗,就能分析一步步的轉化情況,然後每一步都有流失,可以分析不同的渠道其轉化情況如何。比如,打廣告的時候發現來自百度的用戶漏斗轉化效果好,就可能在廣告投放上就在百度上多投一些。

【方法3:留存分析】

比如,搞一個地推活動,然後來了一批註冊用戶,接下來看它的關鍵行為上面操作的特徵,比如當天它有操作,第二天有多少人會關鍵操作,第N天有多少操作,這就是看它留下來這個情況。

【方法4:回訪分析】

回訪就是看進行某個行為的一些頻度特徵,如對於購買黃金這個行為來說,在一周之內至少有一天購買黃金的人有多少人,至少有兩天的有多少人,至少有7天的有多少人,或者說購買多少次數這麼一個分布,就是回訪回購這方面的分析。

上面說的四種分析結合起來去使用,對一個產品的數據支撐、數據驅動的這種深度就要比只是看一個宏觀的訪問量或者活躍用戶數就要深入很多。

下一篇:如何用數據驅動產品和運營(下) - 瓦利哥的機器歲月 - 知乎專欄

推薦閱讀:

學習數據分析對我的意義及實踐計劃
pandas 1 | 10分鐘入門pandas,SO EASY!!!
從零學會數據分析:複雜數據分析
數據分析的道與術
(轉)41個超級網路資源資料庫,絕對有你想要的!

TAG:大数据分析 |