經典模型分析
在很多行業和場景中,前人已經積累了不少經典的統計分析模型。這些模型的意義在於,可以比較快速地給出一個具有一定參考價值的結果。而且,對於這個行業中的從業者,經典模型通常具有一定的接受度。因此,了解並使用經典模型進行分析,是分析數據的一個捷徑。
舉例一:RFM 模型
比如在分析用戶價值的場景中,比如客戶關係管理、遊戲運營、粉絲運營這些領域,RFM 模型就是一種被廣泛接受的經典模型。這種模型的原理在於挑選三個數據作為建模依據:
- R(Recency)代表用戶最近一次消費行為發生的時間有多遠
- F(Frequency)代表用戶最近一段時間消費行為發生的次數
- M(Monetary) 代表用戶最近一段時間消費的金額
這幾個數據從邏輯上很容易理解:R 較小的用戶近期再次消費的可能較大; F 較大的用戶忠誠度較高;而 M 較大則反映了用戶的貢獻度大。基於這三個數據,RFM 模型就可以對用戶進行細分,繼而對不同種類的用戶採取不同的營銷、激勵手段,最大化從這些用戶身上獲得的收入:
舉例二:Huff 模型
再舉個例子,對商業設施(比如飯店、超市、Mall 等)的潛在市場進行分析,是線下商業分析場景中非常常見的一種需求。Huff 模型就是回答這個問題的一種理念清晰、使用簡單的經典模型。這種模型基於這兩個很容易被人接受的假設:
- 離商業設施越遠的人越不可能稱為這個商業設施的消費者,因此和重力一樣呈反比例關係(但不一定是和重力模型相等的二次方關係)
- 商業設施規模越大、品類越全,人們越有可能去這裡消費
因此,假設對某地 n 個同類商業設施進行分析(存在競爭關係),Huff 模型就採用這樣一個簡單的計算方式:
其中,對於第 j 個商業設施來說,Pij 代表商業設施周邊覆蓋的第 i 個區域(比如某個小區)的人群來消費的概率;Aj 代表商業設施的面積;Dij 代表第 i 個區域到該商業設施的距離;λ 代表距離敏感度。通過這個簡單的模型,很容易反映各個人群聚集區域對商業設施的權重、以及各個商業設施相互之間的影響。再進一步,如果能夠疊加人數、平均消費能力等數據,就可以很快估算一個商業設施潛在的消費市場能有多大了。
示意圖來源 http://www.sc.edu/nutrition/symposium/Hibbert.pdf
指標分析
經典模型的一個更加常見的應用場景就是「指標」。其實所謂指標,並不一定對應一個經典模型,但指標一定凝聚了人對於客觀事物的理解,這種理解可能上升到了「模型」的高度,也可能只是一種便利的數據觀察方式,不一而足。
比如,對於網站或 App 的數字化運營,肯定會涉及到這樣一些指標:PV、UV、DAU、MAU、ARPU 等等。像 PV(Page Views,頁面瀏覽量)、UV(Unique Visitors,獨立訪客)就是簡單的對用戶訪問網站行為的一個統計;而 DAU(Daily Activated Users,日活)、MAU(Monthly Activated Users,月活)則是對「活躍」用戶進行統計的指標;ARPU(Average Revenue Per User,用戶平均收入)就更進一步了,是用來反映網站或 App 平均能從每個用戶身上獲取多少收入的。這些指標非常簡潔、清晰地反映了網站或 App 在某個方面的特點,雖然它們僅僅是對用戶行為從不同維度進行了切分、統計、計算而已。
我們再來看看電商運營,最常見的指標比如:SKU數量(Stock Keeping Unit,庫存單品數量)、CR(Conversion Rate,轉化率) 等等,但事實上,類似淘寶這樣的電商平台給商家準備了上百種指標,精細到比如觀察用戶訪問的入店訪問深度、入店跳失率;比如觀察潛在交易可能的寶貝收藏量、店鋪收藏量等各種指標。這些指標代表了電商平台從運營經驗和邏輯上總結的、商家可能關心的數據,以及這些數據反映的一些本質現象。這些指標的計算雖然不複雜,但顯然包含了一些對現實情況抽象、總結的結果。
現在,再換到智慧城市這個領域,來看一些更加「模型」化的指標。比如有個指標叫「職住比」,定義為某個區域就業崗位的數量和居民中就業人口的比率,「職住比」越接近 1,代表職住越平衡,這個區域越能自給自足;反之,代表居民越會因為工作頻繁地進出這個區域(考慮下北京、上海這樣的超大城市的現狀),形成擁堵的交通、睡城等現象。問題是,這是一個理論上的指標,而實際上,是很難準確統計出一個城市就業崗位的數量、或者居民人口的。因此,就需要建立一些「模型」,從其它的數據去推算這個職住比到底是多少,比如在我們的實踐中,常用各種反映「職」和「住」的寫字樓、居民小區、咖啡廳、娛樂場所、餐館等數據的統計、再輔助一些移動設備統計的活躍人數數據源,通過建模去推算出相對準確的「職住比」指標。
同時,「指標」還有一個重要的作用,就是可以用數值來簡單地說明一些很難形容的結論,而這個指標甚至可能是自己根據需要創造的。比如,有個網站 http://walkscore.com,它給每個地方都計算了一個叫「Walk Score」的指標,如下圖。這個指標越高,代表通過步行就能滿足生活需求的情況越好;反之,則代表經常需要開車或者公交才能滿足生活需求。顯然,這個指標很好地解釋了「日常生活是否便利」這樣一個很難說明的問題。
推薦閱讀:
※今日數據行業日報(2017.5.19)
※聲音信號處理的筆記
※今日數據行業日報(2017.7.26)
※今日數據行業日報(2016.09.22)