Python數據分析與數據化運營：會員數據化運營2-應用場景與分析模型

06-07

來自專欄 Python程序員

作者介紹：宋天龍（TonySong），資深大數據技術專家，歷任軟通動力集團大數據研究院數據總監、Webtrekk（德國最大的網站數據分析服務提供商）中國區技術和諮詢負責人、國美在線大數據中心經理。

本文來自《Python數據分析與數據化運營》配套書籍第5章節內容，機械工業出版社華章授權發布，未經允許，禁止轉載！

此書包含 50個數據工作流知識點，14個數據分析和挖掘主題，8個綜合性運營案例。涵蓋了會員、商品、流量、內容4大數據化運營主題，360°把脈運營問題並貼合數據場景落地。

書籍購買鏈接：https://item.jd.com/12254905.html

課程學習鏈接：網站數據分析場景和方法——效果預測、結論定義、數據探究和業務執行https://edu.hellobi.com/course/221

往期回顧：Python數據分析與數據化運營：會員數據化運營1-概述與關鍵指標

5.3 會員數據化運營應用場景

會員數據化運營主要應用於會員營銷和會員關懷兩方面。

5.3.1 會員營銷

數據化運營應用於會員營銷主要體現在以下幾個方面：

以信息化的方式建立基於會員的客戶關係管理系統，促進所有會員數據的信息化
通過特定方法將普通用戶拓展企業會員，並提高新會員留存率
基於用戶歷史消費記錄，挖掘出用戶潛在消費需求及消費熱點
基於歷史數據，為會員營銷活動提供策略指導和建議，促進精準營銷活動的開展
從會員營銷結果中尋找異常訂單或轉化，作為黃牛或VIP客戶識別的參考
挖掘會員傳播關係，找到口碑傳播效應的關鍵節點

5.3.2 會員關懷

數據化運營應用於會員關懷主要體現在以下幾個方面：

為預警事件設置閥值，自動觸發應急處理機制
分析會員行為，為會員提供個性化、精準化和差異化服務
通過會員喜好分析，提高客戶忠誠度、活躍度和粘性
通過會員分析，預防會員流失並找到挽回已經流失會員的方法
基於會員群體行為，更好的劃分會員群體屬性並挖掘群體性特徵
基於群體用戶和內容相似度，發現有價值的會員互動方式
基於會員生命周期的關懷管理，促進用戶終生價值最大化

5.4 會員數據化運營分析模型

在會員數據化運營分析模型中，將主要介紹會員細分模型、會員價值度模型、會員活躍度模型、會員流失預測模型、會員特徵分析模型和營銷響應預測模型。

5.4.1 會員細分模型

會員細分模型是將整體會員劃分為不同的細分群體或類別，然後基於細分群體做管理、營銷和關懷。會員細分模型常用於在整體會員的宏觀性分析以及探索性分析，通過細分建立初步認知為下一步的分析和應用提供基本認知；會員細分也是做精準營銷的基本前提。

常用的細分模型包括：基於屬性的方法、ABC分類法、聚類法等。

基於屬性的方法

會員細分可以基於現有會員屬性，常用的細分屬性包括：會員地域（例如北京、上海、武漢等）、產品類別（例如大家電、3C數碼、圖書等）、會員類別（例如大客戶、普通客戶、VIP客戶等）、會員性別（例如男、女、未知）、會員消費等級（例如高價值會員、中價值會員、低價值會員）、會員等級（例如鑽石、黃金、白銀）等。這種細分方法可以直接利用現有會員資料庫數據，無需做二次開發和計算，是一種比較簡單且粗獷的方法。

ABC分類法

ABC分類法（Activity Based Classification）是根據事物的主要特徵做分類排列，從而實現區別對待、區別管理的一種方法。ABC法則是帕累托二八法則衍生出來的一種法則。不同的是，二八法則強調的是抓住關鍵，ABC法則強調的是分清主次，並將管理對象劃分為A、B、C三類。

在ABC分析法中先將目標數據列倒敘排序，然後做累積百分比統計，最後將得到的累積百分比按照下面的比例值劃分為A、B、C三類：

A類因素，發生累計頻率為0%~80%，是主要影響因素。
B類因素，發生累計頻率為80%~90%，是次要影響因素。
C類因素，發生累計頻率為90%~100%，是一般影響因素。

下面以示例數據說明如何使用ABC分類法對會員做細分。

步驟1 先建立一個二維表格數據，數據中包括會員ID和訂單金額（或其他關鍵指標）兩列。

步驟2 二維表格數據按照訂單金額做倒敘排序。

步驟3 對訂單金額列做累積百分比統計。

步驟4 按照A、B、C劃分標準將會員劃分為不同的分類，得到如表5-3所示數據。

聚類法

使用聚類法做會員分群是常用的非監督式方法，該方法無需任何先驗經驗，只需要指定要劃分的群體數量即可。有關聚類分析的具體操作方法，請查看「4.1.6 代碼實操：Python聚類分析」。

5.4.3 會員價值度模型

會員價值度用來評估用戶的價值情況，是區分會員價值的重要模型和參考依據，也是衡量不同營銷效果的關鍵指標之一。價值度模型一般基於交易行為產生，衡量的是有實體轉化價值的行為。常用的價值度模型是RFM。

RFM模型是根據會員最近一次購買時間R（Recency）、購買頻率F（Frequency）、購買金額M（Monetary）計算得出RFM得分，通過這三個維度來評估客戶的訂單活躍價值，常用來做客戶分群或價值區分。該模型常用於電子商務（即交易類）企業的會員分析。

RFM模型基於一個固定時間點來做模型分析，因此今天做的RFM得分跟7天前做的結果可能不一樣，原因是每個客戶在不同的時間節點所得到的數據不同。以下是RFM模型的基本實現過程：

步驟1設置要做計算時的截止時間節點（例如2017-5-30），用來做基於該時間的數據選取和計算。

步驟2 在會員資料庫中，以今天為時間界限向前推固定周期（例如1年），得到包含每個會員的會員ID、訂單時間、訂單金額的原始數據集，一個會員可能會產生多條訂單記錄。

步驟3 數據預計算。從訂單時間中找到各個會員距離截止時間節點最近的訂單時間作為最近購買時間；以會員ID為維度統計每個用戶的訂單數量作為購買頻率，將用戶多個訂單的訂單金額求和得到總訂單金額。由此得到R、F、M三個原始數據量。

步驟4 R、F、M分區。對於F和M變數來講，值越大代表購買頻率越高、訂單金額越高；但對R來講值越小代表離截止時間節點越近，因此值越好。對R、F、M分別使用五分位（三分位也可以，分位數越多劃分的越詳細）法做數據分區，需要注意的是，對於R來講需要倒過來劃分，離截止時間越近的值劃分越大。這樣就得到每個用戶的R、F、M三個變數的分位數值。

步驟5 將三個值組合或相加得到總的RFM得分。對於RFM總得分的計算有兩種方式，一種是直接將三個值拼接到一起，例如RFM得分為312、333、132；一種是直接將三個值相加求得一個新的匯總值，例如RFM得分為6、9、6。

在得到不同會員的RFM的之後，根據步驟5產生的兩種結果有不用的應用思路：

思路1：基於三個維度值做用戶群體劃分和解讀，對用戶的價值度做分析。例如得分為212的會員往往購買頻率較低，針對購買頻率低的客戶定期發送促銷活動郵件；針對得分為321的會員雖然購買頻率高但是訂單金額低等，這些客戶往往具有較高的購買粘性，可以考慮通過關聯或搭配銷售的方式提升訂單金額。

思路2：基於RFM的匯總得分評估所有會員的價值度價值，並可以做價值度排名；同時，該得分還可以作為輸入維度跟其他維度一起作為其他數據分析和挖掘模型的輸入變數，為分析建模提供基礎。

提示上述示例中模型的三個維度權重是相同的，可以根據不同企業的需求為RFM設置不同權重值，然後通過加權的形式得到符合運營需求的得分。

5.4.2 會員活躍度模型

會員活躍度用來評估用戶的活躍度情況，是會員狀態分析的基本模型之一。在「5.2.3 會員活躍度指標」中的整體活躍度指標中介紹了一種基於加權統計的方法，在此再介紹另一種活躍度模型——RFE模型。

RFE模型基於用戶的普通行為（非轉化或交易行為）產生，它跟RFM類似都是使用三個維度做價值評估。RFE模型是根據會員最近一次訪問時間R（Recency）、訪問頻率F（Frequency）和頁面互動度E（Engagements）計算得出的RFE得分。其中：

最近一次訪問時間R（Recency）：會員最近一次訪問或到達網站的時間
訪問頻率F（Frequency）：用戶在特定時間周期內訪問或到達的頻率
頁面互動度E（Engagements）：互動度的定義可以根據不同企業的交互情況而定，例如可以定義為頁面瀏覽量、下載量、視頻播放數量等。

在RFE模型中，由於不要求用戶發生交易，因此可以做未發生登錄、註冊等匿名用戶的行為價值分析，也可以做實名用戶分析。該模型常用來做用戶活躍分群或價值區分，可用於內容型（例如論壇、新聞、資訊等）企業的會員分析。

RFM和RFE模型的實現思路相同，僅僅是計算指標發生變化。對於RFE的數據來源，可以從企業自己監控的用戶行為日誌獲取，也可以從第三方網站分析工具獲得。

在得到用戶的RFE得分之後，跟RFM類似也可以有兩種應用思路：

思路1：基於三個維度值做用戶群體劃分和解讀，對用戶的活躍度度做分析。RFE得分為313的會員說明其訪問頻率低，但是每次訪問時的交互都非常不錯，此時重點要做用戶回訪頻率的提升，例如通過活動邀請、精準廣告投放、會員活動推薦等提升回訪頻率。

思路2：基於RFE的匯總得分評估所有會員的活躍度價值，並可以做活躍度排名；同時，該得分還可以作為輸入維度跟其他維度一起作為其他數據分析和挖掘模型的輸入變數，為分析建模提供基礎。

注意無論是RFM和RFE都不要忽略不同的消費頻率、品類和周期對於結果的影響性。例如大家電的更換周期可能是2年、手機的更換頻率是1年、日用消費品的周期卻是7天，由於不同品類的差異性很大，最終得到的得分結果沒有必然的可比性，例如偏向於購買大家電品類的RFM得分為113屬於「正常現象」，因為大家電的購買屬性決定了這就是一個長周期、低頻、大金額的行為。

5.4.4 會員流失預測模型

會員流失預測模型用來預測會員是否流失，是做會員生命周期管理的重要預防性應用。做會員流失模型的關鍵因素之一是要定義好「流失」，即處於何種狀態、具備哪些特徵的會員屬於流失會員；另外，流失也可能區分是永久性流失還是臨時性流失。常見的屬於流失的狀態定義示例：

會員已經退訂公司的促銷活動
會員打電話要求將自己的信息加入通知黑名單
會員已經連續6個月沒有登錄過網站
針對會員發送的關懷激勵活動中沒有任何有效反饋和互動
會員最近1年內沒有任何訂單

上述流失狀態可以歸為兩類：一類是會員有明確的表達，不再希望接收到公司的相關信息；一類是會員沒有明確的表示，但是在業務關注的主要領域內，沒有得到有效反饋。

會員流失預測模型的實現方法屬於分類演算法，常用演算法包括邏輯回歸、支持向量機、隨機森林等，有關這些演算法的具體選擇問題，請參照「4.3.5 如何選擇分類分析演算法」。

在做會員流失預警模型時，需要注意以下幾個問題：

流失會員的樣本分類一定是少數類，需要注意處理樣本不均衡問題。
對於流失會員的預測結果，得到概率性的輸出可以結合流失預測標籤一起應用，因為業務方可以基於概率再結合業務經驗做判斷。
對於參與訓練模型的維度變數的選擇，一定要結合業務經驗，因為業務方對於特定場景的判斷是影響訓練模型和應用結果的關鍵因素之一。
輸入的維度變數中一定要包含發生轉化前的行為數據，假如業務定義為最近6個月沒有訂單的客戶為流失客戶，那麼在做預測模型時需要將用戶的匿名訪問、登錄、頁面瀏覽、搜索、活動諮詢等轉化前的數據考慮在內，而不能只考慮訂單轉化本身。
會員流失預警模型不是一次性的，而是周期性監視和運行的，例如每天、每周或至少是每月。

通過會員流失模型得到每個會員是否屬於流失標籤後，可以將該結果給到會員運營人員，運營人員一般會根據業務經驗做二次審查和確認，然後再通過會員挽回、激勵等機制提升會員的忠誠度，延緩或防止會員流失。而關於如何挽回以及激勵的問題，通常也是需要數據參與來幫助運營人員制定相應的策略，例如在合適的時間、以恰當的方式提供個性化的內容給特定會員，這些都需要數據的支持。

5.4.5 會員特徵分析模型

會員特徵分析模型是針對現有會員做特徵分析。會員特徵分析模型提供的結果可能是模糊的，也可能是明確的。例如：

明確的特徵，它提供了業務所要行動的細節要素，是一種具有極高落地價值的數據分析工作。
模糊的特徵，它指數據分析結果未提供詳細的動作因素，僅指明了下一步行動方向或目標。

會員特徵分析主要應用於以下兩種業務場景。

第一種是在沒有任何前期經驗或特定目標下觸發，希望通過整體特徵分析了解會員全貌。在這種模式下，可以通過一定方法先將用戶劃分為幾個類別，然後再做基於類別的特徵分析，常用實現方法和應用包括：

聚類：通過聚類將用戶劃分為幾個群組，然後再分析不同群組的典型特徵和群組間的差異性。例如：公司的總體會員具有哪些特徵？模型結果：通過聚類方法將會員劃分為3類，然後每個類別都有各自顯著性特徵，會員部門可根據不同類別做特定分析並指定群體性策略。
統計分析：先將整體用戶做統計分析，包括描述性統計、頻數分布等，了解整體數據概括。
第二種是有明確的業務方向，希望找到能達到事件目標的會員特徵，用於做進一步的會員運營。對於這類分析模型，常用的實現方法和應用包括：
分類：利用分類規則例如決策樹找到符合目標的關鍵變數以及對應的變數值，進而確定會員特徵。例如：收入>5400元，最近購買時間是5個月之前，總訂單金額在4300元以下的會員最可能購買商品。
關聯：使用關聯規則找到不同屬性、項目間的關聯發生或序列發生關係，然後將會員的屬性特徵（頻繁項集）提供給運營。例如：購買X商品的客戶一般是來自於上海、購物頻率為1周3次、客單價為100元以下。
異常檢測：使用非監督式的異常檢測方法，從一堆數據中找到異常數據樣本，然後將這些數據樣本特徵提供給運營做進一步確認和審查。例如：異常客戶的特徵往往是每次訂單的商品數量超過4件、地域集中在江蘇和浙江、一般擁有超過3個以上的子賬戶。

會員特徵分析模型輸出的上述兩類結果，第一類結果往往作為輔助於、啟發性和提示性結果，用於為運營提供進一步業務動作的思考，這種一般開始於數據工作項目的開始或業務方對數據主題的先驗經驗不足的情況下；第二類結果則可以作為運營下一步動作的直接「觸點」。

5.4.6 營銷響應預測模型

營銷響應預測模型是針對營銷活動展開的，通常在做會員營銷活動之前，通過營銷響應預測模型分析找到可能響應活動的會員特徵以及整體響應的用戶比例、數量和可能帶來的銷售額。這在會員營銷之前的有關策略制定的輔助價值非常明顯。

營銷響應預測模型的實施採用的一般是分類演算法，常見演算法包括，常用演算法包括邏輯回歸、支持向量機、隨機森林等，有關這些演算法的具體選擇問題，請參照「4.3.5 如何選擇分類分析演算法」。

在做營銷響應模型之前，需要先收集訓練所需的數據集。

步驟1 從所有會員上隨機選擇一定量的會員樣本，具體數量要根據企業實際情況而定，一般情況下，至少要有1000條數據以上（同時要兼顧總體會員數量）才能滿足模型訓練的需要。

步驟2 然後針對選擇的會員樣本通過一定媒介和渠道發送營銷活動信息，例如手機簡訊、電子郵件等。需要注意的是，一定要記錄好營銷活動發送的時間、頻率、信息等關鍵運營要素，這些需要跟後期的實施保持一致。

步驟3 收集營銷活動數據。在收集數據時需要注意數據收集的周期，通常情況下，一般電子郵件的有效周期為1~7天左右，時間過短可能無法被用戶看到；手機簡訊的有效期一般是1天左右，時間太長用戶一般會忽略。

經過上述步驟收集到分類所需的樣本集之後，接著就需要通過分類模型做營銷響應預測，這是典型的二分類問題。在做營銷響應模型訓練時，也需要注意在「5.4.4 會員流失預測模型」提到的問題，二者在很多方面都有共通性。

通過營銷響應預測模型得到的結果一般包括兩個方向：

一是：基於模型找到最可能產生購買轉化行為的會員規則特徵。例如最近一次購買時間在3個月以內、會員等級為3級以上、總訂單金額大於3000、訂單量大於10的客戶。通過這些條件直接從資料庫中篩選對應的會員列表，並可以對該會員列表發送營銷活動。

二是：基於模型預測可能產生的訂單轉化數量、轉化率（例如選擇10000個客戶，會有4000個客戶產生轉化），以及有轉化客戶的客單價（通過訓練樣本集選擇有轉化客戶，然後用訂單金額/會員量計算得到）大體計算出此次發送會員能得到的營銷收入。這些信息可以作為此次營銷活動計劃提報的數據量化指標和資源申請的數據支持。