用戶畫像—計算用戶偏好標籤
先打個小硬廣,用戶畫像相關的工作做了很久也寫了一些相關的博客,現在嘗試能更好地表達、講述清楚畫像這塊的東西,所以開了一期Live「如何進行用戶畫像建模打標籤」。
對用戶畫像建模感興趣的同學可以參加,Live裡面準備了很詳細的ppt文檔。
---------------------------------------------------------------------------------------------
下面介紹如何計算用戶的偏好標籤。
在上一篇寫用戶畫像的文章 「用戶畫像—打用戶行為標籤」中,主要講了如何對用戶的每一次操作行為、業務行為進行記錄打上相應的標籤。在這篇博客中,主要講如何對這些明細標籤進行計算以及偏好的產品、內容的類目。
關於用戶標籤權重的計算,在這篇博客裡面講過了:
超人:用戶畫像之標籤權重演算法這裡再詳細介紹一下:
用戶標籤權重 = 行為類型權重 × 時間衰減 × 用戶行為次數 × TF-IDF計算標籤權重
公式中各參數的釋義如下:
- 行為類型權重:用戶瀏覽、搜索、收藏、下單、購買等不同行為對用戶而言有著不同的重要性,一般而言操作複雜度越高的行為權重越大。該權重值一般由運營人員或數據分析人員主觀給出;
- 時間衰減:用戶某些行為受時間影響不斷減弱,行為時間距現在越遠,該行為對用戶當前來說的意義越小;
- 行為次數:用戶標籤權重按天統計,用戶某天與該標籤產生的行為次數越多,該標籤對用戶的影響越大;
- TF-IDF計算標籤權重:每個標籤的對用戶的重要性及該標籤在全體標籤中重要性的乘積得出每個標籤的客觀權重值;
為計算用戶偏好標籤,需要在用戶行為標籤的基礎上計算用戶行為標籤對應的權重值,而後對同類標籤做權重匯總,算出用戶偏好的標籤。關於用戶行為標籤如何打,在這篇博客裡面有介紹過了
超人:用戶畫像—打用戶行為標籤下面介紹如何在用戶行為標籤表的基礎上加工用戶偏好標籤:
1、用戶標籤權重表結構設計
欄位定義:
- 用戶id(user_id):用戶唯一id;
- 標籤id(tag_id):圖書id;
- 標籤名稱(tag_name):圖書名稱;
- 用戶行為次數(cnt):用戶當日產生該標籤的次數,如用戶當日瀏覽一本圖書4次,則記錄4;
- 行為日期(date_id):產生該條標籤對應日期;
- 標籤類型(tag_type_id):在本案例中通過與圖書類型表相關聯,取出每本圖書對應的類型,如《鋼鐵是怎麼煉成的》對應「名著」;
- 用戶行為類型(act_type_id):即用戶的購買、瀏覽、評論等操作行為,在本例中通過預設數值1~7來定義用戶對應的行為類型。1:購買行為,2:瀏覽行為,3:評論行為,4:收藏行為,5:取消收藏行為,6:加入購物車行為,7:搜索行為;
2、在用戶行為標籤基礎上加工權重表
加工標籤權重表時,需要根據用戶不同行為對應的權重建立一個權重維表:
向維表中插入數據:
3、對每個用戶偏好的每個標籤加總求權重值,對權重值做倒排序,取top N
推薦閱讀:
※零基礎學習Python數據分析:科學計算庫NumPy(2)
※清單|小白轉行數據分析
※tableau 學習,參考書籍
※如何快速入門數據分析
※5款高級圖表使用攻略,讓數據報表具備美感和深度!