七周成為數據分析師:看完後,別再說自己不懂用戶畫像了

作者:秦路 公眾號:秦路(tracykanc)

配套七周成為數據分析師視頻教程:磨劍之作,七周成「師」!秦路主講,七周成為數據分析師

用戶畫像是一個挺新穎的詞,最初它是大數據行業言必及之的時髦概念。現在我們運營談及用戶畫像,它也是和精準營銷、精細化運營直接鉤掛的。這篇文章主要講產品和運營角度的用戶畫像。

希望看完後,解決你一切關於用戶畫像的疑問。

什麼是用戶畫像

用戶畫像一點也不神秘,它是根據用戶在互聯網留下的種種數據,主動或被動地收集,最後加工成一系列的標籤。比如猜用戶是男是女,哪裡人,工資多少,有沒有談戀愛,喜歡什麼,準備剁手購物嗎?

我們常把用戶標籤和用戶畫像對等。但凡用戶畫像的文章,類似上文圖片都會出現,有用爛的趨勢。標籤化是最直觀的解釋,但它不等於用戶畫像。

用戶畫像的正式名稱是User Profile,大家往往把它和User Persona混淆,後者更恰當的名字是用戶角色。是產品設計和用戶調研的一種方式方法。當我們討論產品、需求、場景、用戶體驗的時候,往往需要將焦點聚集在某類人群上,用戶角色便是一種抽象的方法,是目標用戶的集合。

用戶角色不指代具體的誰。「她是一位25歲的白領,211大學畢業,現在從事於互聯網行業的設計工作,居住在北京。單身,平時喜愛搖滾樂」,這段話語,常用來描述產品的典型用戶。

本文談的User Profile,更多是運營和數據息息相關的平台級應用,本質是對任何一個用戶都能用標籤和數據描述。

用戶畫像的應用

它在企業邁大邁強的過程中有舉足輕重的作用。以下是主要的應用。

精準營銷:這是運營最熟悉的玩法,從粗放式到精細化,將用戶群體切割成更細的粒度,輔以簡訊、推送、郵件、活動等手段,驅以關懷、挽回、激勵等策略。

數據應用:用戶畫像是很多數據產品的基礎,諸如耳熟能詳的推薦系統廣告系統。操作過各大廣告投放系統的同學想必都清楚,廣告投放基於一系列人口統計相關的標籤,性別、年齡、學歷、興趣偏好、手機等等。

用戶分析:雖然和Persona不一樣,用戶畫像也是了解用戶的必要補充。產品早期,PM們通過用戶調研和訪談的形式了解用戶。在產品用戶量擴大後,調研的效用降低,這時候會輔以用戶畫像配合研究。新增的用戶有什麼特徵,核心用戶的屬性是否變化等等。

數據分析:這個就不用多提了,用戶畫像可以理解為業務層面的數據倉庫,各類標籤是多維分析的天然要素。數據查詢平台會和這些數據打通。

對大部分產品,用戶畫像用不到推薦系統,個性化推薦也提高不了幾個利潤,畢竟它需要大量的用戶和數據作支撐。所以這些產品,更適合以用戶畫像為基礎去驅動業務。

提了那麼多好處,但是據我了解,不少公司,花了一大筆錢招了不少人建設用戶畫像系統,結果用不起來。或者做了一份用戶畫像的報告,性別用戶地理位置用戶消費金額,看上去挺高大上的,看完也就看完了。

歸根結底,難以用好。

很多用戶畫像初衷是好的,但是淪為了形式主義。

舉身邊的例子,朋友在公司建立用戶畫像劃分了百來個維度。用戶消費、屬性、行為無所不包。本來這不錯啊,但是上線後運營看著這個乾瞪眼。

問題包含但不限於,用戶有那麼多維度,怎麼合理地選擇標籤?我想定義用戶的層級,VIP用戶應該累積消費金額超過多少?是在什麼時間窗口內?為什麼選擇這幾個標準?後續應該怎麼維護和監控?業務發生變化了這個標籤要不要改?

設立好標籤,怎麼驗證用戶畫像的有效性?我怎麼知道這套系統成功了呢?效果不佳怎麼辦?它有沒有更多的應用場景?

策略的執行也是一個糾結的問題。從崗位的執行看,運營背負著KPI。當月底KPI完不成時,你覺得他們更喜歡選擇全量運營,還是精細化呢?

我想不少公司都存在這樣類似情況:使用過用戶畫像一段時間後,發現也就那麼一回事,也就漸漸不再使用。

這是用戶畫像在業務層面遇到老大難的問題。雖然企業自稱建立用戶畫像,應用還是挺粗糙的。

怎樣深入理解用戶畫像

畫虎不全反類汪,想要用好它,首先得深入理解用戶畫像。

現在運營按用戶生命周期設立了幾個標籤,比如新用戶、活躍用戶、流失用戶,這些標籤當然夠細分。但它真的是一個好標籤么?不是。

因為這些都是滯後性的。按流失用戶的一般定義,往往是用戶很長一段時間沒有回應和行動,但是都幾個月沒有響應了,哪怕知道是流失用戶也於事無補。它有價值,但太滯後。

聰明的運營會設立一個新的標籤,最近一次活躍距今天數,用戶有六個月沒有活躍,那麼天數就是180天。這個比單純的流失用戶標籤好,能憑此劃分不同的距今天數,設立30天,90天,180天的時間節點。

距今天數也不是最好的。用戶有差異,同樣兩個用戶A和B,哪怕不活躍天數相同,我也不能認為它們的流失可能性相等。該問題在低頻場景更凸顯,旅遊APP,半年沒有活躍也是正常的,此時距今天數力有未逮。

回過頭看流失用戶,我們定義它,不是為了設立一個高大上的系統。任何企業,肯定一開始就希望流失用戶越少越好,其次才是如何挽回。這種業務前提下,預防性的減少流失用戶比已經流失的標籤更重要。

所以最好的標籤的標籤是用戶流失概率,流失概率>距今消費天數>流失標籤。

不要想當然的歸納一個齊全完備的體系,卻忽略了畫像的核心價值。用戶畫像首先得是商業目的下的用戶標籤集合。

猜用戶是男是女,哪裡人,工資多少,有沒有談戀愛,喜歡什麼,準備剁手購物嗎?探討這些是沒有意義的。是男是女如何影響消費決策,工資多少影響消費能力,有沒有談戀愛會否帶來新的營銷場景,剁手購物怎麼精準推薦,這些才是用戶畫像背後的邏輯。

不是我有了用戶畫像,便能驅動和提高業務。而是為了驅動和提高業務,才需要用戶畫像。這是很容易犯的錯誤。

用戶畫像的標籤一般通過兩種形式獲得,基於已有數據或者一定規則加工,流失標籤和距今天數皆是。另外一種是基於已有的數據計算概率模型,會用到機器學習和數據挖掘。

概率是介於0~1之間的數值。拿性別舉例,除非能直接獲取用戶的身份證信息,用戶很少會填寫性別,填寫的性別也不一定準確,網遊中性別為女的扣腳大漢一抓一大把呢。

這裡就要增加一層推斷用戶真實性別的演算法。中國人的性別和名字是強相關,建國建軍,翠花翠蘭,很容易判斷。演算法中常用貝葉斯,通過已有的姓名性別庫預測新加入的用戶性別。

特殊情況下,不少姓名是中性,男女不辯。像曉晶,可男可女。更特殊的情況,看上去是男性的名字,也有可能是女性,我的初中老師就叫建軍,然而是個和藹可親的小姐姐。

特殊情況意味著特殊的概率,所以不能用非此即彼的二分法。所謂概率,它更習慣告訴你,通過模型推斷,建軍有95%的可能是男性姓名,表示為0.95;曉晶有55%的可能是男性,表示為0.55。

雖然為了方便,模型會設立閾值,將50%以上的概率默認為男性,以下默認為女性。但業務部門的同學要清楚,用戶標籤的本質往往是0~1之間的概率。

概率型的標籤很難驗證。某位用戶被標上學生標籤,要麼真的哄他上傳學籍證明,否則很難知道他是不是真的學生。這種黑箱情況下,針對學生用戶進行營銷活動,效果好與不好,都受標籤準確率的影響。廣告、推薦、精準營銷都會遇到這個問題。

概率肯定有多有少。90%流失概率的用戶,和30%流失概率的用戶,雖然是模型建立出的預測值,非真實,我們還是會認為前者更有離開的可能性,憑此設立運營策略。

這帶來一個新的問題,如何選擇概率的閾值?

我們想要挽迴流失用戶,選擇80%以上概率的人群,還是60%呢?答案已經說過了,要考慮業務,挽迴流失用戶是手段不是目的,實際目的是通過挽迴流失用戶提高利潤,那麼閾值的選擇迎刃而解。計算不同閾值下,挽回用戶的收入和成本,選擇最優解。

推而廣之,推薦系統也好,廣告系統也罷,它們有更複雜的維度、標籤、特徵,本質也是找出用戶最近想不想買車,用戶最近想不想旅遊。把最合適的信息在最恰當時機推給用戶,獲取最大的利益。

我列舉的案例,是簡化過的。像姓名,在電商和消費行業,除了生理上的性別,還會建立消費模型上的性別標籤,有些人雖然是男性,但購物行為是女性,這是要區分的。

看到這裡別怕,想要建好用戶畫像,說簡單不簡單,說難也不難。

如何建立正確的用戶畫像

用戶畫像首先是基於業務模型的。業務部門連業務模型都沒有想好,數據部門只能巧婦難為無米之炊。數據部門也別關門造車,這和做產品一樣,連用戶需求都沒有理解透徹,匆匆忙忙上線一個APP,結果無人問津。

理解消費者的決策,考慮業務場景,考慮業務形態,考慮業務部門的需求…這些概念說得很虛,但是一個好的用戶畫像離不開它們。本文沒有說數據、模型和演算法,是我認為,它們比技術層面更重要。

我們從一個故事開始設立用戶畫像吧。

老王是一家互聯網創業公司的核心人員,產品主營綠色健康沙拉,老王和綠色比較搭嘛。這家公司推出了APP專賣各式各樣的沙拉,現在需要建立用戶畫像指導運營。

公司現階段在業務層面,更關注營銷和銷售:如何將沙拉賣得更好。下圖是老王簡單梳理的運營流程。

老王將顧客按是否購買過沙拉,劃分成潛在用戶和新客。潛在用戶是註冊過APP但還沒有下單,新客是只購買過一次沙拉的用戶,除此以外還有老客,即消費了兩次及以上的人群。

為了便於大家理解,我用JSON格式表示一個簡易的用戶畫像。

為什麼獨立出新客標籤?因為老王的沙拉針對未消費用戶會有新人紅包引導消費,萬事開頭難。這也帶來新客一次後不再消費的問題,所以需要潛在、新客、老客的劃分。

作為一個有追求的運營人員,劃分老客也是不夠,這裡繼續用戶分層。

傳統的分層用RFM三個維度衡量,沙拉的客單價比較固定,F和M取一個就夠用了。老王現在計算不同消費檔次的用戶留存度差異,譬如某時間段內消費達XX元的用戶,在未來時間段是否依舊消費。

沙拉這類餐飲是高頻消費,XX應該選擇一個較窄的時間窗口,統計365天內的消費意義不大。還有一點需要注意的是,沙拉不同季節的銷量是有差異的,冬天沙拉肯定賣的不如夏天,要綜合考慮消費分布。

這裡姑且定義,30天內消費200元以上為VIP用戶。老王的生意如果特別好,也可以繼續劃分超級VIP。這種標籤往往配合業務,譬如VIP有贈送飲料,優先配送的權益。非VIP人群,也需要激勵往VIP發展。

畫像的人口統計屬性,老王靠用戶填寫訂單上的收貨人姓名搞定。籍貫年齡這幾個,對沙拉生意沒有特別大的幫助,難道為四川籍用戶提高麻辣沙拉?

用戶地址,可以通過收貨地設立規則判斷,比如某個地址出現X次,可以將其認為常用地地址。再依據送貨地在寫字樓還是學校,推算用戶是白領還是學生。

老王針對不同屬性的人群,採取了特殊的運營策略。像學生群體,因為7,8月份是暑假,所以老王提前預估到校園地區的銷售額下降。當9月開學季,又能對返校學生進行召回。

白領相關的群體,更關注消費體驗,對價格敏感是次要的。如果平台女用戶的消費佔比高,老王就主打減肥功能的沙拉,並且以包月套餐的形式提高銷量。

以一家沙拉店來看,老王的用戶畫像已經不錯了,但他還是焦頭爛額,因為用戶流失率開始上升。用戶流失有各種各樣的原因:對手老李沙拉的競爭、沙拉的口味、用戶覺得性價比不高、老王不夠帥等。

流失是一個老大難的預測問題。老王對流失用戶的定義是30天沒有消費。想要準確預測,這裡得嘗試用機器學習建模,技術方面先這裡略過。所謂建模,最好要找到用戶開始不消費的時間點之前的關鍵因素,可是是行為,可以是屬性。

用戶歷史窗口內消費金額少,有可能流失;用戶歷史窗口內消費頻次低,有可能流失;用戶歷史窗口內打開APP次數少,有可能流失;用戶給過差評,有可能流失;用戶等餐時間長,有可能流失;用戶的性別差異,有可能流失;餐飲的季度因素,有可能流失…

老王依據業務,挑選了可能影響業務的特徵,提交給數據組嘗試預測流失。需要注意的是,這些用戶行為不能反應真實的情況。大家不妨想一下,流失用戶的行為,是不是一個動態的變化過程?

我曾經消費過很多次,但是突然吃膩了,於是減少消費次數,再之後不怎麼消費,最終流失。單位時間段內的消費忠誠度是梯度下降的,為了更好的描述變化過程,將時間窗口細分成多個等距段。前30~20天、前20~10天、前10天內,這種切分比前30天內可以更好地表達下降趨勢,也更好的預測流失。

從老王的思路看,所謂流失,可以通過用戶行為的細節預判。機器學習的建模雖然依賴統計手段,也離不開業務洞察。這裡再次證明,用戶畫像建立在業務模型上。

流失概率解決了老王的心頭之患,通過提前發現降低流失用戶。挽迴流失推行一段時間後,老王發現雖然流失用戶減少了,但是成本提高了,因為挽回用戶也是要花錢的呀。虧本可不行,老王心頭又生一計,他只挽回有價值的,那種拿了紅包才消費的用戶老王他不要了!老王要的是真愛粉。於是他配合消費檔次區別對待,雖然流失用戶的數量沒有控制好,但是利潤提高了。

上述的用戶畫像,沒有一個標籤脫離於業務之外。基於業務場景,我們還能想像很多用戶畫像的玩法。沙拉有不同的口味,蔬果雞肉海鮮。用戶的口味偏好,可以用矩陣分解、模糊聚類或者多分類的問題計算,也以0~1之間的數字表示喜好程度,相似的,還有價格偏好,即價格敏感度。

再深入想一下業務場景,如果某個辦公地點,每天都有五六筆的訂單,分屬不同的客戶不同的時間段,外賣小哥得送個五六次,對人力成本是多大的浪費呀。運營可以在後台分析相關的數據,以團購或拼單的形式,促成訂單合併,或許銷售額的利潤會下降,但是外賣的人力成本也節約了。這也是用畫像作為數據分析的依據。

老王的運營故事說完了,現在對用戶畫像的建立有一套想法了吧。

用戶畫像的架構

不同業務的畫像標籤體系並不一致,這需要數據和運營目的性的提煉。

用戶畫像一般按業務屬性劃分多個類別模塊。除了常見的人口統計,社會屬性外。還有用戶消費畫像,用戶行為畫像,用戶興趣畫像等。具體的畫像得看產品形態,像金融領域,還會有風險畫像,包括徵信、違約、洗錢、還款能力、保險黑名單等。電商領域會有商品的類目偏好、品類偏好、品牌偏好,不一而足。

上圖是隨手畫的的例子,畫一個架構不難,難得是了解每個標籤背後的業務邏輯和落地方式,至於演算法,又能單獨扯很多文章了。

從數據流向和加工看,用戶畫像包含上下級遞進關係。

以上文的流失係數舉例,它通過建模,其依賴於用戶早期的歷史行為。而用戶早期的歷史行為,即10天內的消費金額、消費次數、登錄次數等,本身也是一個標籤,它們是通過原始的明細數據獲得。

上圖列舉了標籤加工和計算的過程,很好理解。最上層的策略標籤,是針對業務的落地,運營人員通過多個標籤的組合形成一個用戶群組,方便執行。

公司越大,用戶畫像越複雜。某家主打內容分發的公司進入了全新的視頻領域,現在有兩款APP,那麼用戶畫像的結構也需要改變。既有內容相關的標籤,也有視頻相關的標籤,兩者是並行且關聯的。

比如A用戶在內容標籤下是重度使用,而在視頻標籤下是輕度。比如B用戶很久沒打開內容APP有流失風險,但在視頻APP的使用時長上看很忠誠。如此種種,看的是靈活應用。當然,姓名性別這類人口統計標籤,是通用的。

用戶畫像作為平台級的應用,很多運營策略及工具,都是在其基礎上構建的。

基於營銷和消費相關的標籤,新客、老客、用戶的流失和忠誠、用戶的消費水平和頻率等,都是構成CRM(客戶關係管理)的基礎,可能大家更習慣叫它用戶/會員管理運營平台。

它的作用在於,將數據化的標籤,轉換成產品運營策略。不同的標籤對應不同的用戶群體,也對應不同的營銷手段。CRM的結構中會包含各類觸達用戶的常用渠道比如簡訊、郵件、推送等。也包含CMS(內容管理系統),執行人員通過其快速配置活動頁、活動通道、優惠券等,靠營銷活動拉動數據。

老王的沙拉業務要是做大,那麼運營平台就會以圖中的結構搭建。老王在CRM中組合標籤,新客老客流失客的數據藉助BI監控,然後通過CMS系統配置紅包啊優惠券啊等等,再通過短或Push觸達。

好的用戶畫像系統,既是數據生態體系,也是業務和運營的生態體系,它是一門複雜的交叉領域。因為篇幅有限,演算法,數據產品沒有更多的涉及,以後有機會再講吧。核心思想希望大家能吃透。若有吐槽和疑問歡迎留言。

萬千用法,存乎一心。

磨劍之作,七周成「師」!秦路主講,七周成為數據分析師 磨劍之作,七周成「師」!秦路主講,七周成為數據分析師 雙十一狂歡,全場5折 11.11狂歡

關鍵字:已有 1300人學習 數據分析思維、業務、Excel、數據可視化、MySQL、統計學、Python 已連載到82課時。

推薦閱讀:

花6000賺48,數據分析師的另一面
結構思維——用結構化思考讓數據分析到達問題的底層
數據分析師的春節攻略!五大經典問題爆笑回答
數據分析進階要怎麼做?

TAG:数据分析师 | 数据分析 | 用户画像 |