標籤:

用戶畫像的新手如何開展第一步的行動,以及後續的動作,是如何開展的,?


謝邀。這個問題比較複雜,可能得慢慢回答。

凡事和數據有關的事情,第一步都是先問有哪些數據?

是直接有用戶畫像數據,只需要考慮應用,還是有用戶行為數據,希望通過出挖掘用戶畫像。

有什麼樣的數據,才知道做什麼樣的事情。

如果什麼數據都還沒有,那就先考慮如何獲得數據。

整體來說,有以下三步:

1. 獲取數據:獲得用戶行為數據

2. 挖掘數據:分析用戶行為特徵(畫像)

3. 應用數據:使用畫像數據與現實業務結合

一. 獲取數據

首先要獲得用戶的行為數據,這是後續分析的基礎。

互聯網上用戶的行為數據,大多來自於日誌,即各種網站的訪問日誌,這些日誌通常會記錄用戶的瀏覽,點擊,其中可以包含一些特殊動作(註冊,購買等)。

這裡要注意的一點是用戶的打通,即保障在追蹤用戶行為時用戶ID的唯一性,比如在同一個網站內使用統一的cookie或者賬號,如果存在跨網站行為,是否有能力追蹤是需要考慮的問題。

其次可能要考慮的數據是網頁內容數據,即用戶看的每個頁面是什麼內容,這個展開說比較複雜。簡單來說,涉及到網頁抓取,正文抽取,主題分析等一系列工作。

當然還有一部分是用戶註冊信息,如年齡、性別、職業、手機號等,這部分數據如果能保證正確性,價值會非常之高。

二. 挖掘數據

有了上述的數據基礎,就可以動手做一些分析了。

這裡先說一種簡單的,我稱之為「基於統計的用戶畫像」。這一種比較好理解,就是統計人的一些行為數據,適合於觀測值與目標值統一的情況。比如,就想知道一個人是否喜歡體育,那麼只要統計他瀏覽體育頁面的次數就可以有一個很好的判斷了。

具體操作時,這裡又分兩種情況。一種比較簡單,就是你手上的數據已經很容易知道頁面內容數據了,比如門戶網站,url裡面包含了欄目分類,電商網站,頁面內商品的信息已經知道。這樣直接統計就可以了。

第二種比較麻煩,即你知道用戶瀏覽了什麼網頁,但是不知道頁面內容。這時候就比較麻煩,如「獲取數據」中所說,需要想辦法搞定這部分內容。

還有另外一種,「基於模型預測的用戶畫像」,這種是指觀測值與目標值不一樣的情況。比如說,知道用戶瀏覽了哪些內容,但是希望判斷用戶性別⊙﹏⊙。 這時,需要建一個判斷模型,通常的做法是,先找到一批已知性別的用戶,利用他們的行為數據進行建模,然後用這個模型去判斷其他用戶的性別。這裡通常會遇到原數據對目標信息是否有辨析度的問題

當然,如果直接有用戶畫像數據,或者如上文所說的註冊信息之類UGC,那麼挖掘部分就可以省略,但是要考慮數據驗證的問題,即判斷這些畫像數據有多准。

三. 應用數據

目前來說,畫像數據除了用來看(支持運營判斷),主要的用處就是廣告營銷了,(還有一部分是產品預研,目前還不多)。

營銷這塊,簡單說,就是找到目標人群,如產品的使用人群,潛在的客戶人群等。

找到以後,剩下就是營銷通道和營銷手段的問題了。

即興寫的,比較亂,有空回來整理。


先分析理解業務。業務最終的目標是什麼,另一端是能拿進來的數據有什麼。

比如說廣告,目標可以設為點擊,可以認為高點擊率就等於高回報(當然也可以用轉化率做目標,只是點擊比較方便)。

不同的人有不同的偏好和意圖。用什麼來表示這個人才能更好地把人與人之間這種不同給顯現出來呢?這些內容就構成了一幅用戶畫像,對BI的人來說習慣叫做用戶畫像吧,更追求內容的解釋性嘛。對我們演算法佬來說,這就是特徵向量。

首先要把展示和點擊日誌拿下來,處理成樣本,展示但沒點擊的作為負樣本,展示並點擊了的作為正樣本(當然可以有更複雜的選定邏輯來解決一些實際問題,這裡不詳談)。有了樣本就可以開始分析特徵了。

比如第一大塊特徵通常是人口統計學特徵,就是國家、地區、現住城市、出生地、性別、民族、學歷等等。先分析特徵自身的分布情況,決定如何清洗如何歸一化等預處理。有效的預處理得到乾淨高質量的數據,最終的業務效果來說是非常非常重要的,非常非常重要,非常非常重要。然後,一個個拿去跟label做相關性分析,比如協方差,最好可視化出來,眼見為實往往會發現意外的知識。

行為數據當然也是非常有價值的特徵。比如某個人買過什麼商品、看過什麼電影、看過什麼書、甚至在什麼商品面前停留了多久時間,還有你一天使用PC、平板、手機的時間,在不同設備上看視頻的時間長度,等等。這些數據非常稀疏,很難用,但是很有用。你可能可以得到一百萬種數據,怎麼選擇呢?最簡單的方法之一,用LR加一範數正則項去訓練一下,得到的權重可以告訴你各種特徵對結果的貢獻程度,然後做特徵選擇,可能一百萬就縮到了只有一萬個特徵是比較有用的。你想放棄思考,把問題丟給機器,可以用更牛逼的方法,比如深度神經網路,把全部特徵丟給它,它會發現更加深刻的知識,直接給你高質量的結果。至於怎麼選擇技術方案,要看你工作的工程環境能支撐什麼樣的技術內容。一般偏BI一些的話,不會使用太複雜的模型。

初步選定了一些特徵,那麼就可以開始用到業務上了,去訓練去預測去評測去部署吧~~

業務往深里做,你需要更多的特徵來描刻你的用戶畫像了。除了上面所說的人口統計學特徵和行為特徵,還有哪些常見的特徵呢?互聯網兩大數據,文本和圖片。一個人每天會在朋友圈、微博、視頻彈幕等貢獻大量內容,這些內容主要是文本和圖片,視頻的比例還比較小也比較難用一些。文本就靠NLP技術來特徵化成一個向量給到你咯,往往是一個純數學的沒有解釋性的向量。當然也可以很多的處理方式,比如簡單地做分詞再做詞頻統計或者再做主題模型,這些給出的結果都會更加直觀一些,比較適合偏BI的應用場合。純數學的向量主要是用於給模型直接使用,人家數學模型能理解就行,我們人類理解不了而已。圖片也是類似的處理,常見的用卷積神經網路,把圖片變成一個向量,或者映射到一組主題上,等等不同的應用方式。其它不常見的內容,比如把這個人說話的聲音特徵化,把這個人聽過的音樂特徵化等等。一切皆為數據,一切皆可特徵化。

特徵越多,對這個人的可辨識的維度就越多。內容的形式越不同,維度就越正交,就能把這個人描刻得越立體形象。

用戶畫像就是這樣咯。偏BI和偏工程的做法還是會有區別的。偏BI是要給人看的,解釋性要強,比如「數據顯示浙江人比較愛點這種類型的廣告」。

關於數據爬蟲。沒有什麼數據積累或者某些依賴外部數據的,就要去爬數據了,爬什麼數據你來定。

總結一下。最重要的首先還是對業務的理解,要清晰知道你的業務在追求什麼目標。然後你再基於這個目標去研究最需要怎樣的數據來表達描刻這個業務邏輯中的人和物。


關於用戶畫像的研究很多,目的主要是用來精準營銷,廣告投放,用戶留存促活等等

從用戶留存促活來談,如何建立用戶標籤體系?

用戶留存促活的手段主要有內容push、營銷簡訊、活動營銷、產品功能/內容吸引

那主要從內容push來談,如何去運用用戶畫像?

所謂內容Push:

早上,淘寶推薦你去買一件你之前看過但沒買ysl口紅,你一定在想:我是想買呀!可都月末了,哪來錢買買買啊~

中午,美團告訴你周邊有哪些好吃、好玩的美食,「去?不去!好久沒和同學吃吃喝喝了,要不約上三五好友,去嗨一頓吧!」

晚上,微博說陳赫喜獲女兒,「我的乖乖,陳赫什麼時候結的婚???」「老王啊,你知道嗎?」

淘寶是怎麼知道你要買口紅?美團是怎麼知道你想逛吃逛吃的?微博是怎麼知道你那顆八卦雞凍的內心?

這就是基於用戶畫像體系下的內容推送~

用戶畫像四步走:

第一步:構建用戶標籤

第二步:數據挖掘、提取與處理

第三步:結合用戶列表和業務目標動起來

第四步:用戶畫像優化

一、用戶標籤化

l 初步畫像:通過用戶訪談和產品功能特點建立用戶基本屬性和產品屬性標籤

l 中期畫像:通過用戶行為、產品觸點豐富用戶畫像特徵

l 後期畫像:業務部門、用研、數據組評估,確定標籤體系構建常用標籤庫

二、數據提取與處理

l 數據提取:常用標籤和臨時標籤的提取方法不同,建議經常使用的標籤可以常規化

l 數據處理:數據去重、合併等,可以用Python;列表查看、刪除、加入特定列表可以用EditPlus,個人認為這兩個蠻好用的

l 數據倉庫:每天需要的用戶列表,可不用每日提取,建立一個數據倉庫,即用即取,還是挺方便的

三、數據應用

l 內容Push:消息類內容精準定位,這需要配合後台管理系統才能實現噢

l 活動推廣:廣告投放、活動推薦、用戶指引等

四、用戶畫像優化

建立用戶畫像以後,也需要根據產品業務部門的調整,不斷改善優化,用戶基本屬性不會有多大變化,但是用戶行為會隨著產品功能等多因子而改變,所以調整優化才會將用戶畫像的工作做的更好嘍~

備註:以上內容,純屬作者閑扯,不作為娛樂飯後談資,有不服者歡迎來戰!


用戶畫像介紹

早期的用戶畫像是通過對用戶多方面信息的調研和了解,將多種信息分類聚合,產出幾個有典型特徵和氣質的虛擬用戶。用戶畫像用於輔助產品設計,評價需求是否有價值,別讓產品偏離核心用戶的需求;市場營銷方面,可以用於方案制定,推廣渠道選擇,同時對運營人員也有一定的指導意義。此種的用戶畫像粒度比較粗,用虛擬的用戶畫像代表真實的用戶。用戶畫像會用如下的文檔描述。

隨著互聯網的不斷發展,積累的用戶信息、行為記錄越來越豐富,同時大數據處理和分析技術也已成熟,可以計算出每一個用戶的特徵。特徵使用從人口基本屬性、社會屬性、生活習慣、消費行為等信息抽象出來的一個個具體的標籤表示,標籤是某一用戶特徵的符號化表示。為每個用戶計算用戶畫像,這樣更加貼近真實的世界,每個人都是獨一無二,不能隨隨便便被其他人代表,用戶畫像精準到人。用戶畫像用標籤集合來表示,例如:

吳某,男,32歲,河南人,北京工作,銀行業,投資顧問,年收入50萬,已婚,兩套房,有孩子,喜歡社交,不愛運動,喝白酒,消費力強等。

基礎信息可以通過用戶的註冊信息獲得,但像是否有孩子、喜歡社交、喝白酒、消費能力等級等,用戶不會告訴我們,需要建立數據模型才能計算出來。當然,用戶標籤的體系是需要根據業務領域去設計的,比如銀行和電商用戶標籤體系就會不同。

基於大數據用戶畫像的用途

1. 應用最廣泛當屬個性化推薦,電商網站為準媽媽推薦嬰兒用品,為攝影愛好者推薦鏡頭。個性化推薦中,計算出用戶標籤是其中一環,需要有協同過濾等推薦演算法實現物品的推薦。

2. 精準廣告可以根據年齡、區域、人群、天氣、遊戲愛好、內容偏好、購物行為、搜索行為等定向選擇進行投放,例如騰訊的廣點通,支持用戶在微信、QQ精準投放。

3. 精細運營,例如向目標用戶發送促銷活動簡訊,避免全量投放完成的浪費。可以針對某次活動的拉新用戶進行分析,評估活動效果,看是否和預期相符。

4. 輔佐產品設計,把用戶進行分群,依據不同用戶群特性就行產品設計和測試驗證。

其它應用場景

1. 查看某次市場推廣的用戶畫像,事後分析是否和預期一致,判斷推廣渠道和產品目標用戶群的匹配度。

2. 查看不同地域的用戶畫像,不容內容頻道的用戶畫像。

3. 個性化Push,例如新聞客戶端根據用戶的閱讀習慣進行個性化的新聞推薦。

步驟

內容來源 「BigData」公眾號


第一步是明確做用戶畫像的目的是什麼,你想從用戶畫像中獲得什麼信息?

明確自己需要什麼,然後再考慮哪方面的數據可以幫助我了解我需要的信息?應該如何整理,挖掘這些數據?最終怎麼樣展示這些數據?

用戶畫像只是獲得信息的手段,而不應該是目的,不要為了做用戶畫像而做用戶畫像。如果你覺得毫無頭緒,就先確定目標吧!


最近一直在研究用戶畫像的有關問題,看了一些回答,有了一些自己的理解,但是感覺還是一直在腦海里,糊裡糊塗的,形不成具體的東西。


不能從數據開始,數據是工具,方法。應確定目的,需求,甚至可以有些假設。然後開始搜索數據,有針對性的,然後不斷驗證假設,推翻假設,再嚴正新假設。最終達到目標。從數據開始很容易沉迷於數據反而忽略了真正重要的目的。


推薦閱讀:

類似這種標籤用戶畫像是用什麼工具製作的?
如何用數據挖掘的方法做比較準確的用戶畫像?
什麼是用戶畫像呢?一般用戶畫像的作用是什麼?

TAG:用戶畫像 |