如何用數據挖掘的方法做比較準確的用戶畫像？

01-05

1、通過網站後台埋點，有網站資料庫；

2、然後通過用戶數據分析了解用戶行為、用戶特徵，甚至用戶建模，分享一些用戶維度的數據模板，比較簡單，只是提供一些思路。

https://me.bdp.cn/share/index.html?shareId=sdo_a77fa6b9e48a19e02cc2923f46618344

3、要是你會SPSS建模那就更好了。

STC（微信公眾號：Social Talent）

具有哪些特徵的人群在關注著 iPhone6S 的發布？

堅果手機的七彩背殼到底打中那一群用戶？

吳亦凡的粉絲里到底有多少是潛在手遊玩家？

移動時代的營銷，得用戶者得天下。營銷戰役早已不僅僅停留在創意層面，企業從用戶角度的思考越來越深入。似乎不談精準投放、數據分析、用戶畫像，都不好意思說自己還在做營銷。誠然，移動社交、大數據技術為營銷行業展開了一幅全新的畫卷，讓營銷人第一次有機會從另一個視角接觸和分析用戶，第一次在數據中看到了我們未曾接觸的、讓我們感到無比興奮的信息寶藏。但熱潮之後更多是冷靜下來的思考，用戶畫像的本質是什麼？用戶畫像可以有什麼用？製作用戶畫像的邏輯是什麼？更多深層次的問題值得我們進一步思考和探討。

用戶畫像是標籤化的用戶行為特徵

交互設計之父Alan Cooper最早提出用戶畫像（persona）的概念:「Personas area concrete representation of target users.」用戶畫像是從真實的用戶行為中抽象出來的的典型用戶模型，企業通過收集與分析消費者的社會屬性、生活習慣、消費行為的主要信息之後，完整描述產品（或服務）的目標用戶特徵，為企業中所有與用戶有關的決策過程提供信息基礎，指導企業的產品服務研發和市場營銷。

用戶畫像的核心在於給用戶「打標籤」，每一個標籤通常是人為規定的特徵標識，用高度精鍊的特徵描述一類人，例如年齡、性別、興趣偏好等，不同的標籤通過結構化的數據體系整合，就可與組合出不同的用戶畫像。

用戶畫像源於企業對用戶認知的渴求

所謂用戶畫像的提出，根本上是源於企業對用戶認知的渴求，在營銷決策的過程中，企業關注的重心不外乎兩類，「如何做出用戶更喜歡的產品」，「如何把產品賣給對的人」，解決這兩個問題離不開對用戶需求的洞察，因此決策者不可避免的要考慮兩類人：

現有用戶- 我的現存用戶是誰？為什麼買我的產品？他們有什麼偏好？哪些用戶價值最高？

潛在客戶- 我的潛在用戶在哪兒？他們喜歡什麼？哪些渠道能找到他們？獲客成本是多少？

為了回答這些問題，企業必須通過各種方式不斷的收集用戶信息，最初可能只是通過問卷調查、用戶訪談等少量、定性分析的方式進行，當樣本的數量逐步提升，這些用戶的信息將會以更加標準化、更簡單的方式描述出來，形成一個一個「標籤」，這也就形成了用戶畫像的雛形。因此，用戶畫像並不是大數據時代的「專利」，大數據技術的應用，拓展了企業獲取數據的來源和處理數據的方法，讓企業有機會得到更多的用戶樣本，從海量數據中找到那些真正對自己有價值的數據，從更多維度描述自己的用戶畫像。

對內指導完善產品對外推動精細營銷

用戶畫像作為企業目標用戶的真實寫照，在企業的不同決策環節中都將發揮作用，歸納起來主要是以下兩個方面。

1對內完善產品，優化用戶體驗

指導產品研發：改變閉門造車的生產模式，生產邏輯從「造什麼用戶買什麼」逐漸轉變為「用戶需要什麼就造什麼」。通過用戶需求的調研，設計製造更加適合用戶的產品，提升用戶體驗。產品研發初期沒有銷售數據的時候，用戶畫像將直接反應企業對用戶的了解程度，決定產品定位。

完善產品運營：產品（或服務）的銷售過程中，用戶畫像將幫助企業改善產品運營，優化與用戶交互的流程與體驗，提升已有用戶的平台粘性和交易轉化率。

2對外促進銷售，拓展商業模式

精細化營銷：根據產品特點，更加精準地找到目標用戶，在用戶偏好的渠道上進行內容投放，適時交互促成購買行為，實現精準獲客。

數據服務：平台的用戶信息和用戶行為將成為重要的數據源，指導新業務的拓展或為他所用。

數據是構建用戶畫像的核心

1三類基礎數據整合

1、用戶數據

靜態信息數據：用戶相對穩定的信息，主要包括人口屬性、商業屬性等方面數據。這類信息，自成標籤，如果企業有真實信息則無需過多建模預測，更多的是數據清洗的工作。

動態信息數據：用戶不斷變化的行為信息，用戶搜索了什麼商品，瀏覽了哪個頁面，贊了哪條微博消息，發布了積極或消極的評論……這些都是互聯網上的用戶行為，將成為用戶畫像中偏好特徵和消費行為特徵的主要依據。

2、商品數據

客觀商品屬性：商品的功能、顏色、能耗、價格等事實數據。

主觀商品定位：商品的風格、定位人群等。

商品數據可以認為是商品的標籤，需要和用戶標籤進行關聯和匹配。

3、渠道數據

信息渠道：用戶在信息渠道上獲得資訊，如微信、微博等社交網路。

購買渠道：用戶在購買渠道上進行商品採購，例如商品官網、電商平台等。

不同類型的用戶對渠道有不同的偏好，精準的選擇對應的渠道才能提高效率和收益。

2數據建模方法

有了上述三類數據之後，需要根據用戶行為構建相應的數據模型產出標籤和權重。每一次的用戶行為，可以詳細描述為：什麼用戶，在什麼時間，什麼地點，發生了什麼事。

什麼用戶：即用戶識別，其目的是為了區分用戶。互聯網主要的用戶識別的方式包括Cookie，註冊ID，微信微博，手機號等，獲取方式由易到難，不同企業的客戶信息數據化程度有所不同，用戶識別的方式也可按需選取。

什麼時間：在用戶行為中，普遍認為近期發生的行為將更反映用戶當下的特徵，因此過往行為將表現為在標籤權重上的衰減。

什麼地點：即用戶的接觸點，包含了兩個潛在信息：網址和內容。內容決定標籤，網址決定權重。例如，一瓶礦泉水，超市賣1元，景區賣3元，酒店賣5元，商品的售賣價值，不在於成本，而在於售賣地點，這裡的權重可以理解為用戶對礦泉水的需求程度不同，相應的也有不同的支付意願。類似的反映到互聯網，用戶在天貓瀏覽了iPhone6的信息和在蘋果官網瀏覽也將存在權重的差異，因此，網址的內容反映了標籤信息，網址本身則表徵了標籤的權重。

做了什麼：用戶的行為類型，例如瀏覽、搜索、評論、點贊、收藏等，同樣反映的是標籤的權重。

從上述建模方法中，我們可以簡單勾畫出一個用戶行為的標籤權重公式：

標籤權重=時間衰減（何時）×網址權重（何地）×行為權重（做什麼）

舉個直觀的例子，「B用戶今天在蘋果官網購買了iPhone6」反映出的用戶標籤可能是「果粉1」；而「A用戶三天前在天貓收藏了iPhone6」反映出的標籤可能只是「果粉0.448」，這些不同用戶的標籤及相應的權重將在後續的營銷決策中發揮指導作用。

3演算法輸出

通過數據建模，企業可以有效地為能覆蓋到的用戶打上標籤，之後結合渠道信息和商品信息，企業可根據需求定向地選擇數據挖掘的方法輸出結果，在營銷決策中，可能得到的結論例如「具有標籤a的人集中購買了商品A」、「購買商品B的用戶同樣會對商品A感興趣」、「商品A的購買人群主要集中於渠道c」等等，這些信息將直接指導企業完成營銷決策。在這個過程中常用的演算法包括聚類和關聯規則等，本文不深入展開，這些演算法的核心邏輯可以認為是利用現有事實對未來進行預測的過程。

通過上述介紹，本文簡單闡釋了用戶畫像及其構建邏輯。但歸根到底，技術只是載體，其最終還是為了服務於企業基於用戶的營銷決策。在市場的迷霧中，用戶畫像像是一座橋樑，跨越企業與用戶之間的信息鴻溝，大數據的手段把用戶錯綜複雜的消費行為和難以捉摸心理狀態通過更加理性的方式為企業呈現出來，讓未來企業營銷決策真正做到「有理有據」。

可以參考我另外個回答如何通過已有數據對用戶畫像，標籤和分析？該產品核心問題在哪，如何落地？ - Terry Meng 的回答希望有幫助：）

舉個例子

七步人物角色法也可以借鑒

蛋解創業的小密圈趨勢報告分析上線已經20天了，到現在為止已經有了近200個小夥伴加入到了這個私密的小圈子裡和我們一起把握未來的趨勢，但光看每天推送的報告我相信還是有很大一部分小夥伴沒有看出其中的門道，今天我就給大家普及一個小小的知識點，什麼是用戶畫像，用戶畫像對你的重要性是什麼。

下面我從以下這四點來重點來說說：

1、什麼是用戶畫像？

2、用戶畫像有什麼用處？

3、如何進行用戶畫像分析？

4、在做用戶畫像分析中的難點是什麼？

首先，什麼是用戶畫像呢？

其實這個很好理解，所謂用戶畫像就是用不同的標籤或維度來定義一個人。而這些維度既可以是實際的，也可以是抽象的。比如：年齡、性別、體重、學歷、財富，也可以是星座、性格、生活習慣等等。歸根結底就是說，所有一切你可以想到的維度都可以建立或組成一個用戶畫像，而建立用戶畫像的目的就是用來更好的用同一緯度的數據來劃分、梳理、描述這個區間內的用戶。

第二，用戶畫像有什麼用處？

很多時候我們在做事情前都要搞清楚一點就是我這件事情的服務對象是誰，他想要什麼？如果做一個產品都不知道目標用戶是誰，用戶的使用習慣和使用場景是什麼，那這個產品上線後就很可能面臨著失敗。

舉個例子，當年我做了一款基於iphone4的雙卡雙待手機殼，當時僅僅是覺得這個技術很好，一定可以大受歡迎，然後就去工廠打樣做貨了，我們當時的用戶畫像都是建立在假想的基礎上，認為購買這個產品的用戶會是商務人士、大老闆，因為大家要有一個工作號和一個生活號。但結果可想而知，產品一共才銷售出去了幾百個，那麼我們的問題到底出在了哪裡呢？

第一個問題在於建立用戶畫像的參考維度過於單一，我們僅僅列出了用戶的職業維度，而忽略了用戶的年齡、收入狀況、日常使用手機的習慣、用戶閱讀廣告的偏好，顏色偏好等等這些維度。因此我們設計出的產品可能在定價、款式、顏色、推廣區域、營銷文案上都沒能直達精準用戶的所在區域。

第二個問題在於我們忽略了iphone手機用戶的購買心理和使用習慣，所以做出了一個既厚又不夠簡潔的手機殼。

從上面的例子就可以看到用戶畫像的建立和分析到底有多麼的重要，如何產品定位、如何拓展用戶、如何提高用戶的滿意度都離不開用戶畫像的精準。

總結下，用戶畫像承載著兩個重要的使命：

1.如何精準的找到你的目標用戶。

2.如何精準的了解你的現有用戶。

第三，如何進行用戶畫像分析？

這一點取決於你想要什麼樣的用戶和掌握了怎樣的數據源。有了以上兩點才能夠進行你自己的畫像設計和分析。這就好比你想和一個姑娘約炮，要先知道她喜歡什麼，然後再看你哪個領域比較擅長，然後才能確定你到底是拉著她去吃西餐聽歌劇還是帶她去滑雪然後泡溫泉撲倒她的幾率更大一些。

舉兩個商業場景你來參考：

如果你是一個做內容的微信公眾號，希望可以提高用戶的轉發，那麼你的核心維度應該涉及到性別、年齡、閱讀時間、熱門關鍵詞等展開，數據收集的來源有很多網路上公開的地方，如新榜這樣的垂直數據發布平台。

如果你是一個線下餐廳的經營者，希望可以提高用戶的粘性，你的核心維度應該涉及到收入狀況、消費時段、年齡、口味偏好、活動區域等，數據來源可以根據進店人群做信息採集。

由上可見針對不同的行業，不同的應用場景，不同的目標，需要建立不同維度的用戶畫像，也要從不同的來源獲取數據並分析。而每個維度都會有不同的標籤屬性，下面我就給大家歸納出幾個主要的區域：

1，人口維度：包含性別、年齡、體重、星座、血型等基本特徵。

2，資產維度：收入、學歷、車輛、房產、人脈關係等基本特徵。

3，興趣維度：運動、學習等基本特徵。

4，消費維度：線上消費、線下消費、品牌粘性、消費偏好等基本特徵。

5，位置維度：省份、城市、區域、住址、工作地等基本特徵。

6，設備維度：手機終端、電腦終端等基本特徵。

然後我們再來說數據來源，首先現在很多的互聯網平台和垂直領域都可以獲得相關的數據，這裡不做過多的闡述。

大概的來源可以分為以下幾類：

1.自行收集數據（如調查問卷）

2.外部官方渠道的數據（如行業趨勢報告）

3.市場採集數據（如進店自生成數據）

從數據類型上看有以下幾類：

1.社交數據

2.交易數據

3.位置數據

4.運營數據

5. ······

有了以上的標籤維度、來源渠道和分類，我們做一個用戶畫像的建設到底需要怎樣的步驟呢？

1.數據的抽取：從不同數據源抽取要計算的數據素材。

2.數據標準化：針對抽取的數據將其修改成你自己設定的標準格式，同時將錯誤數據和無效數據剔除。

3.數據關聯：不同來源的數據有不同的主題和屬性，將所有不同渠道收集的數據關聯起來是建立數據的核心步驟，比如我從喜馬拉雅FM獲取到了目前喜馬拉雅的用戶地域分布，又從新榜收集到了關於音頻用戶的收聽場景，同時從我自己的《蛋解創業》節目中收集到了用戶內容偏好，因此我就可以通過這一步串聯出大概我的內容製作方向、頻率、上線時間、節目時長等等。

4.模型設計：針對不同數據內容和業務目標設計不同規則和演算法進行模型的建立，然後使用小樣本數據來驗證模型的可靠性。

5.標籤計算：在模型可靠性驗證的基礎上，安排生產運營等工作來進一步驗證並改善或重新計算模型。

還是拿我們自己的產品來舉例子，我們因為做了《蛋解創業》這樣一檔創業類節目，獲取了一定的用戶數據，同時通過行業內的趨勢報告分析獲取了整個大市場的用戶數據後，我們製作了一檔基於目前用戶感興趣的，且和行業趨勢吻合的付費內容《眾創實戰派》，然後又根據眾創這個節目的用戶分析出，趨勢報告分析可能是這部分用所需要的內容，因此我們建立了一個每天精選發布最新的趨勢報告的小密圈，由此進一步轉化和留存住用戶。

一個不好的例子是我們推出了一款周邊定製的瓜子產品，銷量就很一般，原因就在於這個產品和我們目前的用戶畫像偏差略大。

以上的例子就很好的詮釋了用戶畫像的重要性和應用的流程和場景。

第四，在做用戶畫像分析中的難點有哪些？

在現實生活中，一個人可能有多重身份，也可能有多部手機，也可能有多個愛好和多個qq號。比如一個家庭可能有兩個手機、一台電腦，一個筆記本、一個ipad，爸爸用筆記本辦公，媽媽用台式機淘寶，孩子用iPad玩遊戲，一個產品終端代表了多個實體特徵，且無法拆分。所以要想唯一完整的定義其中一個用戶的畫像很難。因此在業務領域中追求標籤的完整性有時是不可能完成的，我們應該更多的關註標簽的代表性，無論是一對多還是多對一，只要通過標籤篩選出想要的目標群體就好，即使是一台公用的ipad，遊戲也表明了家庭中有成員有該方面的興趣偏好。

另外該如何獲取和找到那些有價值、且正確的數據呢？我之前有寫過一篇如何發現並判斷一份報告質量的文章，大家可以去蛋解創業的微信訂閱號搜索：《不看趨勢報告的創業者都掛了，因為》那篇推文。

謝謝大家的觀看，希望和大家一起共同把握未來，我是你們的拆報告小能手蛋蛋。

數據才是最重要的，先說說你有什麼數據。

-----------------

上次的回答是2014-8-11。

補充點新內容。

我的另一個回答：用戶畫像的新手如何開展第一步的行動，以及後續的動作，是如何開展的，？ - 用戶畫像

畫像主要有兩部分，人口學基本屬性和行為偏好。

基本屬性包含性別，年齡，地域，職業等。最準確的還得是直接獲取用戶的基本信息，如果通過數據挖掘的化基於用戶歷史行為分析，可以是簡單統計，也可以是基於一部分種子數據的有監督學習。

行為偏好方面要想準確的描述用戶畫像，我覺得基本的是要進行多維度，多粒度的刻畫，把影響本場景下能體現用戶對item不同偏好的維度盡量覆蓋到，同時在同一個維度下展現多粒度偏好。這樣，描述一個用戶既有廣度又有深度，這些特徵具有足夠的泛化能力，又有精準性，方便不同的使用需求。

得到用戶畫像之後如何進行聚類呢？有演算法或實例分析嗎？