標籤:

雨沐田:大數據營銷的數據治理是怎麼回事呢?

大數據營銷首先要關心的事情就是數據收集(雨沐田:大數據營銷的數據都從哪裡獲取呢?),其次就是數據治理了,由於數據來源很多,數據質量也是參差不齊,所以收集到的數據並不是可以被之類拿來用,而是要通過數據治理才能用,而這個階段分為4個步驟:

一、數據標準化

標準化的含義,首先是要確定我們需要哪些數據欄位,其次對這些必須的欄位規定標準的格式。

如電話:+86 13888888888,13888888888,138-8888-8888,這三種格式都沒錯,但我們需要確定一種格式,保證所有的電話用統一的標準存儲,而這種標準化的實現,需要藉助一些資料庫技術(SQL)實現,如果數據量巨大,還要記住一些ETL工具。

格式的標準化只是最簡單的,在大數據時代,數據標準化的範圍更廣,如我們為了分析產品在微博上的評價情況,這個就更加複雜了,因為人們的留言評論更加隨意,更談不上統一格式。

如對某款兒童智能玩具的評價可能是:

  • 買了某智能玩具,兒子很喜歡,但就是有點費電。
  • 我家寶寶太喜歡某智能玩具了,一天不撒手,就是有點小貴~~

對這類數據的分析必須藉助拆詞技術,比如剛才的2句評論最終重要的辭彙只有:

  • 某智能玩具 喜歡 費電
  • 某智能玩具 喜歡 貴

一兩條評論留言自然看不出什麼來,但如果數據量幾十萬上百萬計,那就不一樣了,就能很明顯的發現用戶的關注點、吐槽點等。

而對於各種新媒體的數據,分析手段還有語義分析等。

二、數據清理

從外部收集的數據,都會存在質量問題,比如,調查問卷是常見的一種收集用戶信息和反饋的手段,但收集來的數據質量往往不高。

最簡單的,電話可能只留了10位,根本就是錯的

還有可能留下的郵箱格式都不對。

還有的,學歷填寫「秀才」的...

這些數據都是需要篩選的,有些嚴重錯誤無法識別的,只能刪除,有些殘缺不全的要想辦法補全。

再進一步,就算手機格式正確,郵箱格式正確,就能保證數據是真實有效的嗎?誰也保證不了,只能通過更進一步的手段驗證。

郵箱地址可以通過發送郵件,再收集郵件退回以及退回的具體原因,就能排除一些無效郵件。電話也有「信令」技術,通過運用商的回復,就能排除很多無效電話號碼。

數據清理的意思就是如此,但清理的深度,要根據數據的質量而定,清理的方法方式還有很多,總之,收集到的數據要清洗一番才能入正式庫。

三、數據匹配

用戶A在官網註冊了用戶,留下了郵箱和電話號碼。

在商城購買了商品,留下了姓名、地址、電話號碼。

在微信公眾號留言,留下了微信ID,郵箱。

雖然是同一個人的信息,但我們並不知道,而且存在三個系統中,做大數據營銷,為了更詳細的了解用戶的方方面面,達到更好的營銷效果,必須要將來自多個數據源的同一個對象的數據合併。

如用戶A的數據,官網和商城的數據可以通過電話號碼關聯,官網和微信公眾號的可以通過郵箱關聯,如此匹配後,三條數據合成一條數據,對用戶的認識馬上更進一步。

數據匹配達到的效果是 1+1+1 > 3 的效果。

四、數據整合

數據在經歷了數據標準化、數據清洗、數據匹配的階段後,最後就是要將數據整合到一個資料庫中,將相關的數據放到一個池子里,數據整合除了數據加入外,還有數據備份、數據管理的工作,更多是資料庫技術的範疇。


數據治理階段更多的是一些技術操作,比如數據的簡單清理(SQL),大量數據的清理和標準化要用到一些ETL工具,還有分詞方法、資料庫操作等等。

作為偏技術的大數據分析人員,這些是必須要會的。

有了規範和乾淨的數據後,之後就要有能夠配套存儲數據的基礎環境和應用系統,這個明天數據平台再說。


推薦閱讀:

做好全網精準營銷的重要步驟
基於用戶洞察的大數據營銷案例
快餐領頭KFC的選址標準在哪裡?
大數據營銷:網路營銷的指南針
大數據萬能?小數據才是王道!

TAG:大數據營銷 |