談談數據分析的前提--數據清洗
來自專欄 移動公司數據分析
最近忙著學習機器學習,牽扯到實際的數據應用的話問題就比較多,都沒時間去做分析。結果今天市場那邊拿過來一個省公司市場的PPT結論真是把我雷到了,是對咪咕活動的一個分析,數據表象就是我們這邊1月份參加了咪咕活動的用戶,2月消費比12月消費降低了很多,結論顯而易見就是這個產品降收厲害。這個分析做的有點業餘,完全沒有經過數據清洗環節,借這個分析我簡單說下數據清洗的問題。
1.這個分析首先選取1月參與活動,然後12月與2月消費對比。然並卵,1月參與活動中部分用戶去年12月就沒有入網,相當於去年12月就是0的消費,你還給12月算了個分母。這樣新入網參與的越多收入就會增長。這是第一個問題。
做任何對比性的分析,首先必須保持你的目標用戶群體不能變,用SQL的話這裡建議建表,就是拍照目標客戶,這個是常識,沒想到現在省里弱到這種地步了。
2.第二個問題。參考月份居然選擇12月。。。。。但凡在移動幹了一年以上市場的人都應該清楚,12月是個很關鍵的月份,每年12月都是做指標的高峰月(實際上就是砸錢大量作假),當月的指標根本沒有任何參考意義,沒有任何參考意義,沒有意義,這點很重要。對比參照是要對等,你拿一個全年考核月,與非考核月對比完全沒有意義。
所以做對比分析,要考慮外部環境對數據的影響,一定要儘可能的統一對比雙方的外部環境。
3.第三個問題。內部問題。對比用戶消費這塊還是需要一定的市場經驗。移動目前的補貼力度非常大,基本上用戶消費裡面有五分之一涉及到營銷補貼、折扣折讓等沖銷金額。所以,如果要做用戶消費的提升或者下降對比分析,首先得要把用戶不需要花錢的收入部分剔除掉,這個影響很大。
內部問題營銷補貼算一塊,剔除內部員工也算一個,集團的特價資費也算一個,實際分析的話要具體問題具體分析。
簡單總結下:1.統一目標用戶群體。2.統一影響數據分析的外部大環境。3.統一內部環境。儘可能剔除掉影響數據分析的內部因素。
下面是我對這個分析調取的數據,與省公司的結論大相徑庭,剔除影響因素後,咪咕活動對用戶收入根本就沒有太大影響。
下面數據第一個是1月訂購對比的12月與2月消費,剔除了1月以後入網的
下面數據第一個是2月訂購對比的1月與3月消費,剔除了2月以後入網的
推薦閱讀:
※中國移動怎麼樣?
※中國移動已經不是中國移動,對手卻還是那樣的對手
※移動虛假宣傳,無限流量套餐很坑
※「移動互聯網已經走到了頂峰,接下來是衰退」,如果說移動互聯網衰退那會被什麼取代呢?
※為什麼移動流量走得那麼快?