請分享一下數據分析方面的思路,如何做好數據分析?

如果全面理解數據分析?


可以看下這篇文章:

從「數據運營」的角度上來可以說拆散成兩塊,一個是數據,一個是運營。「運營」也是近幾年互聯網興起之後出現的崗位。當很多人問運營朋友說,你是做什麼的?運營朋友回答:我是什麼都管,生產也管一點,銷售也管一點。後來運營細分之後,又分為了產品運營,用戶運營等等,我們今天講的就是數據運營。

在正式開始我們今天主題之前,先跟大家說一個小故事

在中世紀,科學界最大的爭論在於,到底是地球圍繞太陽旋轉,還是太陽圍繞地球旋轉。那時候有一位偉大的天文學家叫第谷·布拉赫,為了解決這個人類科學最初的大爭論,開始了尋求數據支持的偉大征程。當時丹麥國王專門為他建了一個天文台,配備了齊全的觀測儀器。從那時之後的20年里,第谷每天晚上風雨無阻地觀測行星運動的軌跡,把每個行星每天晚上的位置,精確地記錄下來,是天文史上第一個真正地開始收集大數據的天文學家,但是他沒有足夠的智慧從中發現行星運行的規律。
後來,第谷的學生開普勒拿到大量的數據之後,摒棄了每一天的視角,他從每一年的視角來看:地球每365天就會回到原點,而其他的行星還在自己的軌道上運動。他把行星運動的軌道畫出來了,得出了所有行星圍繞太陽運動的結論。在此基礎上,開普勒提出了著名的行星運動三大定律,成就了近代天文學的開端。

這個故事告訴我們:

1、數據分析必須擁有數據來做支撐:如果沒有第谷積累的大量觀測材料,開普勒不可能取得如此成就;反之,如果沒有開普勒,第谷辛勤積累的觀測數據也許會成為一堆廢紙;

2、要具備數據分析視角和思維:第谷篤信地心說,開普勒接受了哥白尼的日心說,站在一個新的視角上再結合觀測數據才發現了行星運動三大定律;

3、要學會「去粗取精」:開普勒摒棄了海量數據,把每天取一次的數據變成每年取一次。當我們擁有海量數據的時候,我們不是讓自己沉浸其中,而是要獨具慧眼、合理利用,在繁雜的數據中,發現內在規律,才能成就智慧。

從企業的角度上來說,第谷在生產數據,開普勒是使用數據和分析數據。我們現在拿到了數據之後怎麼進行運營?運營一定要把自己放到大的背景下來看,我們先來講一個宏觀的話題,中國經濟的三個階段的變化:

中國經濟三個階段的變化分別是生產導向,再到銷售導向,再到如今的市場導向。

生產導向是計劃經濟的典型特徵,生產什麼就銷售什麼,企業通過大量生產和壓縮成本以形成規模經濟。那個年代有大量的工廠和製造業企業如雨後春筍般湧現,當時我們都說中國製造,後來變成中國智造,只要質量好的產品就有人買。

到了九十年代的時候,社會生產力有了長足的發展,企業多了,市場上供大於需,企業為了搶佔市場份額開始進行大面積廣告投放,進入到銷售導向時代。大家讀《大敗局》就會知道,秦池、巨人、愛多等中央電視台標王,都是那個時代產生的,大家通過打廣告取得的品牌知名度產生實實在在的銷售收入。

但是到了移動互聯網的時代,不再是為了產品找到合適的用戶,而是為用戶找到合適的產品。例如小米崛起的時候,有產品嗎?沒有!用戶會為了怎樣的產品「發燒」,小米就生產怎樣的產品;有廣告么?沒有!靠的是社群、是粉絲的傳播。這是一個神奇的時代,全球最大的計程車公司Uber沒有一輛車;全球最大的媒體所有者Facebook沒有一個內容製作人;全球最大的住宿服務提供商Airbnb沒有任何房產。但是,他們都有大量高粘度用戶。

所以我們推導出,在現在移動互聯網時代,在這種市場演變到今天的情況下,我們經營的不再是產品,而是我們的用戶。用戶會產生什麼呢?用戶會產生數據。所以說在現在這個時代上,數據已經成為企業的核心資產了,數據就是價值。對企業而言,如果光生產產品而沒有數據,很快會被淘汰,那麼如何管理這個核心資產呢?

企業要具備三個能力,數據佔領能力、數據分析能力、價值變現能力。

數據佔領能力就是獲取數據資源的能力,不僅要有企業內部運營的數據,同時要尋求外部的合作,獲取大量的信息。互聯網時代最重要的是連接,我們不再篤信短板理論,而是通過跨界融合是資源整合來達到1+1&>2的效果。

對數據要有分析能力,回到我們剛才開普勒的故事,他是基於這些大量的數據進行分析,以每一年作為一個視角才能分析出行星定律的三大定律。

數據可以變現,並不是通過數據的買賣進行變現,而是從數據中發現存在的問題,讓企業運營做得更好,提升經營績效。

如果企業沒有做數據運營,會怎麼樣呢?

首先,不知現狀。無法獲知業務狀況、發展規律、用戶畫像等,在一片漆黑中憑感覺前行。我們接觸過很多的老闆,老闆都不知道自己企業的真實利潤和銷售額是多少。

第二,不明原因。利潤下滑、增長停滯、用戶流失,不能探究真實原因,面對問題無法有效解決,且未來再發生時依然如此。所以很多老闆說做了十年的企業跟剛做一年的企業沒有任何區別。

第三,不可預測。銷量、收入、用戶行為,沒有準確的預測,依靠經驗來進行備貨、促銷、人員擴張。粗放經營,損耗太大。

所以說,如果不能衡量就無法提高,現在這個階段就是要從一種粗放經營轉向精細化運營。我們的市場經濟已經上了一個天花板,在天花板的時代,不要再想把蛋糕做大,蛋糕就那麼大了,而是要做好、做精細化運營。

如何進行數據化運營?

數據化運營具體落地到企業應該怎麼做?我們認為有這麼五步:自上而下、數據閉環、搭建模型、數據分析、許可權分配。我們具體看一下每一步應該怎麼做。

一、自上而下|定義指標庫,確定項目範圍

我舉一個O2O的例子,首先我們做自上而下的時候要知道公司內部到底有哪些決策,老闆、產品、運營、培訓、市場、招商、客戶,每一個部門崗位關心什麼指標呢?

我們做指標之前要有一個目標:提升運營效率,降低運營成本,簡單說四個字降本增效。老闆關注的是利潤率問題,產品關注產品使用率、留存率等,運營關注成本控制等等,將不同崗位人員所關注的指標,都給梳理出來。

剛剛說的這塊的運營概念是一個公司內的大運營概念,精細到運營部門又會關注到什麼指標呢?比如說用戶的性別、年齡段、網站的訪問情況,訂單的變化情況、日留存、雙周留存,客戶為什麼取消訂單、每次發放優惠券所帶來的效果是怎麼樣的等等可能在座的運營人士關注這些運營指標。

二、數據閉環|接入分析數據,整理數據

確定好指標之後,要形成數據閉環,把我們橫向的業務系統全部打通。比如說以某個知名互聯網公司為例,將交易系統、商家系統、客戶系統、會員系統、財務系統全部打通,有時候把HR系統也打通了。

很多時候銷售部門的數據和財務部門的數據總是有差異,很多公司都存在這種情況。數據閉環打通的其實不是一個系統,而是業務之間的壁壘,讓每一個部門之間溝通得更好。

除了內部數據之外還有一些外部數據。如果大家做互聯網相關的工作,很多會在百度上投廣告、關注排名情況,我們應該把這些數據全部都接入進來,包括行業數據都囊括進行做一些綜合性分析,做到數據閉環。

三、數據模型|打通數據關係,搭建數據模型

模型搭建是準備麵粉的過程,我們把小麥給磨成麵粉,最後用麵粉做出蛋糕,蛋糕才是我們真正要吃的東西。搭建數據模型,從數據分析的視角,搭建很多數據模型,就是打通數據鏈條、打通數據之間的關係。

四、數據分析|圍繞項目範圍,製作分析結果

數據分析我們怎麼來做呢?比如說你想要看到不同地域下訂單的變化情況,只要把這個數據拖上來,就能夠很直觀就能看到全國各個不同區域的訂單的變化情況;做一個篩選,比如說全部各個區域訂單變化情況,其中有一個是川菜,就是這個菜系變化的情況。

這個數據做出來之後,下一次還需要分析嗎?不需要了。因為你把所有的數據已經關聯好了,以後就按照這個模式,它的數據會自動的更新,這就是圍繞我們項目範圍,製作分析結果。

我們強調業務人員和運營人員才是數據精細運營的核心,因為技術人員是很難了解得到具體業務的定義,我們常說要玩死一個IT很簡單,只需要不斷地給他提需求就行了。所以說只有業務人員才更能挖掘數據背後的隱藏價值。拆分對比效果如下,可參考介個:對比拆分~

多組數據圖的縱橫交錯不利於數據分析,通過拆分對比,各組數據形式一目了然,並且高度交互,實現針對某個點顯示所有品類或時間的具體數據,高效獲取數據分析結果。桑基圖+鑽取可視化效果如下:

不僅可以看到數據流轉趨勢,還可以深入查看具體的流轉的數據是哪些,精準到每個點,以便業務人員對症下藥,GIS地圖效果如下:

移動端普遍應用,帶來了大量的位置信息,催生了新的數據形式。BDP實現了實時、動態的數據流展示,可直觀查看數據流動,從而更合理、高效的進行資源的優化和配置。要打通的是各個業務部門之間的壁壘,我們用同一種語調、同一種頻率說話,我們要做的就是讓每一個人員都能做數據分析師,在簡單拖拽的過程中實現數據分析過程,探索業務背後發生的本質。

本文編自2017年3月18日[ 數據驅動的運營時代]數據分析私享會(深圳站)演講嘉賓之一——海致BDP數據分析師唐宇凌分享的內容——《數據運營可以更簡單更精細》。

最後,分享幾個數據分析的思路吧:變化、分類對比、分布、轉化、相關、鑽取、預測等


自問自答,也感謝知乎上的朋友給出的答案。我從以下四點來闡述我的想法:

1.

為什麼要有數據分析?

這要從數據的本質談起:

數據是人類最早接觸的東西,人類已養成2>1的思維方式:我剛記事的時候,家人就教我數數,告訴我2>1,我4歲時看到我大舅吃2碗飯,我二舅吃1碗飯,於是我認為大舅比二舅力氣大,所以拿東西都讓大舅拿,這是我做過的最早的數據分析。所以無論數據分析發展的多複雜,人類一直相信這個簡單的道理:2比1大,基於數據的分析結果才有人信服;

數據最客觀: 有一件襯衫有紅色和綠色,ABC三人展開討論。A說紅色好,因為…B說綠色好,因為…C說從歷史數據來看,紅色售出的比率為70%,所以紅色的銷量更好,因此從銷量角度來說紅色更好。誰的說法更令人信服呢?顯然是C;

數字是世界性語言:數字全世界通用,不受地域的限制;

隨著時代發展和科技進步,任何公司從本質上會逐漸發展成數據公司:基於數據做計劃,基於數據做決策, 從財務分析、運營分析再到人員工資,樣樣都離不開數據;

社會價值的大小,通常也是由數據來衡量的:A比B牛逼,因為A開瑪莎拉蒂,B開馬自達,還是一汽馬自達;A公司比B公司強,因為A市值比B高。

2.

什麼才是好的數據報告?

A=2,B=1

於是A>B

以上就是最好的數據報告的特徵,數據明確、簡單、結果化、可依賴。

3.

數據工作者應該如何思考?

有以下幾個步驟:

我要做什麼,它究竟是什麼?

比如我要分析一個市場活動是否有效果,所以我要做的是比較市場活動前後的指標是否有變化,我們定義活動前樣本為A,活動後樣本為B,故此問題簡化為比較A與B在活動前後的變化情況;

如何做?這個結果站在各個角度都行得通嗎?

確定A與B用什麼指標來衡量,這些指標公司領導、需求方、數據分析方是否都認可。如果是N個指標衡量,要說明每個指標的權重以及假設條件。

做出結果,再次確認

確認整個數據流各階段是否精準無誤,是否有模糊處理,是否有未展示數據的影響?(這可是巨大冰山,泰坦尼克號都能撞沉)

總結分析

如何迭代和優化,下次再處理類似需求,還有沒有進一步提高的地方?

4.

如何成長為傑出的數據工作者?

有以下幾個步驟:

自我學習和完善:

按這個步驟自我完善:完成工作必須→完善工作必須→公司內業務駕輕

就熟→業界領先→大拿

換位思考:

他為什麼這麼想?他想達到什麼目的?如果我是他,我想要的是什麼?

關注競品、對手:

同行業都做哪些工作?同行業數據工作者都做在做哪些工作?是否都了解或掌握?哪裡需要提高?

拓展視野和思維:

提高人生格局,培養各方面的知識和愛好,這些東西會終身受益。

時刻保持一顆數據工作者的心:

保持觀察和記錄,從身邊的人和事做起,統計出現的頻率和時間,掌握可能的規律,推斷下一步的可能性。

後記:把這篇文章獻給數據團隊,希望我們共同成長!


一、普及性知識

  1. 數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,並且得出結論。
  2. 數據分析就是為了提取有用信息並形成結論而對數據加以詳細研究和概括總結的過程。
  3. 數據可以是觀察、測量、實驗、調研等方式獲取,通常是以數量的形式展現出來。沒有數據,就沒有數據分析。

二、數據分析需要具備的幾個點

  • 要有一個框架,讓聽分享的人能夠簡單明白易懂
  • 每個分析要有一個結論,每個結論要有數據支撐
  • 每個結論要有用,能夠有效的幫助業務人員行動
  • 要有可讀性,多一些圖表,要有條理性和邏輯性
  • 數據是真實可靠的,數據不能臆造或是不確定性
  • 要提出問題和解決方案,結合結論改善業務指標
  • 要感謝,感謝參與數據分析的每個家人,謝謝!

三、步驟

  • 確定問題,了解問題
  • 分析問題,尋找數據
  • 分析數據, 得出結論
  • 針對問題,做出決策

四、具體說明

4.1 找到問題

沒有傻問題,只有不思考。比如:

  • 為什麼會員總量在十月增長了?→增長是基於總量還是?為什麼增長?是自然增長還是活動增長?
  • 為什麼老會員的復購率降低了? →因為什麼降低?因為什麼提升?如何管控?
  • 為什麼新品銷售不理想?→新品銷售要注意哪些?
  • 為什麼活動商品預估不足→活動預估從那幾個維度?
  • 為什麼店鋪評分不升反降→點名好評是否直接拉動好評?

4.2 分析問題

如果你不能描述,那麼你就不能衡量;

如果你不能衡量,那麼你就不能管理。

一個特定的數據挖掘目標不應該是廣泛、通用的,而是要把那些廣泛的目標具體化,細化,深入業務行為,找到與業務問題相關的數據目標。

比如說「會員等級設定」會員等級的設定依據?怎麼樣的會員等級能夠有效提升新會員轉化?怎麼樣有效提升會員人均貢獻?

……

這些能否用數據去驗證?轉化率提升多長?人均貢獻提升多少?

4.3 尋找數據

有哪些可用的數據

需要多少數據

數據必須包含什麼

4.4 數據分析

4.5 數據結論

此處非常重要

4.6 針對問題和結論,找到解決辦法

4.7 再次表示感謝

其實關於數據分析,網上已經有很多東西,以上只是我做過的一個PPT裡面的部分內容,就直接拿來了。


逃離數據分析陷阱 運營效率瞬間提升100倍

先講幾個故事

故事1:中國股票研究中心

8月2日Peter接到一封來自「中國股票研究中心」的郵件,向他表示,這半個月市場會上漲,結果市場果然上漲。

但他不以為意,因為他覺得這是正常,前期跌了肯定要補漲。

到了8月17日,Peter又接到另一封信,向他表示,市場將下跌。這一次,又給那封信說中了。Peter開始相信這個研究中心有點水平了

8月26日,Peter再接到一封信,情形一樣。Peter覺得非常神奇,他主動聯繫對方,希望下個月還能收到樣的郵件。

—最近幾次,郵件都如期而至,但該研究中心表示,前幾封郵件預測太准結果引起了證監會的重視調查。他們以後不再像以前那樣免費發送郵件了。而只對少數有見識的VIP客戶提供投資建議。而你很幸運,獲得了有限的100名VIP購買資格。

—如果你是Peter,你是怎麼看待這個「中國股票研究中心」?

—A.估計有內幕吧,否則怎麼會預測得這麼准呢?

—B.世界上什麼樣的人物都有,估計真的是預測水平高吧。

—C.不知道怎麼回事,既然這麼准,要不買個VIP資格試試吧!

看完這個故事,大家一定覺得很神奇,這個研究中心真TM的准啊,在賺錢的利益驅動之下,肯定都去買VIP去了,其實這個假象是很容易實現的。請聽解釋:

其實這個研究中心發出了10萬個這樣的郵件,其中一半是預測下跌,一半是預測上漲的,再過一段時間,同樣發出一半預上漲一半預測下跌的郵件。這樣總有那麼一群人的收到郵件的預測是非常準確的,所以,想想自己被這樣的套路忽悠了多少次吧。

故事2:倖存者偏差

二戰期間,盟軍和德國在英國發生慘烈的空戰,結果盟軍損失慘重。盟軍想到一個對策,給盟軍飛機安裝裝甲保護,可是裝甲很重,需要有重點的安裝,於是請來了專業的數學家和統計學家來看看,通過飛機上的彈孔密集度來看那些地方比較適合安裝裝甲,結果發現機翼上彈孔比較多;發動機艙和飛行員座艙彈孔比較少,那麼問題來了?

—空軍:「統計數據顯示,盟軍轟炸機的機翼,彈孔密密麻麻,最容易中彈。因此,我們應該加強機翼的裝甲。」

—沃德教授:「將軍,我尊敬你在飛行上的專業,但我有完全不同的看法,我建議加強飛行員座艙與發動機艙的裝甲,因為那兒最少發現彈孔。」

不知道個位看客覺得應該相信誰的?

正確答案是選擇沃德教授的方案,原因是統計的樣本是存活下來的飛機,他們能夠存活下來,說明機翼被擊中的失去生命的風險較小,而擊中發動機艙和駕駛員座艙的存活下來的幾率很小,所以這兩個部位應該側重保護。這個在統計學上叫倖存者偏差。

故事3:頭暈和腦腫瘤的關係

問題來了?

1、 為確定頭暈和腦瘤之間的關係,上表中的哪些數據是必需的?

2、 根據上述數據,你認為頭暈和腦瘤之間存在關係么?

在患者中有80%的人是頭暈的,大部分覺得腫瘤和頭暈有關係。我們在看健康人群的樣本,頭暈的佔比也是80%,我們就會發現,其實腫瘤和頭暈是沒有那麼緊密關係。之前有個記者調查福布斯前500名富豪的自殺率,得出結論富豪人群中自殺率很高,其實這個數據統計有一定片面性,需要對比非富豪樣本的統計結果。

以上故事只是為了表明我們在收集數據的時候一定要非常謹慎,一不小心就可能產生非常大的誤差,我們來看一個實際分析案例。

實際案例分析:競爭情報分析

XX視頻網相關財報數據如下:

高清視頻服務收入1.21億元?

月均活躍付費用戶超過70萬人?

我們如何判斷這些數據是否真實?

我們去該網站看到網站有個新增會員的數量統計情況:

該數據是不斷更新的,每次展現4個用戶,我們連續24小時,每隔1至2分鐘刷新窗口並截圖,記錄出現的用戶名並錄入表格;每次數據的統計都是做到無縫鏈接的。

整理成如下EXCEL表格:

我們分析表格中數據:

我們假設該數據只有極少量斷點存在──即,刷新出來的4個用戶名是全新的,和上一次記錄的無斷點。總體很有規律!

—從最後的統計數據來看,出現了3次斷點,我們按樂觀的估算記為3個包年付費,按「折算包月用戶」的方法將包季和包年付費折算成包月,則折算包月活躍付費用戶每天為63+ (9 +3) ×12 +1×3=210人次,點播用戶數按上述計算比例為(1-72.5%)×(210/72.5%)=79.6取整80,兩者合計290人次,折算到每月不過9020人次。與公司宣稱70萬人次相差約70倍!

這段話可能大家看不懂,為了能夠讓大家更好的學會數據分析,我千辛萬苦整理出了整個過程,不用謝,請叫我雷鋒。

為了更好地計算該網站高清視頻服務整體收入,我們首先估算點播用戶數和包時長用戶數之間的比例。

按照XX網2011年年報披露的月均活躍付費用戶超過70萬人、全年網路高清視頻服務收入1.21億元的數據保守計算,公司年消費總人次為70×12=840萬人,折算每用戶月平均消費為1.21億元/840萬=14.4元。

據XX網會員付費頁面顯示,會員消費方式分為包月、包季、包半年、包三年和點播等幾類。2012年3月優惠期間,包月、包季、包半年、包年、包三年收費分別為18元、70元、120元、200元、360元。2012年4月,包月費用恢復為原價30元,其他不變。

根據實際情況,XX網按月付費的用戶占各類型包時長付費用戶的80%-90%,因此,我們按照「折算包月用戶」的方法,將包季、包年用戶折算為3個、12個包月用戶,採用這種估算方法偏移量較小。

網站上熱門電影點播單次收費2-5元,估算時取高值5元計算(利於XX網)。折算包月用戶每月消費我們也按利於XX網的方式,取單個月份包月的費用,不考慮包季、包年的折扣。

假定月均70萬活躍付費用戶中,折算包月用戶佔比為X%,點播用戶佔比為(100-X)%。

1. 當包月費用為18元時,匯總兩類用戶收入之和,即,[18×70×X%+5×70×(1-X%)]×12=12121.6(網路高清視頻服務總收入:萬元),解方程可知,X=72.5時,月均活躍付費用戶,總收入,每用戶平均消費互相吻合。

2. 當包月費用為30元時,匯總兩類用戶收入之和,即,[30×70×X%+5×70×(1-X%)]×12=12121.6(網路高清視頻服務總收入:萬元),解方程可知,X=37.7的時候,月均活躍付費用戶,總收入,每用戶平均消費互相吻合。

2012年3月29日9:00至3月30日9:00,我們觀察到的記錄為:63次包月付費(表格中統計數據),9次包年付費,1次包季付費(包季70元比包月18元×3更貴,所以選擇用戶較少)。當日出現三次斷點。

3次斷點按樂觀的估算記為3個包年付費,按「折算包月用戶」的方法將包季和包年付費折算成包月,則折算包月活躍付費用戶每天為63+(9+3)×12+1×3=210人次,點播用戶數按上述計算比例為(1-72.5%)×(210/72.5%)=79.6取整80,兩者合計290人次,折算到每月不過9020人次。與公司宣稱70萬人次相差約70倍。

收入方面,3月29日當天XX網在高清視頻包時長(月/季/年等)服務上獲得的收入為63×18+1×70+12×200=3604元,加上點播用戶貢獻收入80×5=400元,兩者合計收入4004元,折算月收入為12.41萬元,折算至全年,公司高清視頻服務收入僅為148.9萬元,與公司披露的2011年數字1.21億元相差巨大。

至此,我們可以清晰的知道XX視頻網的數據水分多少,對於分析者來說,也可以很好的看清楚競爭對手的實際情況。這個案例同樣可以幫助大家去分析競爭對手的APP用戶情況,數據採集可以通過各種方式獲得,譬如嗅探、論壇註冊用戶等等。

具體數據分析方法

1、數據的收集

數據分析步驟

第一步,了解我們監控到的數字指標的意義,找到合適的指標來衡量我們目的達成的效果。

舉個例子,「我們發出去了1000w Email, 到達率99.99%,打開率高達19%,點擊率19%,看了信的人都點擊了,說明設計很棒! 效果非常好!

我們先說下「到達率」,一般情況下表示對方用戶伺服器沒有拒收這個郵件,但是沒有拒收並不表示用戶收到了這個郵件,而用戶拒收的因素很多,可能是郵件太大,也有可能被對方設置為垃圾郵件沒有查看。所以在實際技術上來說,郵件的到達率比實際數據要低。

再說打開率,技術上原理是在正文中嵌入一個像素透明的沒有顏色的圖片,在伺服器上統計這個圖片被載入的次數,知道這個原理,我們就可能知道打開率這個數據其實也不是嚴格意義上完整的,可能用戶打開方式是純文本的,也有可能圖片還未載入出來,各種情況更多,一般來說,打開率可能比實際數據要高。

至於例子中的收據,就不一一說了,道理很簡單,告訴我們對於數據統計的時候,需要了解其中的每個指標的含義。雖然舉得例子中嚴格要求這類指標意義不大,重在告訴大家在做數據統計的時候需要考慮清楚每個指標的深層意義。

第二步,研究數據,將無效和虛假的部分剝離。

舉個例子:

Peter在新浪微博上看到了飛利浦空氣炸鍋,點擊進去發現在做特價促銷,買東西全場免運費還送一堆贈品,他記下了。過了兩天,在上班的時候(^___^,大部分人是在上班時間訪問電子商務網站的……),他想起自己要買個電飯煲,於是去比價網找產品比較價格,又看到了你家網址,點擊進去看了一下,決定買了,但是沒有帶U盾所以沒有直接買。晚上回家之後,他打開電腦,打開百度,輸入你網站的名字(他懶得去回憶你的域名)和那款電飯煲的名字,點擊第一個鏈接(剛好是你的付費關鍵詞鏈接),到了你網站,買了產品。

—每個渠道都有自己的意義和作用:

—曝光;

—增加了解;

—激發需求;

—臨門一腳

—在這個案例中,我們發現從百度搜索來的ROI最高,於是我們把資源投給這個看起來ROI高的地方,最後發現我們整體的ROI就越差。是不是很諷刺,用戶的購買的最後一剎那,可能是經過多層次篩選後的結果,所以百度的ROI最高卻不是最有效的渠道。

很多APP市場推廣也一樣,其實應用市場肯定是ROI最高的地方,因為我們最終都是通過應用市場下載的APP。而這個結果卻是很多因素導致的,所以需要更加細緻的數據分析。

第二步研究數據,將無效和虛假的部分剝離。

—時間上的異常;

—行為上的異常;

—點擊;

—輸入;

—地域上的異常;

—來源上的異常;

譬如母嬰類的電商,突然某個晚上的凌晨訪問量很高,銷售額很高,這些異常情況都需要剔除樣本數據。

第三步通過測試、輔助指標計算和長期監控來分析隱性和長期效果。

譬如專業人士購買專業工具和非專業人士購買專業工具的頻率是不一樣的,需要加以區分,進行數據分析。

案例分析:如何分析營銷數據

案例:

1、你在QQ和新浪上花同樣的錢投放了廣告,QQ一天帶來了70000個訪客,20個訂單,新浪一天帶來60000個訪客,30個訂單,所以新浪的投放性價比更高。

2、你在QQ和新浪上花同樣的錢投放了廣告,QQ一天帶來了50000個訪客,30000個瀏覽了超過3個頁面,新浪一天帶來60000個訪客,40000個瀏覽了超過3個頁面,所以新浪的投放性價比更高。

3、你在QQ和新浪上花同樣的錢投放了廣告,QQ一天帶來了50000個訪客,在你網站註冊了300個新帳戶,新浪一天帶來60000個訪客,400個註冊了新帳戶,所以新浪的投放性價比更高。

4、你原來的市場總監離職,來了個新的,他來了之後關鍵字廣告ROI大為提升,CPO(平均訂單成本)從20塊下降到18塊,他做得比前任要好。

指標分析

—70000訪客vs60000訪客;

—20訂單vs30訂單;

—訪客vs訪客;

1、細分;

2、外部數據支持;

—訂單vs訂單;

—後續數據跟蹤:30天消費率、二次消費率;30天後消費率;

—綜合其他數據一起分析;

—指標是否合理,看廣告投放的最終目標是什麼

如果qq上的用戶銷售額偏高,後續購買率高於微博,那麼我們可以說QQ的效果比較理想,或者說QQ上的投放新用戶較多,單價較低,後續購買率價較高,那麼QQ用戶的潛在價值就非常的高。

不同的角度和不斷的細分,才能看清廣告投放的最後價值,根據投放的最終目的不同,選擇最佳的效果。

一個數據統計的常見誤區

平均數陷阱:

報告顯示,截至2011年8月,中國家庭資產平均為121.69萬元,城市家庭平均為247.60萬元,農村家庭平均為37.70萬元!結果一出,很多人吶喊拖了國家後腿。其實這個數據看中位數可能更加理想和說明實際情況。中位數是一個能看出某些統計數據中最真實的情況。

最後…

推薦兩本書:

《統計陷阱》

《決策與判斷》

問題和解答

(1)請問王武佳老師數據分析的表格應該是什麼樣子的?是每天都要錄入數據還是一個星期錄入一次

答:個人習慣是兩種頻率:

1.日常周期性的分析,每天第一件事就是看數據報表,對於這類日常分析,我建議每天手動填到表格中,在填表的過程中就是思考的過程,就考慮分析數據的關聯性和邏輯,可以產出日報和周報

2.專題分析,目前在分析的項目,就沒有固定的頻率

(2)做旅遊產品的品類運營,請問怎麼判斷一個區域的下降是因為市場原因還是產品原因,或者是推廣的問題?@大叔控?控大叔

答:數據分析最重要的兩種辦法是細分和橫向的聯繫,我覺得這兩種辦法都可以在這個問題中用到,比如橫向的聯繫,可以有兩種聯繫的方法,一種是時間軸的聯繫,比如業務量的上升或者下降 ,你把這種時間軸拉長,看看有沒有什麼規律,比如去年同期,月末效應這種東西,還有一個就是橫向的跨地域的,我不清楚你做的旅遊產品是什麼,可能是景點比如像江南水鄉這些,或者是烏鎮或者周庄,假如周庄最近的遊客人數大幅上升或者門票收入大幅上升,這樣其是就可以聯繫周邊同樣性質的旅遊產品,做一個橫向的比較,還有一個細分就是一個數據的分析,在我們剛才的分享中已經找到各種各樣的方法,在這裡我們就不再重複,那總體來說就這兩個方法。

(3)做數據分析需要具備有哪些方面的知識

答:建議大家看下ptt里推薦的書《統計陷阱》和《決策與判斷》,推薦先把《統計陷阱》這本書比較簡單,大概一下午可以看完,看完後可以對數據分析有一些思想上的認識你,但是仍然需要對業務的理解和洞察,沒有專門的業務知識,離開業務的數據分析都是空談,這些都蘊含在對業務的洞察之中。

(4)如何通過數據分析進行分析用戶潛在需求?

答:數據分析是可以分析用戶需求,但這不是數據的強項。如果要確定用戶的潛在需求,我建議還是得做1對1深度訪談。可能焦點小組這種都不一定是最好的辦法。還是得去和用戶交朋友,去了解他的生活環境,真實的生活場景、使用場景是怎樣的。當你有一天做產品,做運營,閉上眼睛就能想到這個用戶現在正在幹什麼。就像你回想起你的高中同桌,無論你(什麼時候)打電話過去,都能猜到他現在正在幹什麼。能達到這樣的境界,我覺得去了解用戶的潛在需求就很容易了。

(5)數據分析這個本領,更傾向於先天獲得還是後天培養?

答:我認為肯定是後天的培養,沒有誰一開始就有這種本領。本質上和你平常思維方式有很大關係。聯繫和細分的思考方式不僅在業務中要用,在生活中大量練習也會有收穫。

(6)老師,你好我是一家020的互聯網企業的數據運營,我想問下,有的時候我覺得有的數據看起來就是覺得很有問題,但是當我去分析這一批增長很異常的問題,卻怎不知道如何去下手,因為沒有個方向,只有篤定覺得有問題,就是會顯得很沒有方向感,這該怎麼破??就比如現在我們是一家同城貨運APP的互聯網公司,因為現在大部分都是在靠錢補貼的,所以單量再上漲比較快,這樣肯定是有問題的,首先我知道產品的粘性是很重要的,我現在假如說我覺得廣佛兩地單量異常,就是說我能從那幾個維度很好的去判斷他們是在刷單,為了這個補貼,因為後台上了一個軌跡判斷,這些訂單都是有軌跡的,也就是說司機的確是去接貨並且去送貨了,所以這個判斷不是很好,所以想請問老師有沒有什麼好的維度去監控這個,或者說監督這個呢?還有一個難點就是關於留存和活躍,因為我覺得現在我們的平台註冊的用戶還是蠻多的,就是說有一部門只是註冊了但是從來沒有發單,其實像這一批用戶我應該以什麼維度去判斷他是正常用戶呢?就比如說我這邊想的是,一個月沒發單是休眠,兩個月沒發單是殭屍用戶,三個月沒法單基本上可以判斷是流失用戶了?這樣的維度可以么?需要加三個維度么?比如說發了一單的,一單也沒有發過,和發了兩單以上的?

答:有位做O2O的同城貨運的朋友,問怎麼防止刷單。這其實是很大的一個問題,我們主要從數據分析角度來講。我覺得要回到你產品和業務的主要場景上來講,比如這位朋友講到說可以分析貨車司機行走的軌跡。我覺得這是一個很好的視角,是從個體的角度進行分析。我覺得要防刷單,主要從兩個方面看:整體宏觀指標和微觀指標都要進行分形,這樣可能更容易做到防止刷單。

宏觀指標是指某個區域或城市,如廣州、佛山。這個區域,或某一類型的用戶,比如司機整體在馬路上跑的時間是多少,每單的接單時間、響應市場是多少等。像這樣做O2O的,在線下積累一段時間後,會對這些用戶的行為模型有整體的把握。再用這個模型去套用不同的用戶,這樣就很容易在套用過程中,發現刷單的用戶了。而具體微觀的行為分析,就是像剛這位朋友提到的,分析司機的行駛路徑等。總體上,就是要把宏觀和微觀的分析都結合起來。

這是一個非常好的問題。1個月2個月還是3個月沒來的用戶算流失,業界沒有一個標準答案。我們舉一個和工作不相關的案例,如果你不再公司現場上班,如何用數據分析,員工是否流失?一般員工都會打卡上班,如果一個員工連續幾天沒來上班,最多請假一周。如果一個員工1-3周沒來,基本可以判斷員工就算流失了。主要看你的使用產品了。

不同產品使用頻率是不同的。在企業中,商務人士來說,郵箱使用頻率很高;普通用戶來說,郵箱用來收發驗證碼和簡歷,可能基本3個月-半年登錄一次。所以對於低頻用戶3個月沒來,我們就可以定義為流失。

所以總結為:

高頻使用產品用戶短時間沒來基本就流失了,低頻產品的根據產品來做判斷,這是定型分析。

定量分析,取一些樣本用戶,1個月3個月或不同的時間周期,100個用戶回來的可能性有多少。當天100個用戶中60%流失,基本可以把3-4天的定義用戶的流失周期。

楊小小 微信yoy341


首先,什麼是數據分析?從統計的各項數據指標中找到隱藏的問題或規律,研究產生這種問題或規律的原因,從而決定下一步如何行動。簡單歸納數據分析的思路:What(是什麼)、Why(為什麼)、How(怎麼做)

第一步:What

這一階段的核心是找到規律或者說是發現問題,具體怎麼做呢?看趨勢變化、不同維度數據對比、細查用戶行為

下面是我們團隊遇到的一個實際案例。在每日的數據監測中,發現註冊頁面UV很高,跳出率也非常高,接近100%。

1.我們看了註冊頁面UV、跳出率的趨勢,這個現象大概是從兩個月前開始。

2.從訪問來源、城市、瀏覽器、操作系統等維度將數據進行拆解,發現某個城市過來的用戶非常多(佔90%)以上,而且跳出率接近100%。

3.抽取了幾個用戶,具體查看每個用戶的行為。發現一個相同的訪問路徑,達到註冊頁面,填寫手機號,獲取驗證碼,離開,而且這些用戶IP來自同一個段。

現在基本可以確定發生了什麼事兒, 某個城市某個相同IP段的大量用戶每天訪問註冊頁面,填寫手機號,獲取驗證碼,離開。

第二步:Why(為什麼)

發現了規律和問題後,肯定會納悶為什麼會這樣,可以從內(舉辦活動、投放廣告、消息推送、新產品上線、新聞熱點)和外(爬蟲、惡意攻擊)等方面考慮。

繼續說我們的例子,我們也非常疑惑為什麼會出現這種情況,和多位同事交流,最後得出一種推測,是不是短息驗證碼轟炸。從網上找了篇文章,我們基本確定我們的註冊驗證碼被別人惡意使用,去轟炸別人。

第三步:How(怎麼做)

個人認為,最後一步是最體現數據分析價值的,經過大量的數據分析,如果只發現了問題而沒有動手去解決問題的話,數據分析沒有意義。

當我們已經非常明確發生了什麼,為什麼這樣發生,我們聯繫了前端團隊,在註冊頁面添加圖形驗證碼,輸入驗證碼後才可以點擊獲取簡訊驗證碼,防止「機器人」惡意獲取。從近期的數據看,來自該城市的用戶訪問已經趨於正常。

至此,通過我們實際工作中遇到的一個小案例,梳理了數據分析的思路。需要說明的是,這個案例比較簡單,並不是所有的數據都能通過簡單拆解、對比就能發現問題所在,但是思路應該類似,當然也有時候數據異常,通過各種分析,我們無法明確問題原因,只能靜觀其變。


推薦閱讀:

關於數據挖掘就業方面的問題?
如何判斷深度神經網路是否過擬合?
數據挖掘的系統教程是怎樣的,包含哪些教材?
學習神經網路、SVM等機器學習的知識,為了更好的投入到應用當中,用matlab還是c++好呢?
在數據量不足的情況下,用哪種數據挖掘模型效果會更好?

TAG:數據挖掘 | 數據分析 | 大數據 |