七周成為數據分析師:從零開始,構建數據化運營體系
作者:秦路 公眾號:秦路(tracykanc)
配套七周成為數據分析師視頻教程:磨劍之作,七周成「師」!秦路主講,七周成為數據分析師
數據化運營是一個近年來興起的概念,它在運營的基礎上,提出了以數據驅動決策的口號。
在了解數據化運營前,運營們有沒有過如下的問題:
不同渠道,效果究竟是好是壞?
活躍數下降了,到底是因為什麼原因?這次活動推廣成效如何?
發布了版本,用戶喜不喜歡?我們總是說傳播,傳播到底有多大?
這是產品和運營每天每時每刻都會遇到的問題。數據化運營,實際以解決這些問題為根本。它從來不是BAT的專屬,也不是大數據的獨寵,每一家互聯網公司,都有適合的數據運營土壤。
數據運營體系,是數據分析的集合與應用,也是數據先行的戰略,它不僅是運營人員的工作,也是產品、市場和研發的共同願景。從管理角度,是自上而下的推動,如果領導不重視,那麼執行者數據用得再好,也是半隻腿走路。
如何構建數據化運營體系呢?以下是我的總結思考。
我將數據化運營體系劃分成四層架構,每一層架構都逐步演進互相依賴,每一層又不可缺少。這四層分別是數據收集層,數據產品層,數據運營層,用戶觸達層。它是以運營人員為視角的框架。
數據收集層
數據化運營體系的底層是數據收集,數據是整個體系中的石油。
數據收集的核心是儘可能收集一切的數據,它有兩個原則:宜早不宜晚,宜全不宜少。
宜早不宜晚,意思是產品從創立階段,就需要有意識的收集數據,而不是等到公司發展到B輪、C輪才去收集。數據化運營貫徹產品全階段,不同階段有不同的運營方法。
宜全不宜少,指的是只有不合適的數據,而沒有爛數據。像歷史數據、變更記錄或者細節處的數據,都存在價值。
舉一個例子,有一家金融產品,它的徵信系統會詳細記錄用戶的行為,用戶在借貸時上傳擔保資料,會記錄用戶在這些頁面的操作步驟和時間。這裡有一個假設,上傳擔保資料普通人一定是謹慎小心的,如果這步驟完成的非常順暢快速,很可能是會違約和欠款的人群:你操作那麼溜,是不是想撈一筆?屬於熟練工作案。徵信系統會把這些數據作為特徵判斷風險。
需要收集的數據能劃分成四個主要類型:行為數據、流量數據、業務數據、外部數據。
行為數據
它是記錄用戶在產品上一系列操作行為的集合,按時間順序記錄。用戶打開APP,點擊菜單,瀏覽頁面是行為;用戶收藏歌曲、循環播放歌曲,快進跳過歌曲是行為。
行為數據的核心是描述哪個用戶在哪個時間點、哪個地方,以哪種方式完成了哪類操作。
我們可以利用其分析用戶的偏好,頁面停留時間的長短,瀏覽的頻繁程度,點贊與否,都可以成為依據。另外一方面,用戶行為也是用戶運營體系的基礎,按不同行為,如購買、評論、回復、添加好友等,劃分出不同梯度,定義核心用戶、重要用戶、普通用戶、潛在用戶的分層。
行為數據通過埋點技術收集。埋點有不同種的實現方式,採集到的數據內容倒是沒有差別,主要以用戶ID,用戶行為,行為時間戳為最主要的欄位。用表格畫一個簡化的模型:
useId用來標示用戶唯一身份,通過它來確定具體是誰,理解成身份證號就行。active就是具體操作的行為,需要在技術層面設置和定義,timestamp就是發生行為的時間點,我這裡只精確到分,一般會精確到毫秒。用戶的行為記錄應該詳細,比如瀏覽了什麼頁面,此時頁面有哪些元素(因為元素是動態的,比如價格),它是半結構化的NoSQL形式,我這裡簡化了。
有時候為了技術方便,行為數據只會採集用戶在產品瀏覽的頁面,像點擊、滑動這類操作不記錄。屬於折衷的方法。
除此以外,行為數據還會記錄用戶設備、IP、地理位置等更詳細的信息。不同設備的屏幕寬度不一樣,用戶交互和設計體驗是否會有差異和影響,怎麼拿來分析?這也是數據化運營的應用之一,是宜全不宜少的體現。
流量數據
流量數據是行為數據的前輩,是Web1.0就興起的概念。它一般用於網頁端的記錄,行為數據在產品端。
流量數據和行為數據最大的差異在於,流量數據能夠知道用戶從哪裡來,是通過搜索引擎、外鏈還是直接訪問。這也是SEO、SEM以及各渠道營銷的基礎。
雖然現在是移動時代,Web時代的流量數據並不過時。比如微信朋友圈的內容都是HTML頁面,活動運營需要基於此統計效果,我們可以把它看作一類流量數據。另外,不少產品是原生+Web的複合框架,內置的活動頁大多通過前端實現,此時即算行為,也算流量數據,當我們將活動頁發送到朋友圈時,相應的統計只能依賴基於前端的流量數據來採集了。
流量數據是基於用戶訪問的網頁端產生。主要欄位為用戶ID、用戶瀏覽頁面、頁面參數、時間戳四類,簡化模型如下。
url是我們訪問的頁面,以 ***.com/*** 形式記錄,param是描述這個頁面的參數,我們在頁面上的搜索、屬性信息會以參數的形式記錄。和行為數據一樣,如果流量數據需要更詳細的統計,也是以半結構化為佳,囊括操作記錄。
它是活動及內容運營的好基友,活動的轉化率,文章被發到朋友圈的閱讀量等,都是作為流量數據被記錄。主要通過JS採集。
流量數據的統計已經比較成熟,Google Analytics和百度統計都是知名的第三方工具,最為常用。不過它們不支持私有化的部署,只能提供統計,我知道這個頁面有100人訪問,但這一百人是誰不能定位,數據也無法記錄在資料庫中,這對數據化運營是一種麻煩。一些新式的工具則能支持這種更精細的需求,不過要收費。
如果有可靠和先進的技術手段,我們是能做到將行為數據和流量數據統一到一起,這是未來的趨勢。
業務數據
業務數據在產品運營過程中伴隨業務產生。比如電商產品,我進行了促銷,多少用戶領取了優惠券,多少優惠券被使用,優惠券用在哪個商品上,這些數據和運營息息相關又無法通過行為和流量解釋,那麼就歸類到業務數據的範疇。
庫存、用戶快遞地址、商品信息、商品評價、促銷、好友關係鏈、運營活動、產品功能等都是業務數據,不同行業的業務數據是不一樣的,業務數據沒有固定結構。
業務數據需要後端研發進行配置,因為結構不能通用化,最好提前和研發們打聲招呼提下需求。
行為數據、流量數據、業務數據構成了數據來源的三駕馬車。統稱為原始數據,指沒有經過任何加工。
外部數據
外部數據是一類特殊的數據,不在內部產生,而是通過第三方來源獲取。比如微信公眾號,用戶關注後我們就能獲取他們的地區、性別等數據。比如支付寶的芝麻信用,很多金融產品會調用。還有公開數據,像天氣、人口、國民經濟的相關指標。
另外一種外部數據的獲取方式是爬蟲,我們可以爬取豆瓣電影評分、微博內容、知乎回答、房地產信息為我們所用。第三方不可能支持你獲取,很多時候會有防爬蟲機制。它需要一定的技術支持,不屬於穩定輕鬆的來源。
外部數據因為質量難以保證,更多是一種參考的作用,不像內部數據能產生巨大的作用。
這四類數據構成了數據化運營的基石。隨著互聯網公司數據化水平的提高,能夠利用的數據越來越多。數據結構逐步從SQL到NoSQL;信息源更加豐富,圖形和聲音數據越來越多;技術由單伺服器演變成分散式;響應從離線批處理到實時流式,都是數據收集的挑戰。
當我們有了數據以後,進入下面一層,數據產品層。
數據產品層
數據產品是對數據的加工和利用,它屬於技術和自動化的範疇,由計算機對原始數據進行處理。它不是傳統意義上的數據產品(如廣告系統),而是以發揮數據價值和生產力為目的,理解成進行數據加工的產品也可。
原始數據並不能直接為運營所用,通常髒亂差,我們需要按照一定的標準整合、加工。
比如行為數據和流量數據,用戶在微信朋友圈看到一則活動覺得不錯,於是下載APP,註冊後參與了活動。這裡的行為數據和流量數據是完全獨立的。微信朋友圈的瀏覽,記錄的是用戶weixinOpenId和cookie,下載後則是產品內部使用的的userId,兩者無法對應,這就需要數據整合,將cookie、手機號、userId等信息映射(mapping)到同一個人。
這是技術層面的數據清洗。整個過程叫做ETL。
數據發揮價值的方式有很多種。即能通過BI,將原始數據以維度和度量的方式聚合,進行各類可視化的決策分析,也能數據挖掘。根據業務和場景決定數據的不同使用。這裡最重要的是先有指標。
數據指標
我強調過儘可能的收集數據,然而原始數據那麼多,怎麼才能指導我們的業務呢?這要求我們從龐大的數據中找出方向。這時我們就要建立指標,指標就是我們的方向,它是業務和原始數據的連接器。
可以這樣說,指標在數據化運營體系中是承上啟下的潤滑油,它由原始數據加工而來,反過來又驅動其他產品。
需要有BI?BI肯定是圍繞指標建立儀錶盤;要用機器學習演算法?演算法的目的就是提升指標效果的;你要運營?內容、用戶、活動模塊的KPI也是圍繞指標的。
指標不是一個通常意義的數據產品,我更喜歡的解釋,是數據屆的產品經理,是驅動、規劃其他數據產品以及配合運營迭代業務的。這樣一說,大家就明白了。
指標如何設立,是根據運營業務所決定,也是運營的第一驅動力。
我們簡單看一下指標如何由原始數據加工而來,下圖是原始數據中記錄的用戶打開APP的情況。
每一個時間戳意味著對應的用戶打開過APP一次,通過該表我們能計算每天有多少用戶打開過APP,這是打開量,將用戶數去重,就是運營中的重要指標:活躍用戶數。通過對該表的進一步複雜運算,譬如用SQL的Left Join,能獲得留存率。
文章閱讀量、日銷售額、活動參與人數,這些幾乎都是由原始數據匯總加工而出。指標匯總以後,就是運營人員產品人員每日的報表Dashboard。
有了指標,我們再看其他的數據產品,因為篇幅有限,我著重介紹一下用戶畫像。
用戶畫像
用戶畫像是常用的數據產品,對產品和運營人員往往帶有神秘色彩。它有兩種解釋,也是很多新手歧義的根源,一種用戶畫像屬於市場營銷和用戶調研領域,叫做Persona,更準確的翻譯是用戶角色,描繪的是一個自然人的社會屬性,用於用戶需求和場景的確定。
而數據領域的用戶畫像,叫做Profile,是將一系列數據加工出來描述人物屬性的數據標籤。最知名的例子就是淘寶的千人千面:用戶去購買孕期的孕婦產品,很大可能被打上孕婦標籤;瀏覽了汽車相關商品,會被打上汽車興趣的標籤。
用戶畫像是一個依賴大數據和機器學習的複雜體系。準確豐富的用戶畫像能呈指數級的提高運營效果。
用戶畫像也有簡單的用法,沒有數據挖掘不要緊。用戶的性別、年齡、地區這些信息不難拿到吧?用戶行為簡單做一個喜愛偏好區分也不難吧。那麼我們就有用戶畫像V1.0了.
推薦系統,精準營銷、廣告投放都是常見的基於用戶畫像的應用。你要推送化妝品促銷活動,選擇女性標籤的用戶肯定有更高的成功率,更進一步,如果運營知道女性用戶偏好哪個品類的化妝品,效果會更好。
用戶畫像可以通過已有數據提煉獲得,比如擁有用戶的身份證信息,就能準確獲得性別、籍貫、出生年月這三個標籤。也能通過演算法計算獲得,比如在淘寶購物遺留的收件人姓名,通過機器學習,以概率的形式獲得買家是男是女,建國很大可能是男性,翠蘭很大可能是女性。
用戶畫像是基於原始數據的加工,原始數據越全,用戶畫像就越豐富。
數據產品層中,我們將數據加工為指標,以其為核心,構建和規劃數據產品。如何展現指標(BI),如何提高指標(演算法),如何計算出指標(ETL),如何與指標組合(用戶畫像)。
我們現在獲得了這些「產品」,接下來就是使用,運營和產品人員就是它們的用戶。
數據運營
數據運營層,是運營人員將數據轉化成運營策略。以人為主要生產力,和數據產品的計算機自動化對應。
在我們談及具體的方法前,強調一下人的作用。不論我們前面打造了多好的數據產品,員工的數據化運營意識提高不上去,一切等於零。
對人的要求有三點:
其一,以數據做決策,既要知道數據能夠做什麼,也要知道數據做不了什麼。前者很容易理解,我工作中遇到很多次,在有數據可以提供決策的情況下,依舊相信個人經驗。這是應該規避的思維,不是一個人,而是團隊要做到。
數據化運營也不是企業運營的靈丹妙藥,得客觀承認,公司體量越大,數據化運營所能發揮的效果也越好。在創業公司或者小公司,會受到一定的限制,比如沒有技術支持,提升效果不夠,數據體量缺乏等原因,造成優先順序的延後。這是沒辦法的取捨問題,只能以解決問題為首先依據。
其二,是本身數據分析和運營水平不過關。雖然有意識地利用,可員工僅限於求平均數的水平,那麼也別期待太高了。
這一點,得通過不斷地系統培訓,人員招聘解決。自上而下的倡導和發起是最好的結果,高層有數據化運營的戰略和意識、管理層有數據化運營的指導經驗,執行層能將數據化運營的落地,那麼整個體系也推行成功了。
最後,是產品工具的使用。這是對員工的技能要求,諸如MySQL查詢數據、BI多維度分析、精準營銷、 AB測試、轉化率分析,都是必須的。將數據相關的工具玩得順溜,員工才能在發揮夠大的價值。
運營和產品如何進行數據運營,具體的技巧和方法論太多了,我以核心思想為引子。大家著重了解思維。
不是全量,而是精細。不止精細,更是精益。
全量運營是一種集中運營的策略,活動、內容推送、營銷、用戶關係維護,這些方式如果針對所有的用戶,這是運營資源的浪費,你不可能通過一種方式滿足所有的用戶,也不可能用一種方式做到最好。
用戶間是有差異的,這種差異需要用精細化運營彌補。
精細是是將目標拆分成更細的粒度,全國銷量變成上海銷量北京銷量、全年銷量變成第一季度銷量第二季度銷量,用戶變成新用戶老用戶。電商賣口罩,是賣給北京的用戶好,還是海南的?促銷化妝品,目標人群選擇男人女人也是顯而易見的。精細(拆分)是一種數據分析的思路,也是一種運營手段。
精益比精細更進一步,精細是手段,精益是目標。什麼是精益?精益就是二八法則,找出最關鍵的用戶。我們都知道要將化妝品賣給女人,但一定會有部分女人支付更多,20%的女人佔了80%的銷量,精益就是找准這20%。
對最適合的用戶在最恰當的時機採取最合適的手段以產生最大的價值。
前面三個「最」說的是精細,後面一個「最」指的是精益:價值/目標最大化。我有CRM,那麼就從CRM中找出最有價值的客戶去維護;我有風險管理,就找出最可能違約的投資;要做活動,歡迎的是產出最大而不是薅羊毛的用戶;積分中心,效果最好的只會是最優質的那批客戶。
未來比現在重要,現在比過去重要。
這個第二個核心,數據化運營能夠預測未來,把握當下。傳統的運營方式,是知曉過去已經發生的事,銷量是多少,活躍數是多少,這在日益嚴酷的競爭環境中還不夠。
把握當下,是能獲得數據的立即反饋。你要推廣一個活動,可以提前挑選5%的用戶做一個測試,及時獲知用戶的反饋,轉化率高不高,響不響應,然後按照數據決定後續的運營是繼續還是改進。這是技術帶來的進步優勢。
預測未來,是機器學習的領域,通過數據建模,獲得概率性的預測,用戶可不可能流失,會不會喜歡和購買這個商品,新上線的電影會否偏好…運營則利用這些概率針對性的運營。
如果限於技術無法使用機器學習,則需要根據現有數據趨勢去估計,這取決於運營人員的經驗和數據敏感性。
系統化與自動化
數據化運營體系的搭建過程中,運營人員會用到很多的工具。
用戶積累到一定數量,我們考慮引入積分中心增加用戶粘性;產品涉及到地推和銷售人員,則要加入CRM(客戶關係管理)以維繫客群;O2O和電商,基本配置肯定有優惠券的發送;反饋越來越多,我們也需要客服中心解決各類疑問。這些與運營息息相關的工具,在數據運營體系中佔據中重要的比例。
為了更好的達成目標,會將其獨立成運營模塊/運營後台。好的運營後台和用戶端的產品同等重要,也需要後台產品經理規劃。
以我們經常接觸的優惠券為例,它肯定要設置一套規則,核心目標是財務數據,是優惠券成本和收入之間的平衡:你不能濫發,那肯定虧錢,也不能少發,用戶連這東西都不知道。有哪些券、怎麼發、發了多少用了多少、未來準備發多少、發了有多少沒用掉,都是一套大框架的東西,於是做成了發券系統。
優惠券能和CRM結合,CRM通過幾個指標將用戶劃分成了不同的價值和人群。這個用戶特別喜歡花錢,那麼優惠券給他滿1000減100,肯定比滿200減20過癮。那個用戶還沒有消費過,要用首單優惠刺激他。還有用戶有段時間不消費了,運營們得加把勁營銷。上面東西從更高的視野看,是一連串效果、ROI、盈利的評估。這就是用數據做運營策略。
CRM又能和客服中心結合,電話號碼肯定和用戶的數據綁定,VIP用戶電話進來了,我們選客戶主管去接待,賓至如歸。普通用戶呢,也不能粗心,客服至少需要通過後台的用戶畫像知道這個用戶是什麼情況,這也有針對性的服務。數據運營體系不止服務於運營和產品的。
系統化,要求的是我們把運營的整個過程和策略流程也當作一款產品去締造:哪些方法好用,哪些手段效果好,哪種活動能持續做,把這些都固定下來,打造出一個運營用的產品後台,作為日常和招數。這種系統化思維也叫「復用」,之後則是把系統做得越來越自動,功能越來越強大,也是另外一種精益了。
以上種種,是將數據、產品運營、系統和人員四者結合起來。系統之所以是系統,就是脫離了粗放的階段,一切皆是有序、規則和充滿策略。數據就是系統的潤滑劑,你沒有數據,怎麼能有選擇性的發券、做活動、推送,維護用戶呢?
數據產品層加工出來的各類標籤、用戶畫像、模型…就是要在數據運營層最大化的被員工使用。數據本身沒有價值,變成策略才有價值。
這三條要點總結一下:我們系統化的使用各種加工後的數據,以精細和精細為手段目標,以把握未來為方向,指定運營策略。這是數據運營層的核心。
用戶觸達
我們整個體系進行到最後的環節,它需要面向用戶。數據收集得再多、加工得再好,運營得再努力,如果不將它們傳遞給用戶,體系就是失敗的。
整個體系的前三層用戶都感知不到。用戶直接感知到的是產品的推送通知、Banner、廣告位、活動、文案、商品的展示順序等。在與產品交互的過程中,用戶會以直接的反饋表達自己喜惡。
感興趣的會點擊,喜愛的會夠買,討厭的會退出…這些構成了新一輪的行為數據,也構成了反饋指標:點擊率、轉化率、跳出率、購買率等。這些指標就是用戶觸達層的結果體現,也是數據化運營的結果體現。
好與不好,都需要驗證。
結果不是終點。管理學有個概念叫PDCA,翻譯成中文是計劃-執行-檢查-改進,以此為循環。用戶觸達層不是數據化運營體系的結束,它是另外一種開始。通過反饋獲得的數據去優化去改進。
我的點擊率5%,那麼我能不能通過運營優化,達到10%?用戶接受推送後選擇了卸載,我們有什麼方法挽回?留存率被提高,這種策略能不能應用到其他用戶上面。
也許我們數據化運營後,不會獲得一個滿意的結果,但如果我們連優化改進都不去做,那麼連好的機會都不會有。
你看,優秀的員工,不會以數據化運營的結果沾沾自喜,而是進行新一輪的開始。
是終點,又是起點,此過程就是迭代,是體系的核心。
總結
我們將四層串聯起來看待,下圖是一款產品簡化的數據化運營閉環。
數據收集層:當用戶打開APP時,瀏覽新聞,通過埋點記錄用戶的行為數據:何時何地是誰看了哪些新聞。
數據產品層:計算機將收集上來的行為數據進行加工,統計用戶對軍事、科技、經濟等不同類型新聞的閱讀數。用卡方檢驗得到用戶的閱讀偏好在科技新聞,將其寫入到用戶畫像/標籤系統。
數據運營層:近期有一個科技類的活動,需要一定用戶量參與。運營不能選擇全部的用戶推送吧,那麼就從用戶池中篩選中對科技感興趣的用戶。
用戶觸達層:選擇用戶進行精準推送,用戶在手機端接收到消息。後台則會記錄用戶是否打開推送通知,是否瀏覽頁面,是否參與了活動。轉化率作為反饋會被記錄下來,用以下次迭代改進。
該例就是一次合格的閉環。數據化運營體系既能簡單到用Excel完成,也能引入機器學習數據挖掘分散式系統等高端技術,看的是思維和應用。我們將體系中的四層簡化成四個模型,幫助大家理解:
數據收集:以用戶和產品的交互為輸入,原始數據(行為、業務、流量、外部)為輸出。
數據產品:以原始數據為輸入,以加工數據(標籤、畫像、維度、指標、演算法結果)為輸出。
數據運營:以加工數據為輸入,以運營策略(用戶、內容、活動、電商)為輸出。
用戶觸達:以運營策略為輸入,以反饋行為(轉化率、點擊率、響應率)為輸出。
用戶產生的反饋行為作為新的交互輸入,迭代和優化,數據化運營體系就良好地運作起來。好的數據化運營體系也是高度自動化的運作,像個性化推薦,可以略過數據運營層,伺服器實時計算後直接將推薦結果給用戶,人就不用參與其中了。
這是四個互相聯繫有先後順序的系統,以此構成數據化運營體系。因為技術手段差異,實現方式會有不同,哪怕是Excel,也能發出數據化運營的光芒。
以上就是產品和運營視角的數據化運營體系,沒有過多的牽涉研發技術,實際複雜程度還要再高一點。當然,萬千用法,存乎一心,希望大家學到的是理念和思維,實際工作中,還是有很多玩法留待大家挖掘。
————
數據化運營是我最擅長寫的內容,從去年便有動筆的想法,這篇文章創建時間遠早於其他。
本文寫到一半的時候我猶豫過,因為我只是填充了骨架,還沒有賦予它血肉和肌理,缺乏以實例為主的方法論。雖然文章中補充了一些,作為指南,還是欠缺了豐富度。
其實,我對大段大段偏概念的東西,大家能否消化有疑慮。反過來如果細緻,那麼字數是遠遠不夠的,內容足夠成書。對於依舊一知半解的同學,我表示歉意。
寫得稍遲,後續恢複數據分析類的更新。
磨劍之作,七周成「師」!秦路主講,七周成為數據分析師 磨劍之作,七周成「師」!秦路主講,七周成為數據分析師
關鍵字:已有 20000人學習 數據分析思維、業務、Excel、數據可視化、MySQL、統計學、Python
推薦閱讀:
※「爸爸都嫌土」的海瀾之家變身「潮流炸子雞」,除了林更新還靠什麼?
※《Python數據分析與數據化運營》電子版
※互聯網金融行業,如何將數據、用研、產品做到融會貫通?
※爬取拉勾網,深入了解互聯網數據運營