數據驅動增長的三要素
用數據驅動業務增長,是所有數據人的理想。在實際項目中,有許多成功者,但也有不少失敗者。成功者都一樣,失敗者各有各的原因,有些是數據不夠豐富、有些是數據質量不高、有些是處理效率低下,還有些是場景不夠明確。
究其原因,數據是非常複雜的領域,鏈路很長,包括數據收集、清洗加工、數據存儲、分析和挖掘、落地應用等諸多環節,投入大,見效慢。
如何才能有效地實現數據的價值,用數據解決業務問題,真正驅動業務增長?我認為可以從三個要素入手,這三個要素分別是數據內容、數據技術、業務場景。
既然是數據驅動,數據當然是最重要的,巧婦難為無米之炊,沒有數據一切都無從說起。有了數據就相當於有了一座礦山,這時就需要開採工具,沒有開採工具就只能「坐在金礦上吃饅頭」,數據的開採工具就是數據技術。最後一個是業務場景,為什麼場景這麼重要?大家都知道數據是解決業務問題的手段和工具,如果沒有業務問題,那我們還忙乎啥呢。
這三個要素缺一不可,在數據工作中,必須同時關注這三個要素。如果用一句話來概括,那就是「用數據技術建立數據內容和業務場景之間的連接」。
一、數據內容
關於數據內容,需要明確兩個問題:需要什麼數據和數據從哪裡來。
1)需要什麼數據
需要什麼數據和場景緊密相關,想統計交易量,就需要交易數據;想分析和洞察客戶,就需要客戶的屬性和行為數據;想提高網站轉化率,就需要從客戶進入網站到交易結束的全過程數據。
不同場景的差別非常大,是不是一定要等到場景明確後才去收集數據?
這個要視具體情況而定。如果場景所需的數據和其他數據關聯不大,不需要使用歷史數據,收集過程相對簡單,則可以確定場景後再收集。比如想監控系統的負載情況,當超過80%閾值就告警,這個場景完全就不必提前收集數據。
請注意上面的三個條件,第一個條件「和其他數據關聯不大」,如果該數據和其他數據有關聯,那麼對兩者進行交叉分析,就有可能產生意想不到的收貨,因此建議提前收集該數據。第二個條件「不需要使用歷史數據」,是指該場景僅使用當前數據即可解決業務問題。還是上面那個例子,如果只想監控當前值,不需要提前收集,但想拿去年前年同期的值作參考,那就得提前收集了。第三個條件「收集過程相對簡單」,這一點不是必須的。加上這點是因為在業務上時間就是金錢,必須以最快的速度幫業務解決問題。如果數據已經收集好了,就可以有效縮短項目周期。特別是銀行或證券這類公司,核心業務系統往往是基於大型機的,開發周期比較長,能提前收集就提前收集。
不滿足以上三個條件的,最好提前收集數據。那麼下一個問題又來了,這麼多數據,到底要收集哪些?雖然今天存儲很便宜,那也是錢呀,何況還要投入大量的開發人力和管理成本。
對於這個問題,可以事先對業務場景進行分類,把業務場景分為大致幾種類型,再根據公司的戰略導向,判斷哪些類型是當下或者未來1-2年內的重點方向。一旦確定了場景類型,就可以有針對性的收集這類數據。通常情況下,可以把業務場景分為戰略分析、業務運營、客戶洞察、客戶營銷、風險管理等類型。如果所有類型都很重要,那就果斷收集所有數據吧。
2)數據從哪裡來
簡單的講,數據來自兩個地方,組織內部和組織外部。
組織內部是指由組織內部業務系統產生的數據。其特點是數據非常明細,也比較乾淨,數據的價值密度高,是非常重要的數據。由於組織內部產生的數據完全在本組織的可控範圍內,想要收集哪些,以什麼方式收集都容易搞定,這裡不細講了。
組織外部包括合作公司、互聯網、第三方數據公司等其他可能的數據來源。
對於合作公司,能收集哪些數據完全在於合作程度。如果是深入合作,對方完全可以實時提供最明細的數據,你想怎麼用就怎麼用。如果是合作較淺,對方可能只提供一些匯總後的數據。
互聯網是一個巨大的數據寶庫,可以從互聯網上獲取大量的有用數據。不過互聯網上的數據價值密度相對較低,不能關聯到個體。就本人的經驗,從互聯網獲取的數據大致有兩個用途,其一是獲得對市場宏觀面的認知,比如去年全國的零售交易金額一共是多少,一線城市是多少,競爭對手是多少,再和自己的數據進行對比,便可知道整個基本面情況。其二是用於補充組織內部產生的數據,組織內部的數據常常需要用外部數據來解釋和翻譯。比如組織內部記錄了客戶打開APP時的經緯度數據,這個經緯度代表地球上什麼地方,在哪個國家、哪個城市、哪條街道、哪個小區?就需要通過百度地圖或高德地圖的API介面來翻譯。
第三方數據公司能提供一些非常有價值、但又不能直接從互聯網獲取的數據,是一個有效的數據補充方式。這類公司包括各種資信提供商和一些大數據公司,如上海資信有限公司、百分點等等。其缺點是價格高,一般按查詢的客戶數記費,提供的數據大多是匯總後的,而且具有時效性,歷史數據用途不大。因此,不適合大規模購買,只能滿足個別重要場景。
二、數據技術
數據技術的範圍比較廣,包括數據收集技術、數據處理技術、數據分析和挖掘技術、數據應用技術等多方面。
1)數據收集技術
通常有兩種數據收集方式,批量收集和實時收集。
批量收集可以通過文件進行,也可以直抽資料庫。如果是文件方式,數據源系統把數據導出成文件,再通過FTP或CD等工具把文件拿到數據平台。如果是直抽資料庫,需要採用數據抽取工具。對於數據源系統和數據平台是同一種資料庫的情況下,可以使用該資料庫的自帶工具,例如微軟的SSIS或Oracle的ODI。否則就需要使用第三方工具實現跨平台的數據收集,有傳統的商用工具Datastage和Informatica,也有開源工具Sqoop和Kettle等。在批量收集情況下,從數據產生到進入數據平台之間存在一個時間差,會導致數據滯後。多數場景其實並不需要這麼高的實效,批量方式完全可以滿足需求。
相比於批量方式,實時方式最大的優點就是高時效,能近乎實時地反映業務的狀況,還可以做到批量方式無法實現的場景。比如實時營銷,當客戶進入了特定商圈,就推介某個商戶的優惠券。實時數據收集一般採用Kafka或其他MQ工具。
2)數據處理技術
數據處理技術是指對數據進行清洗、整合、轉換、匯總的技術,是「ETL」的的「T」。總體上可以分為數據倉庫建模技術和模型實現技術兩部分。
數據倉庫建模技術的重點是組織和管理數據,如何保存歷史數據、如何保證數據質量、如何提高數據交付效率等等。有兩種建模方法論,Inmon方法論和kimball方法論,各有利弊,感興趣的讀者可以從網上查找更詳盡的資料。業界也有一些值得參考的模型,比如金融行業有IBM的FSDM和Teradata的FSLDM。順便提一下,雖然此處用數據倉庫建模技術,但並不需要為每個場景建立一個數據倉庫,只是用該技術來組織和管理數據,以便為數據分析和挖掘用戶提供更豐富、質量更好、結構更清晰的數據。
模型實現就是用代碼實現模型邏輯,相對比較容易。大部分情況可以直接用SQL實現,也可用專門的ETL工具實現,如上文提到的Datastage和Informatica。
3)數據分析和挖掘技術
數據分析和挖掘技術是市面上光環最多的技術,感覺其他技術都是綠葉,只為了襯托這朵紅花。其實我覺得這些技術都很重要,光有數據分析和挖掘技術也是孤掌難鳴。
數據分析和挖掘技術比較籠統,暫且簡單粗暴地分為數據分析技術和數據挖掘技術兩種。它們都是通過對數據進行操作,發現一些有價值的信息。
數據分析更偏重於產出宏觀的結論,例如業務狀況分析、原因分析、市場預測等等,需要對業務和數據有較深刻的理解。普通的數據分析一般用SQL就能實現,複雜的可以用SAS、SPSS、R等工具。
數據挖掘則偏重於產生微觀的結論,通常細到個體、單次事件或單個動作。例如信用評分和推薦模型,前者針對個體,後者針對單次點擊動作。相比於數據分析,數據挖掘更注重技術層面。除了NLP、圖像處理等特定領域外,數據挖掘問題一般可以歸為三類:回歸、分類和聚類,每一類都有許多實現演算法,相關資料網上都處都是,我就不再贅述。
4)數據應用技術
有了數據分析和挖掘結果,要想應用到實際業務中,就需要數據應用技術。
對於宏觀的結論,通常以報告形式展示,給到公司相應層級的人員閱讀,提高讀者的認知或為讀者提供建議,這種情況一般不需要太多特別的技術,只需Word、Excel和PPT。
對於微觀的結論,比如為每個客戶進行信用評分、為每個廣告欄推薦廣告。在這些例子里,如何才能把結果應用起來?一種是分散模式,把結果數據或模型扔到每個場景去,每個場景各管各的,之間沒有任何關係。這種模式比較容易實現,短期比較有利,但當場景增多後,開發和維護成本非常高。與之相對應的是集中模式,有一個統一的平台管理分析挖掘的結果數據,各業務場景只通過API訪問該平台。這種模式對技術要求比較高,尤其是面對大量場景高並發訪問的情況。當然,具體問題具體分析,也可以混用兩種模式,達到更好地效果。
三、業務場景
不同行業有不同的場景,不同場景差異非常大。下面我列舉一下常用的場景,供大家參考。
1)營銷
營銷場景一般有兩種形式:為客戶尋找合適的商品(也可能是產品、服務、廣告、資訊等,下同)和為商品尋找潛在的客戶。
前一種形式最典型的例子就是推薦系統,當客戶進入某個頁面,能給客戶展示的廣告數量有限,必須投放用戶最有可能點擊的那些廣告,或者投放收益最高的廣告(點擊率可能不是最高,但每次點擊收益很高),目前幾乎所有互聯網巨頭都在使用推薦系統。另一個例子是智能投顧,根據客戶的預期收益和風險偏好,選擇合適的資產組合,不少金融機構都有該產品。
後一種形式是傳統營銷常用的形式,以批量方式給客戶群發信息,告訴客戶「我這有個XX產品,非常非常適合你,你快來買啊」。
2)風險管理
風險管理場景常見的也有兩種,一種是信用風險,另一種是偽冒風險。
信用風險主要是根據客戶的歷史行為評估客戶的信用情況,對於信用高的客戶,貸款可以貸更高,騎車可以免押金、租房也可以免押金等等,如果是信用低的,那就對不住了。大部分公司是自己打分自己使用,但也有些公司對外提供信用分查詢服務,比如芝麻信用和京東信用分。
偽冒風險主要是判斷在申請、使用銀行或其他機構的金融賬戶時,是不是客戶本人在操作。如果不是,則有可能是他人偽冒客戶,此時客戶的資金將存在風險,必須作相應防範處理。
3)業務運營
業務運營包括的場景非常多,有降低成本的、有提高效率的、有幫助產品設計的、也有提升服務品質的,還有針對其他許許多多不同業務目標的。
降低成本的場景:比如UPS使用其特有的大數據分析系統ORION,實時計算車輛的最優路徑,可觀地縮短了車輛的行駛路程。又比如沃爾瑪的庫存管理。
提高效率的場景:比如滴滴打車,通過大數據適配乘客和司機,讓打車更方便。又比如百度地圖的實時交通,餓了么的配送線路。
幫助產品設計的場景:有著名的例子美劇《紙牌屋》,以及很多大公司都在用的Test & Learn方法。
提升服務品質的場景:比如社交情緒分析,通過大數據實時監控大家對公司和產品的看法,幫助公司及時調整產品和服務。
其他場景:比如電信、銀行和零售等企業都會利用數據預測客戶的流失概率,對即將流失的高價值客戶採取相應的挽留措施。又比如大數據安防領域,通過實時圖像處理等技術及時發現和跟蹤嫌疑犯。
推薦閱讀: