1.1 用Python做數據化運營
來自專欄 Python數據分析與數據化運營
說明:本文是《Python數據分析與數據化運營》中的「1.1 用Python做數據化運營」。
-----------------------------下面是正文內容--------------------------
Python是什麼?數據化運營又是什麼?為什麼要將Python用於數據化運營?本節先來回答這幾個問題。
1.1.1 Python是什麼
Python是一種面向對象的解釋型計算機程序設計語言,由荷蘭人Guido van Rossum於1989年發明,第一個公開發行版發行於1991年。Python開發的初衷其實是一個開發程序語言,而非相對數據工作和科學計算的數據處理或建模程序。
為什麼我們要選擇Python而非其他語言(例如R)進行數據處理、分析和挖掘?這是因為Python先天和後天具有的一些特殊條件和能力使其成為目前企業(尤其是大數據領域)做數據化運營最為合適的工具。
- 開源/免費:使用Python(及其第三方庫)無需任何產品購買、授權或license費用,對個人和企業都是如此。
- 可移植性:Python程序可以跨Windows、Linux、Mac等多平台運行,這點決定了它的移植性非常強,一次開發、多平台應用。
- 豐富的結構化和非結構化數據工作庫和工具:Python除了自帶數學計算庫外,還包括豐富的第三方庫和工具,例如用於連接Oracle、MySQL、SQLite等資料庫連接庫,數據科學計算庫Numpy、Sciy、Pandas,文本處理庫NLTK、機器學習庫Scikit-Learn、Theano,圖形視頻分析處理和挖掘庫PIL和Opencv以及開源計算框架Tensorflow等。
- 強大的數據獲取和集成能力:Python除了可以支持多種類型的文件(圖像、文本、日誌、語音、視頻等)和資料庫集成外,還能通過API、網路抓取等方式獲取外部數據,內、外部數據源整合、多源數據集成、異構數據並存、多類型數據交錯正是當前企業運營數據的基本形態。
- 海量數據的計算能力和效率:當面對超過GB、TB規模的海量數據時,傳統數據工具通常無法支撐,更不必填計算效率。Python對於這個規模的數據計算的支持能力和工作效率要遠超過其他數據工作語言。
- 與其他語言的集成:Python具備「膠水」能力,能與Java、C、C++、MATLAB、R等集成使用,這意味著你既可以把其他語言寫到的腳本嵌入Python,也可以把Python腳本嵌入其他語言。
- 強大的學習交流和培訓資源:Python已經成為世界上最主流的編程語言和數據工作的核心工具之一,有非常多的社區、博客、論壇、培訓、教育機構提供了交流和學習的機會。
- 開發效率高:Python語言簡潔、程序規範,這使得在使用Python開發程序時用時更少。這對於以效率優先的程序工作或驗證性項目非常關鍵,效率決定商機。
- 簡單易學:Python語法簡單,即使是沒有任何代碼基礎的人也能在幾個小時能掌握基本的Python編程技巧。這對於初學者而言至關重要,編程式數據分析不再遙不可及,我們都能像使用Excel一樣使用Python。
總而言之,在具備一定的Python經驗和技巧下,幾乎沒有Python無法勝任的工作場景!如果有,那麼用Python調用其他能勝任的語言或用其他能勝任的語言調用Python吧。
1.1.2 數據化運營是什麼
1. 數據化運營的基本含義
數據化運營是指通過數據化的工具、技術和方法,對運營過程中的各個環節進行科學分析、引導和應用,從而達到優化運營效果和效率,降低成本、提高效益的目的。
運營是一個範圍「彈性」非常大的概念,最大可以延伸到所有公司的事務管理,最小可能只包括網站運營管理工作。本書中若無特殊說明,運營的範圍包括會員運營、商品運營、流量運營和內容運營四方面內容。
2. 數據化運營的重要意義
數據化運營的核心是運營,所有數據工作都是圍繞運營工作鏈條展開,逐步強化數據對於運營工作的驅動作用。數據化運營的價值體現在對運營的輔助、提升和優化上,甚至某些運營工作已經逐步數字化、自動化、智能化。
提高運營決策效率
在信息瞬息萬變的時代,抓取轉瞬即逝的機會對企業而言至關重要。決策效率越高意味著可以在更短的時間內做出決策,從而跟上甚至領先競爭對手。數據化運營帶來的輔助決策便捷性以及數據智能引發的主動決策思考,將提前預判決策時機並提高決策效率。
提高運營決策正確性
智能化的數據工作方式,可以基於數據科學方法進行數據演練並得出可量化的預期結果,再配合決策層的豐富經驗,會提高運營決策的正確性。
優化運營執行過程
數據化運營可以通過標準口徑的數據、信息和結論,為運營部門提供標準統一、目標明確的KPI管理,結合數據化的工作方法和思路,優化運營過程中的執行環節,從而降低溝通成本、提高工作效率、提升執行效果。
提升投資回報效果
數據化運營過程中,通過持續的正確工作目標的樹立、最大化工作效率的提升、最優化工作方法的執行能有效降低企業冗餘支出,提升單位成本的投資回報效果。
3. 數據化運營的2種方式
從數據發揮作用的角色來看,數據化運營分為輔助決策式數據化運營和數據驅動式數據化運營。
輔助決策式數據化運營
輔助決策式數據化運營即運營的決策支持,它是以決策主題為中心,藉助計算機相關技術輔助決策者通過數據、模型、知識等進行業務決策,起到幫助、協助和輔助決策者的目的。例如:通過為決策者提供促銷商品銷量,來為企業促銷活動提供有關訂貨、銷售等方面的支持。
數據驅動式數據化運營
數據驅動式數據化運營是指整個運營運作流程以最大化結果為目標,以關鍵數據為觸發和優化方式,將運營業務的工作流程、邏輯、技巧封裝為特定應用,藉助計算機技術並結合企業內部流程和機制形成一體化的數據化工作流程。例如:個性化推薦是一種數據驅動數據化運營方式。
兩種數據化運營的差異點
輔助決策式數據化運營和數據驅動式數據化運營是兩個層次的數據應用,數據驅動相對於輔助決策的實現難度更高、數據價值體現更大。
- 輔助決策為業務決策方服務,整個過程都由運營人員掌控,數據是輔助角色。
- 數據驅動的過程由數據掌控,數據是主體,實現該過程需要IT、自動化系統、演算法等支持,數據驅動具有自主導向性、自我驅動性和效果導向性的特徵。
注意 由於數據和流程本身會存在缺陷以及運營業務通常都有強制性規則的需求,因此即使在數據驅動數據化運營過程中也會加入人工干預因素。但即使如此,數據作為數據驅動的核心不變,數據即決策主體本身。
4. 數據化運營的工作流程
在上一節我們介紹了數據化運營的兩種方式:輔助決策式數據化運營和數據驅動式數據化運營。其中數據驅動式數據化運營具體取決於應用場景,不同的場景其具體工作流程不同。有關該部分內容在本書後面章節具體講到。本節重點介紹數據驅動式數據化運營的工作流程。
數據驅動式數據化運營工作包含數據和運營兩個主體,在實際工作過程中需要二者協同;在某些大型工作項目上,還有可能涉及到跟IT部門、信息中心等部門的聯動。工作流程分為三個階段,如圖1-1:
圖1-1 數據驅動式數據化運營工作流程
第一階段:數據需求溝通
該階段主要包括需求產生和需求溝通兩個步驟。
需求產生
由運營部門產生的某些數據化運營需求,例如預測商品銷量、找到異常訂單、確定營銷目標人群名單等。
需求溝通
針對運營部門提出的需求進行面對面溝通和交流,主要溝通兩方面內容:一是業務需求溝通,包括需求產生的背景、要解決的問題、預期達到的效果等;二是數據現狀溝通,包括數據存儲環境、主要欄位、數據字典、數據量、更新頻率、數據周期等,如果沒有數據則需要制定數據採集規則並開始採集數據,該過程中可能需要IT部門的協助;三是數據與分析的關聯性溝通,根據與運營人員的溝通,了解業務背景下哪些是常見的帶有業務背景的數據、不同場景會導致數據如何變化、分析中會涉及到哪些關鍵欄位或場景數據等,業務人員豐富的經驗會幫助數據工作者少走很多坑。
第二階段:數據分析建模
從這一階段開始進入正式的數據工作,包括獲取數據、數據預處理、數據分析建模和數據結論輸出四個步驟。
獲取數據
要獲取數據化運營分析所需的數據,需要經過特定授權從資料庫或文件中得到數據。
數據預處理
在該過程中對數據進行質量檢驗、樣本均衡、分類匯總、合併數據集、刪除重複項、數據分區、排序、數據離散化、數據標準化、過濾變數、轉置、查找轉換、數據脫敏、數據轉換、抽樣、異常值和缺失值處理等。
數據分析建模
運用多種數據分析和挖掘方法,對數據進行分析建模。方法包括統計分析、OLAP分析、回歸、聚類、分類、關聯、異常檢測、時間序列、協同過濾、主題模型、路徑分析、漏斗分析等。
數據結論輸出
數據結論的輸出有多種方式,常見的方式是數據分析或挖掘建模報告,另外還包括Excel統計結果、數據API輸出、數據結果返回資料庫、數據結果直接集成到應用程序中進行自動化運營用用(例如簡訊營銷)。
第三階段:數據落地應用
該階段是數據化運營的落地的關鍵階段,前期所有的準備和處理工作都通過該階段產生價值。該階段包括數據結論溝通、數據部署應用和後續效果監測和反饋三個步驟。
數據結論溝通
對於輸出的形式為報告、Excel統計結果等方式的內容,通常都需要與運營對象進行深入溝通,主要溝通的內容是將通過數據得到的結論和結果與業務進行溝通,通過溝通來初步驗證結論的正確性、可靠性和可行性,並對結果進行修正。如果沒有可行性,那麼需要返回第二階段重新開始數據分析建模流程。
數據部署應用
經過溝通具有可行性的數據結論,可直接應用到運營執行環節。例如,將預測結果作為下一月份的KPI目標,將選擇出來的用戶作為重點客戶進行二次營銷。
後續效果監測和反饋
大多數的數據化運營分析都不是「一次性」的,尤其當已經進行部署應用之後,需要對之前的數據結論在實踐中的效果做二次驗證,若有必要則需要進行結論的再次修正和意見反饋。
注意 很多人認為數據化運營工作應該從數據產生之後開始,這是錯誤的觀念,原因在於數據化運營工作的起始是需求產生,而需求的產生跟數據的產生往往沒有必然關係。
1.1.3 Python用於數據化運營
Python用於數據化運營,將充分利用Python的強大功能和效率來滿足數據化運營的複雜需求。
- Python可以將數據化運營過程中的來源於企業內外部的海量、多類型、異構、多數據源的數據有效整合到一起,提供豐富的集成、開發、分析、建模和部署應用。
- Python高效的開發效率能幫助數據化運營在最短的時間內進行概念驗證,並提供科學的預測結果,為數據化運營的快速和準確提供基礎。
- Python可以將數據工作流程和IT工作流程無縫對接,有利於實現數據工作跟運營工作的融合,這也是數據驅動式數據化運營的工作方法,有利於真正實現數字化、智能化的運營工作。
推薦閱讀:
※數據分析利器pandas初步學習(四)
※雨沐田:數據分析有什麼作用呢?
※【數據分析】中文筆記翻譯計劃順利結束
※討論kettle 的重要性
※一些關於TI7隊伍的數據分析——Liquid篇