《Python數據分析與數據化運營》電子版

03-30

2018-03-26更新說明，更新到「3.3 大數據時代，數據化運營還需要降維嗎」部分。

------------------------------------------------------------------

前言

為什麼要寫這本書

讀者對象

如何閱讀本書

勘誤和支持

致謝

第1章 Python和數據化運營

1.1 用Python做數據化運營

1.1.1 Python是什麼

1.1.2 數據化運營是什麼

1.1.3 Python用於數據化運營

1.2 數據化運營所需的Python相關工具和組件

1.2.1 Python程序

1.2.2 Python IDE

1.2.3 Python第三方庫

1.2.4 資料庫和客戶端

1.2.5 SSH遠程客戶端

1.3.內容延伸：Python的OCR和Tenserflow

1.4 第一個用Python實現的數據化運營分析實例-銷售預測

1.5 本章小結

第2章數據化運營的數據來源

2.1 數據化運營的數據來源類型

2.1.1 數據文件

2.1.2 資料庫

2.1.3 API

2.1.4 流式數據

2.1.5 外部公開數據

2.1.6 其他

2.2 使用Python獲取運營數據

2.2.1 從文本文件讀取運營數據

2.2.2 從Excel獲取運營數據

2.2.3 從關係型資料庫MySQL讀取運營數據

2.2.4 從非關係型資料庫MongoDB讀取運營數據

2.2.5 從API獲取運營數據

2.3 內容延展：讀取非結構化網頁、文本、圖像、視頻、語音

2.3.1 從網頁中爬取運營數據

2.3.2 讀取非結構化文本數據

2.3.3 讀取圖像數據

2.3.4 讀取視頻數據

2.3.5 讀取語音數據

2.4 本章小結

第3章 11條數據化運營不得不知道的數據預處理經驗

3.1 數據清洗：缺失值、異常值和重複值的處理

3.1.1 遇到缺失值就要補全嗎

3.1.2 不要輕易拋棄異常數據

3.1.3 數據重複就需要去重嗎

3.1.4 代碼實操：Python數據清洗

3.2 將分類數據和順序數據轉換為標誌變數

3.2.1 分類數據和順序數據是什麼

3.2.2 運用標誌方法處理分類和順序變數

3.2.3 代碼實操：Python標誌轉換

3.3 大數據時代，數據化運營還需要降維嗎

3.3.1 什麼情況下需要降維

3.3.2 基於特徵選擇的降維

3.3.3 基於維度轉換的降維

3.3.4 代碼實操：Python數據降維

3.4 解決樣本類別分布不均衡的問題

3.4.1 哪些運營場景中容易出現樣本不均衡

3.4.2 通過過抽樣和欠抽樣解決樣本不均衡

3.4.3 通過正負樣本的懲罰權重解決樣本不均衡

3.4.4 通過組合/集成方法解決樣本不均衡

3.4.5 通過特徵選擇解決樣本不均衡

3.4.6 代碼實操：Python處理樣本不均衡

3.5 如何解決運營數據源的衝突問題

3.5.1 為什麼會出現多數據源的衝突

3.5.2 如何應對多數據源的衝突問題

3.6 數據化運營要抽樣還是全量數據

3.6.1 什麼時候需要抽樣

3.6.2 如何進行抽樣

3.6.3 抽樣需要注意的幾個問題

3.6.4 代碼實操：Python數據抽樣

3.7 解決運營數據的共線性問題

3.7.1 如何檢驗共線性

3.7.2 解決共線性的5種常用方法

3.7.3 代碼實操：Python處理共線性問題

3.8 有關相關性分析的混沌

3.8.1 相關和因果是一回事嗎

3.8.2 相關係數低就是不相關嗎

3.8.3 代碼實操：Python相關性分析

3.9 標準化，讓運營數據落入相同的範圍

3.9.1 實現中心化和正態分布的Z-Score

3.9.2 實現歸一化的Max-Min

3.9.3 用於稀疏數據的MaxAbs

3.9.4 針對離群點的RobustScaler

3.9.5 代碼實操：Python數據標準化處理

3.10 離散化，對運營數據做邏輯分層

3.10.1 針對時間數據的離散化

3.10.2 針對多值離散數據的離散化

3.10.3 針對連續數據的離散化

3.10.4 針對連續數據的二值化

3.10.5 代碼實操：Python數據離散化處理

3.11 數據處理應該考慮哪些運營業務因素

3.11.1 考慮固定和突發運營周期

3.11.2 考慮運營需求的有效性

3.11.3 考慮交付時要貼合運營落地場景

3.11.4 不要忽視業務專家經驗

3.11.5 考慮業務需求的變動因素

3.12 內容延伸：非結構化數據的預處理

3.12.1 網頁數據解析

3.12.2 網路用戶日誌解析

3.12.3 圖像的基本預處理

3.12.4 自然語言文本預處理

3.13 本章小結

第4章跳過運營數據分析和挖掘的「大坑」

4.1 聚類分析

4.1.1 當心數據異常對聚類結果的影響

4.1.2 超大數據量時應該放棄K均值演算法

4.1.3 聚類不僅是建模的終點，更是重要的中間預處理過程

4.1.4 高維數據上無法應用聚類嗎

4.1.5 如何選擇聚類分析演算法

4.1.6 代碼實操：Python聚類分析

4.2 回歸分析

4.2.1 注意回歸自變數之間的共線性問題

4.2.2 相關係數、判定係數和回歸係數之間到底什麼關係

4.2.3 判定係數是否意味著相應的因果聯繫

4.2.4 注意應用回歸模型時研究自變數是否產生變化

4.2.5 如何選擇回歸分析演算法

4.2.6 代碼實操：Python回歸分析

4.3 分類分析

4.3.1 防止分類模型的過擬合問題

4.3.2 使用關聯演算法做分類分析

4.3.3 用分類分析來提煉規則、提取變數、處理缺失值

4.3.4 類別劃分-分類演算法和聚類演算法都是好手

4.3.5 如何選擇分類分析演算法

4.3.6 代碼實操：Python分類分析

4.4 關聯分析

4.4.1 頻繁規則不一定是有效規則

4.4.2 不要被啤酒尿布的故事緊固你的思維

4.4.3 被忽略的「負相關」模式真的毫無用武之地嗎

4.4.4 頻繁規則只能打包組合應用嗎

4.4.5 關聯規則的序列模式

4.4.6 代碼實操：Python關聯分析

4.5 異常檢測分析

4.5.1 異常檢測中的「新奇檢測」模式

4.5.2 將數據異常與業務異常相分離

4.5.3 面臨維度災難時，異常檢測可能會失效

4.5.4 異常檢測的結果能說明異常嗎

4.5.5 代碼實操：Python異常檢測分析

4.6 時間序列分析

4.6.1 如果有自變數，為什麼還要用時間序列

4.6.2 時間序列不適合商業環境複雜的企業

4.6.3 時間序列預測的整合、橫向和縱向模式

4.6.4 代碼實操：Python時間序列分析

4.7 路徑、漏斗、歸因和熱力圖分析

4.7.1 不要輕易相信用戶的頁面訪問路徑

4.7.2 如何將路徑應用於更多用戶行為模式的挖掘？

4.7.3 為什麼很多數據都顯示了多渠道路徑的價值很小？

4.7.4 點擊熱力圖真的反映了用戶的點擊喜好？

4.7.5 為什麼歸因分析主要存在於線上的轉化行為

4.7.6 漏斗分析和路徑分析有什麼區別

4.8 其他數據分析和挖掘的忠告

4.8.1 不要忘記數據質量的驗證

4.8.2 不要忽視數據的落地性

4.8.3 不要把數據陳列當作數據結論

4.8.4 數據結論不要產生於單一指標

4.8.5 數據分析不要預設價值立場

4.8.6 不要忽視數據與業務的需求衝突問題

4.9 內容延伸：非結構化數據的分析與挖掘

4.9.1 詞頻統計

4.9.2 詞性標註

4.9.3 關鍵字提取

4.9.4 文本聚類

4.10 本章小結

第5章會員數據化運營

5.1 會員數據化運營概述

5.2 會員數據化運營關鍵指標

5.2.1 會員整體指標

5.2.2 會員營銷指標

5.2.3 會員活躍度指標

5.2.4 會員價值度指標

5.2.5 會員終生價值指標

5.2.6 會員異動指標

5.3 會員數據化運營應用場景

5.3.1 會員營銷

5.3.2 會員關懷

5.4 會員數據化運營分析模型

5.4.1 會員細分模型

5.4.3 會員價值度模型

5.4.2 會員活躍度模型

5.4.4 會員流失預測模型

5.4.5 會員特徵分析模型

5.4.6 營銷響應預測模型

5.5 會員數據化運營分析小技巧

5.5.1 使用留存分析分析新用戶質量

5.5.2 使用AARRR做APP用戶生命周期分析

5.5.3 藉助動態數據流關注會員狀態的輪轉

5.5.4 使用協同過濾演算法為新會員分析推送個性化信息

5.6 會員數據化運營分析的「大實話」

5.6.1 企業「不差錢」，還有必要做會員精準營銷嗎

5.6.2 用戶滿意度取決於期望和給與的匹配程度

5.6.3 用戶不購買就是流失了嗎

5.6.4 來自調研問卷的用戶信息可信嗎

5.6.5 不要盲目相信二八法則

5.7 案例-基於RFM的用戶價值度分析

5.7.1 案例背景

5.7.2 案例主要應用技術

5.7.3 案例數據

5.7.4 案例過程

5.7.5 案例數據結論

5.7.6 案例應用和部署

5.7.7 案例注意點

5.7.8 案例引申思考

5.8 案例-基於AdaBoost的營銷響應預測

5.8.1 案例背景

5.8.2 案例主要應用技術

5.8.3 案例數據

5.8.4 案例過程

5.8.5 案例數據結論

5.8.6 案例應用和部署

5.8.7 案例注意點

5.8.8 案例引申思考

5.9 本章小結

第6章商品數據化運營

6.1 商品數據化運營概述

6.2 商品數據化運營關鍵指標

6.2.1 銷售類指標

6.2.2 促銷活動指標

6.2.3 供應鏈指標

6.3 商品數據化運營應用場景

6.3.1 銷售預測

6.3.2 庫存分析

6.3.3 市場分析

6.3.4 促銷分析

6.4 商品數據化運營分析模型

6.4.1 商品價格敏感度模型

6.4.2 新產品市場定位模型

6.4.3 銷售預測模型

6.4.4 商品關聯銷售模型

6.4.5 異常訂單檢測

6.4.6 商品規劃的最優組合

6.5 商品數據化運營分析小技巧

6.5.1 使用層次分析法將定量與定性分析結合

6.5.2 通過假設檢驗做促銷拉動分析

6.5.3 使用BCG矩陣做商品結構分析

6.5.4 巧用4P分析建立完善的商品運營分析結構

6.6 商品數據化運營分析的「大實話」

6.6.1 為什麼很多企業會以低於進價的價格大量銷售商品

6.6.2 促銷活動真的是在促進商品銷售嗎

6.6.3 用戶關注的商品就是要買的商品嗎

6.6.4 提供的選擇過多其實不利於商品銷售

6.7 案例-基於超參數優化的Gradient Boosting的銷售預測

6.7.1 案例背景

6.7.2 案例主要應用技術

6.7.3 案例數據

6.7.4 案例過程

6.7.5 案例數據結論

6.7.6 案例應用和部署

6.7.7 案例注意點

6.7.8 案例引申思考

6.8 案例-基於LogisticRegression、RandomForest、Bagging概率投票組合模型的異常檢測

6.8.1 案例背景

6.8.2 案例主要應用技術

6.8.3 案例數據

6.8.4 案例過程

6.8.5 案例數據結論

6.8.6 案例應用和部署

6.8.7 案例注意點

6.8.8 案例引申思考

6.9 本章小結

第7章流量數據化運營

7.1 流量數據化運營概述

7.2 流量分析工具

7.2.1 Adobe Analytics

7.2.2 Webtrekk Suite

7.2.3 Webtrends

7.2.4 Google Analytics

7.2.5 IBM Coremetrics

7.2.6 百度統計

7.2.7 Flurry

7.2.8 友盟

7.2.9 如何選擇第三方流量分析工具

7.3 流量採集分析系統的工作機制

7.3.1 流量數據採集

7.3.2 流量數據處理

7.3.3 流量數據應用

7.4 流量數據與企業數據的整合

7.4.1 流量數據整合的意義

7.4.2 流量數據整合的範疇

7.4.3 流量數據整合的方法

7.5 流量數據化運營指標

7.5.1 站外營銷推廣指標

7.5.2 網站流量數量指標

7.5.3 網站流量質量指標

7.6 流量數據化運營應用場景

7.6.1 流量採購

7.6.2 流量分發

7.7 流量數據化運營分析模型

7.7.1 流量波動檢測

7.7.2 渠道特徵聚類

7.7.3 廣告整合傳播模型

7.7.4 流量預測模型

7.8 流量數據化運營分析小技巧

7.8.1 給老闆提供一頁紙的流量dashboard

7.8.2 關注趨勢、重要事件和潛在因素是日常報告的核心

7.8.3 使用從細分到多層下鑽數據分析

7.8.4 通過跨屏追蹤解決用戶跨設備和瀏覽器的訪問行為

7.8.5 基於時間序列的用戶群體過濾

7.9 流量數據化運營分析的「大實話」

7.9.1 流量數據分析的價值其實沒那麼大

7.9.2 如何將流量的實時分析價值最大化

7.9.3 營銷流量的質量評估是難點工作

7.9.4 個性化的媒體投放仍然面臨很多問題

7.9.5 傳統的網站分析方法到底缺少了什麼

7.10 案例-基於自動節點樹的數據異常原因下探分析

7.10.1 案例背景

7.10.2 案例主要應用技術

7.10.3 案例數據

7.10.4 案例過程

7.10.5 案例數據結論

7.10.6 案例應用和部署

7.10.7 案例注意點

7.10.8 案例引申思考

7.11 案例-基於自動K值的KMeans廣告效果聚類分析

7.11.1 案例背景

7.11.2 案例主要應用技術

7.11.3 案例數據

7.11.4 案例過程

7.11.5 案例數據結論

7.11.6 案例應用和部署

7.11.7 案例注意點

7.11.8 案例引申思考

7.12 本章小結

第8章內容數據化運營

8.1 內容數據化運營概述

8.2 內容數據化運營指標

8.2.1 內容質量指標

8.2.2 SEO類指標

8.2.3 內容流量指標

8.2.4 內容互動指標

8.2.5 目標轉化指標

8.3 內容數據化運營應用場景

8.3.1 內容採集

8.3.2 內容創作

8.3.3 內容分發

8.3.4 內容管理

8.4 內容數據化運營分析模型

8.4.1 情感分析模型

8.4.2 搜索優化模型

8.4.3 文章關鍵字模型

8.4.4 主題模型

8.4.5 垃圾信息檢測模型

8.5 內容數據化運營分析小技巧

8.5.1 通過AB測試和多變數測試找到最佳內容版本

8.5.2 通過屏幕瀏覽佔比了解用戶到底看了頁面多少內容

8.5.3 通過數據分析系統與CMS打通實現個性化內容運營

8.5.4 將個性化推薦從網站應用到APP端

8.6 內容數據化運營分析的「大實話」

8.6.1 個性化內容運營不僅是整合CMS和數據系統

8.6.2 用戶在著陸頁上不只有跳出和繼續兩種狀態

8.6.3 「人工組合」的內容運營價值最大化並非不能實現

8.6.4 影響內容點擊率的因素不僅有位置

8.7 案例-基於潛在狄利克雷分配（LDA）的內容主題挖掘

8.7.1 案例背景

8.7.2 案例主要應用技術

8.7.3 案例數據

8.7.4 案例過程

8.7.5 案例數據結論

8.7.6 案例應用和部署

8.7.7 案例注意點

8.7.8 案例引申思考

8.8 案例-基於多項式貝葉斯的增量學習的文本分類

8.8.1 案例背景

8.8.2 案例主要應用技術

8.8.3 案例數據

8.8.4 案例過程

8.8.5 案例數據結論

8.8.6 案例應用和部署

8.8.7 案例注意點

8.8.8 案例引申思考

8.9 本章小結

第9章數據化運營分析的終極秘籍

9.1 撰寫出彩的數據分析報告的5個建議

9.1.1 完整的報告結構

9.1.2 精緻的頁面板式

9.1.3 漂亮的可視化圖形

9.1.4 突出報告的關鍵信息

9.1.5 用報告對象習慣的方式撰寫報告

9.2 數據化運營支持的4種擴展方式

9.2.1 數據API

9.2.2 數據模型

9.2.3 數據產品

9.2.4 運營產品

9.3 提升數據化運營價值度的5種途徑

9.3.1 數據源：不只有結構化的數據，還有文本、圖片、視頻、語音

9.3.2 自動化：建立自動任務，解除重複勞動

9.3.3 未卜先知：建立智能預警模型，不要讓運營先找你

9.3.4 智能化：向BI-AI的方向走

9.3.5 場景化：將數據嵌入運營環節之中

9.4 本章小結

附錄

附錄A 公開數據集

附錄B Python數據工具箱