Data Science for Business 是怎樣一本書？

02-12

如圖，這本書作為一本教科書收入了我的書庫。我計劃一邊讀英文，一邊簡單編譯一下，僅供交流，不作為商業用途。

Data Science for Business by Foster Provost and Tom Fawcett

我暫且翻譯為以下題目：

《數據科學- 商用之道》

你需要知道的數據挖掘和分析思維

佛斯特·普羅沃斯特和湯姆· 佛塞特

總評:

2013年由OReilly 出版的這本書獲得了一些好評：

SAP全球副總裁說：「任何一位想要真正要迎接大數據機遇的人士，這是一本必讀書目」

其他企業商業分析部門、統計部門、數據科學小組等部門負責人的評述略。

作者：

Foster Provost 是美國紐約大學斯特恩商學院數據科學，信息系統等專業的教授 Foster Provost，匹茲堡大學計算機科學碩士、博士。

電子書：

請自行google,或在Amazon 購買Kindle版或紙版 $33.90。

好了，先睹為快，來看看目錄吧：

前言 xi

1.介紹：數據分析思維 1

數據機會的廣泛性1

示例：颶風弗朗西斯3

示例：預測客戶流失4

數據科學、工程和數據驅動決策4

數據處理和「大數據」7

從大數據1.0到大數據2.0 8

作為戰略資產的數據和數據科學能力 9

數據分析思維12

本書14

數據挖掘與數據科學回顧14

化學不是試管：數據科學與數據科學家的工作15

總結16

2.商業業務問題和數據科學解決方案 19

基本概念：一套規範的數據挖掘任務; 數據挖掘過程; 監督與無監督數據挖掘。

從業務問題到數據挖掘任務19

監督與無監督的方法24

數據挖掘及其成果25

數據挖掘流程26

理解業務27

理解數據28

準備數據29

建模31

評估31

部署32

管理數據科學小組意味著什麼34

其他分析技巧和技術35

統計35

資料庫查詢37

數據倉庫38

回歸分析39

機器學習和數據挖掘39

用這些技巧回答商業問題40

總結41

3.預測建模介紹：從相關到監督切分。 43

基本概念：確認信息屬性; 通過漸進式屬性選擇切分數據。

示例技術：尋找相關性; 屬性/變數選擇; 樹推導。

模型，推導和預測44

監督切分48

選擇信息屬性49

示例：信息增益的屬性選擇56

採用樹結構模型的監督切分62

可視化切分67

樹作為規則集71

概率估計71

示例：用樹推導解釋流失問題73

總結

4.模型擬合數據。 81

基本概念：基於數據查找「最優」模型參數; 選擇數據挖掘的目標; 客觀功能; 損失功能。

示例技術：線性回歸; 邏輯回歸; 支持向量機。

通過數學函數分類83

線性判別函數85

優化目標函數87

從數據挖掘線性判別的一個例子88

評分和排名實例的線性判別函數90

支持向量機，簡介91

數學函數回歸94

類概率估計與物流「回歸」96

*邏輯回歸：一些技術細節99

示例：邏輯回歸與樹推導102

非線性函數，支持向量機和神經網路

總結108

5.過度擬合及如何避免。 111

基本概念：概化;擬合和過度擬合;複雜性控制。

示例技術：交叉驗證;屬性選擇;樹修剪正規化。

概化111

過度擬合113

過度擬合檢查113

保持數據和擬合圖113

樹推導過度擬合116

數學函數過度擬合118

示例：過度擬合線性函數119

*示例：為什麼過度擬合不好？ 124

從持續評估到交叉驗證126

流失數據集回顧129

學習曲線130

避免過度擬合和複雜性控制133

樹推導避免過度擬合133

避免過度裝配的一般方法134

*避免過度擬合參數優化136

總結140

6. 相似性，鄰居和集群。 141

基本概念：計算由數據描述的對象的相似度;使用相似度進行預測;聚類作為基於相似性的分割。

示範技術：搜索類似實體;最鄰近的方法;聚類方法;計算相似度的距離度量。

相似度和距離142

最近鄰的推理144

示例：威士忌分析144

最近的鄰居為預測建模146

多少鄰居多少影響？ 149

幾何解釋，過擬合和複雜性控制151

最近鄰方法的問題154

關於相似性和鄰居的一些重要技術細節157

異構屬性157

*其他距離功能158

*組合功能：從鄰居計算分數161

集群163

示例：威士忌分析回顧163

層次聚類164

最近的鄰居回顧：圍繞質心聚集169

示例：集群商業新聞故事174

了解聚類結果177

*使用有監督的學習生成集群描述179

步驟：解決業務問題與數據探索182

總結184

7.決策分析思維I：什麼是好的模型？ 187

基本概念：仔細考慮數據科學成果所期望的內容;作為關鍵評估框架的預期價值;考慮適當的比較基線。

示範技術：各種評估指標;估算成本和收益;計算預期利潤;創建基線方法進行比較。

評估分類器188

平準精度及其問題189

混亂矩陣189

不平衡類的問題190

不平等成本和收益的問題193

概括超越分類193

關鍵分析框架：預期值194

使用預期值框分類器使用195

使用預期價值來分類評估196

評估，基準績效和對數據投資的影響204

概要

8.可視化模型表現。 209

基本概念：可視化各種不確定性下的模型表現; 進一步考慮數據挖掘結果的期望。

示範技術：利潤曲線; 累積響應曲線; 提升曲線; ROC曲線。

排名而不是分類209

利潤曲線212

ROC曲線和曲線214

ROC曲線下面積（AUC）219

累積響應和升力曲線219

示例：流失建模的性能分析223

總結231

9.證據與概率。 233

基本概念：明確證據與貝葉斯規則的結合; 通過條件獨立假設的概率推理。

示範技術：樸素貝葉斯分類; 證據提升。

示例：使用廣告定位在線消費者233

綜合證據概率235

聯合概率與獨立236

貝葉斯規則237

將貝葉斯規則應用於數據科學239

條件獨立和樸素貝葉斯240

樸素貝斯的優點和缺點242

證據模型「電梯」244

示例：從Facebook的證據升高「喜歡」245

行動證據：針對消費者與廣告247

總結247

10.代表和挖掘文本。 249

基本概念：構建挖掘友好數據表示的重要性;表示數據挖掘的文本。

示範技巧： TFIDF計算N克停止命名實體提取;主題模型。

為什麼文本重要250

為什麼文本很困難250

代表251

辭彙袋子252

詞頻252

測量稀疏度：逆文檔頻率254

結合他們：TFIDF 256

例如：爵士音樂家256

* IDF與熵的關係261

超越袋子263

N-克序列263

命名實體提取264

主題模型264

示例：採礦新聞故事預測股價走勢266

任務266

數據268

數據預處理270

結果271

總結275

11.決策分析思維二：走向分析工程。 277

基本概念：解決數據科學的業務問題從分析工程開始：基於可用的數據，工具和技術設計分析解決方案。

示範技術：預期價值作為數據科學解決方案設計的框架。

針對慈善郵件的最佳前景278

預期價值框架：分解業務問題並重新組織解決方案278

選擇偏倚的簡要說明280

我們的流失例子更加複雜281

預期價值框架：構建更複雜的業務問題281

評估激勵的影響283

從預期價值分解到數據科學解決方案284

總結287

12.其他數據科學任務和技術。 289

基本概念：我們的基本概念作為許多常見數據科學技術的基礎;熟悉數據科學基礎的重要性。

示範技術：協會和共同事件;行為剖析;鏈接預測;數據簡化潛在信息挖掘;電影推薦;誤差的偏差分解;模特兒組合數據原因推理。

共同發現和協會：尋找合作的項目290

測量驚喜：電梯和槓桿291

示例：啤酒和彩票292

Facebook之間的關聯喜歡293

分析：尋找典型行為296

鏈接預測和社會建議301

數據縮減，潛在信息和電影建議302

偏差，方差和集合方法306

數據驅動因果解釋和病毒營銷實例309

總結310

13.數據科學與商業戰略。 313

基本概念：我們的原則作為數據驅動業務成功的基礎;通過數據科學獲取和維持競爭優勢;認真策劃數據科學能力的重要性。

思考數據 - 分析，Redux 313

數據科學實現競爭優勢315

用數據科學維持競爭優勢316

強大的歷史優勢317

獨特的知識產權317

獨特的無形擔保資產318

高級數據科學家318

高級數據科學管理320

吸引和培育數據科學家及其團隊321

檢查數據科學案例研究323

準備接受來自任何來源的創意想法324

準備評估數據科學項目的提案324

示例數據挖掘提案325

大紅色建議中的缺陷326

企業數據科學成熟度327

14.結論。 331

數據科學的基本概念331

將我們的基本概念應用於新問題：挖掘移動

設備數據334

改變我們對商業問題解決方案的看法337

什麼數據不能做：循環中的人，重新審視338

關於個人的隱私，倫理和採礦數據341

數據科學有更多嗎？ 342

最終的例子：從人群採購到雲採購343

最後的話

A.提案審查指南。 347

B.另一個樣本提案。 351

辭彙表。 355

參考書目。 359

索引。 367

全書洋洋洒洒384頁，共14章，內容涉及數據分析思維、商業業務問題和數據科學解決方案、預測模型建模：從相關性到監督細分（切分）、模型和數據擬合、過度擬合和如何避免、相似性、決策分析思維、可視化模型性能、證據和概率、重現和文本挖掘、數據分析思維-分析工程、其他數據科學任務和技巧、數據科學任務和技巧和數據科學和商業戰略。

前言總結：

首先定位讀者群，然後說本書由淺入深，雜而不深，點到為止。
不需要複雜的數學背景知識（個人感覺，這一點真的是因讀者而異了）
業內人士評價此書非常好（數據科學家的三條腿：IT+統計和商業行業知識，很貼心的是書中也談論了數據科學家這個職位面試的一個案例）
數據科學 到底是什麼意思：作者從三個緯度來分析說，1. 數據科學如何適應組織和競爭； 2. 數據分析的思維； 3. 如何從數據提取有用信息？
使用的場景有：如何找到類似的客戶群？如何查詢數據？推薦演算法？
本書特色：使用實例來解釋這些概念
本書曾在紐約大學商學院作為MBA等學生的教科書
本書也曾被7所國家的大學採用，用於商學院、計算機科學、和數據科學入門教科書。
常用語言，技巧：（直接copy過來了）
Python, Unix command-line processing, datafiles, common data formats, databases and querying, big data architectures and systems like MapReduce and Hadoop, data visualization, and other related topics。

格式：

f (X) = Age × - 1 + 0.7 × Balance + 60

本書使用到的語言：

Python and Perl
Scipy,
Numpy,
Matplotlib, and
Scikit-Learn
Weka
The Machine Learning Repository at the University of California at Irvine (Bache& Lichman, 2013)

最新信息請移步到該書的網站：Data Science for Business

目前該書提供了韓文、日文、波蘭文、俄文的翻譯版。葡萄牙語版和中文版正在處理中...

未完待續

先睹為快：第1章和第2章包含的例子：

1. 颶風弗朗西斯登陸對Wal mart客戶需求的影響，他們會搶購瓶裝水嗎？有哪些購買的行為模式呢？

2. 移動通信公司客戶流失（churn）的問題，如何留住客戶？

3. Target 百貨想知道懷孕客戶的情況

兩種類型的DDD-data driven decisions: 類似統計中做因子分析的EFA和CFA。

問題：如何解釋分析數據挖掘和數據科學的相似和不同？

#################################################分割線###########

說明：整本書翻譯的話工作量太大，我只好換做導讀的方式來介紹這本書。有興趣的話，可以自行閱讀原版或翻譯版（如果有的話）

導讀

第一章入門：數據分析思維

在過去15年里，商業基礎設施的大量投入帶來的結果是，整個企業內部的數據收集變得非常容易。實際上商業活動的每個層面都向數據收集開放，而且已經有相應的數據收集工具：運營、製造業、供應鏈管理、客戶行為、市場推廣業績、工作流程步驟等等。同時，關於外部事件如市場趨勢、業界新聞，和競爭對手動態等信息也變得非常容易獲得。數據變得廣泛可用，如何從數據提取有用信息和知識- 這些數據科學領域內的問題，就受到越來越多的關注。

無所不在的數據機遇

大量的數據變得唾手可得，幾乎每個行業的公司都關注如何發掘數據，讓公司更加有競爭優勢。傳統的商業數據處理模式，在大數據面前會力不從心。計算機和網路運算能力的大幅提升，讓更廣泛和深入了解商業數據成為可能。這就是數據科學和數據挖掘技術深入到商業領域的重要推動力。

數據挖掘廣泛用於：

針對性營銷
在線廣告
推薦搭售

分析客戶行為，最大化挖掘客戶的價值。金融領域往往會藉助數據挖掘進行信用評分和交易分析，以及虛假偵測等。從沃爾瑪到亞馬遜都在使用數據挖掘技術服務於他們的經營目的。

本書的目的就是，從數據的角度看業務。讓您具備數據分析思維能力，進而更好的為商業運營服務。全書會涵蓋一些基本數據可續原則，並且會介紹至少一種對應的數據挖掘技術/方法。

兩個案例：

1. 弗朗西斯颶風

我們假定在颶風經過的地區，人們會增加對瓶裝水的需求。或許這太顯而易見了，為什麼還要數據挖掘呢？不過，如果仔細研究，我們可以分析數據，來預測具體的需求數量，比如多少瓶，多少件，這樣有利於沃爾瑪有計劃的提供水，有了具體的數量。或許人們對DVD播放器的需求增加了。只有去分析數據，才能看到這些趨勢。

紐約時報2004年的研究表明，在颶風到來之前，最暢銷的商品竟然是-啤酒。

2. 預測客戶流失

假設您負責MegaTelCo公司的數據分析業務。這家公司目前面臨的最大問題是，客戶在無線上網領域內的不斷流失。在亞特蘭大中部地區，20%的客戶在合同期滿之後就離開了，同時公司也很難吸引更多新客戶的加入。

第二章商業/業務問題和數據科學解決方案。。。待更新

本章節主要包括兩方面內容，第一數據挖掘常見任務；第二數據挖掘的過程

CRISP數據挖掘過程/方法。

首先來看一下數據挖掘的常見任務：

1．分類和類別概率估計，來預測總體中的每個體屬於哪個類別。通常這些總體內的類別是獨特分類互相排斥的。比如，一家商店的所有顧客中，哪些人會對摺扣促銷感興趣。結果有兩類人，一類積極反應，另一類置之不理。

具體到數據挖掘，分類任務就是去打造一個模型，來決定新的成員屬於哪一類。最接近的兩種任務是評分（scoring）和概率估計。

2．回歸（』數值估計』）就是去估計和預測每個個體，根據某些變數的數值來估計。具體的問題，比如：多大程度上這個顧客會使用此項服務？回歸和分類二者在數據挖掘的時候有關係，但是二者的區別是什麼呢？分類只告訴我們是否的問題，而回歸則預測多大程度會發生。

3．相似性匹配根據已知數據，來確定相似的個體。這個任務在推薦系統中會用到，比如某甲和某乙都對某種商品有相似的興趣。

4．聚類，就是物以類聚，人以群分。

5．同時分組（常見項目挖掘，相關規則，市場-籃分析），根據交易記錄發現二者之間存在的聯繫。例如，超市裡那些東西經常會一起同時買？聚類關注事物的相似性，而同時分組則關注同時發生了哪些事情，並將他們分為一組。

6．畫像（也稱行為描述），描述個體，組，和全體最常見的特點。例如，這個客戶群標配的手機是哪一款？畫像可以針對全體或者具體到客戶群或個人。通常可以通過畫像建立常模，然後用常模來查找非正常數據。比如，欺詐檢測和監控等，通常用於信用卡。

7．聯繫預測，預測數據直接存在何種聯繫。並會描述聯繫有多遠或近。比如facebook, linkedin 給你推薦的朋友。

8．數據降維- 或者在這裡說數據瘦身，不過仍然保留重要的信息。不過這一過程，總是伴隨著信息的丟失。

9．因果模型，了解那些事情和行為的確在影響其他事或人。

監督和非監督方法

如果目標明確，標準清楚，那麼這樣的數據挖掘就是監督型的，而沒有目標，只是了解分析數據，則是非監督的方法。

分類，回歸和因果模型通常解決問題採用監督的方法。

聚類，同時發生分組和畫像則屬於非監督的方法。

第二數據挖掘過程

CRISP 過程/方法。基本過程：

了解業務-了解數據-數據準備-建模-評估-實施

第三章預測模型：從相關性到監督劃分

前一章節概括討論了模型和建模。本章將深入數據挖掘的主要課題之一：預測性建模。待更新。

第四章模型數據擬合

第五章過度擬合和如何避免

引言：

數據科學最重要的基本概念之一過度擬合和概化過程。通俗的說，過度擬合就像你讓裁縫給你做了一套衣服，太合身了 - 數據模型完美擬合(overfitting)。可惜，這麼合身的衣服無法量產，無法適合其他人，或其他人群推廣（Generalization）。這麼說來，二者是對立存在的。

基本邏輯：從總體獲得一些樣本數據，這些樣本數據按照比例抽取一部分作為訓練數據，另一部分用作測試數據（Hold Out Data)。訓練數據的目的是為了建模，而測試數據是為了檢驗模型是否可以推而廣之去使用。如果這兩個準確性值都很高，那麼就可以去應用到其他真實數據集了。過度擬合發生在模型和訓練數據，而無法推廣generalization 可以通過模型和測試數據來反應。

第六章相似性，相鄰，和聚類

Data Science for Business 是怎樣一本書？

《數據科學- 商用之道》

你需要知道的數據挖掘和分析思維

第一章 入門：數據分析思維

第二章 商業/業務問題和數據科學解決方案 。。。待更新

第三章 預測模型：從相關性到監督劃分

第四章 模型數據擬合

第五章 過度擬合和如何避免

第四章 模型數據擬合

第一章入門：數據分析思維

第二章商業/業務問題和數據科學解決方案。。。待更新

第三章預測模型：從相關性到監督劃分

第四章模型數據擬合

第五章過度擬合和如何避免

第四章模型數據擬合