Data Science for Business 是怎樣一本書?

如圖,這本書作為一本教科書收入了我的書庫。我計劃一邊讀英文,一邊簡單編譯一下,僅供交流,不作為商業用途。

Data Science for Business by Foster Provost and Tom Fawcett

(O』Reilly). Copyright 2013 Foster Provost and Tom Fawcett, 978-1-449-36132-7

我暫且翻譯為以下題目:

《數據科學- 商用之道》

你需要知道的數據挖掘和分析思維

佛斯特·普羅沃斯特 和 湯姆· 佛塞特

總評:

2013年由OReilly 出版的這本書獲得了一些好評:

SAP全球副總裁說:「任何一位想要真正要迎接大數據機遇的人士,這是一本必讀書目」

其他企業商業分析部門、統計部門、數據科學小組等部門負責人的評述略。

作者:

Foster Provost 是美國紐約大學斯特恩商學院數據科學,信息系統等專業的教授 Foster Provost, 匹茲堡大學計算機科學碩士、博士。

電子書:

請自行google,或在Amazon 購買Kindle版或紙版 $33.90。

好了,先睹為快,來看看目錄吧:

前言 xi

1.介紹:數據分析思維 1

數據機會的廣泛性1

示例:颶風弗朗西斯3

示例:預測客戶流失4

數據科學、工程和數據驅動決策4

數據處理和「大數據」7

從大數據1.0到大數據2.0 8

作為戰略資產的數據和數據科學能力 9

數據分析思維12

本書14

數據挖掘與數據科學回顧14

化學不是試管:數據科學與數據科學家的工作15

總結16

2.商業業務問題和數據科學解決方案 19

基本概念:一套規範的數據挖掘任務; 數據挖掘過程; 監督與無監督數據挖掘。

從業務問題到數據挖掘任務19

監督與無監督的方法24

數據挖掘及其成果25

數據挖掘流程26

理解業務27

理解數據28

準備數據29

建模31

評估31

部署32

管理數據科學小組意味著什麼34

其他分析技巧和技術35

統計35

資料庫查詢37

數據倉庫38

回歸分析39

機器學習和數據挖掘39

用這些技巧回答商業問題40

總結41

3.預測建模介紹:從相關到監督切分。 43

基本概念:確認信息屬性; 通過漸進式屬性選擇切分數據。

示例技術:尋找相關性; 屬性/變數選擇; 樹推導。

模型,推導和預測44

監督切分48

選擇信息屬性49

示例:信息增益的屬性選擇56

採用樹結構模型的監督切分62

可視化切分67

樹作為規則集71

概率估計71

示例:用樹推導解釋流失問題73

總結

4.模型擬合數據。 81

基本概念:基於數據查找「最優」模型參數; 選擇數據挖掘的目標; 客觀功能; 損失功能。

示例技術:線性回歸; 邏輯回歸; 支持向量機。

通過數學函數分類83

線性判別函數85

優化目標函數87

從數據挖掘線性判別的一個例子88

評分和排名實例的線性判別函數90

支持向量機,簡介91

數學函數回歸94

類概率估計與物流「回歸」96

*邏輯回歸:一些技術細節99

示例:邏輯回歸與樹推導102

非線性函數,支持向量機和神經網路

總結108

5.過度擬合及如何避免。 111

基本概念:概化;擬合和過度擬合;複雜性控制。

示例技術:交叉驗證;屬性選擇;樹修剪正規化。

概化111

過度擬合113

過度擬合檢查113

保持數據和擬合圖113

樹推導過度擬合116

數學函數過度擬合118

示例:過度擬合線性函數119

*示例:為什麼過度擬合不好? 124

從持續評估到交叉驗證126

流失數據集回顧129

學習曲線130

避免過度擬合和複雜性控制133

樹推導避免過度擬合133

避免過度裝配的一般方法134

*避免過度擬合參數優化136

總結140

6. 相似性,鄰居和集群。 141

基本概念:計算由數據描述的對象的相似度;使用相似度進行預測;聚類作為基於相似性的分割。

示範技術:搜索類似實體;最鄰近的方法;聚類方法;計算相似度的距離度量。

相似度和距離142

最近鄰的推理144

示例:威士忌分析144

最近的鄰居為預測建模146

多少鄰居多少影響? 149

幾何解釋,過擬合和複雜性控制151

最近鄰方法的問題154

關於相似性和鄰居的一些重要技術細節157

異構屬性157

*其他距離功能158

*組合功能:從鄰居計算分數161

集群163

示例:威士忌分析回顧163

層次聚類164

最近的鄰居回顧:圍繞質心聚集169

示例:集群商業新聞故事174

了解聚類結果177

*使用有監督的學習生成集群描述179

步驟:解決業務問題與數據探索182

總結184

7.決策分析思維I:什麼是好的模型? 187

基本概念:仔細考慮數據科學成果所期望的內容;作為關鍵評估框架的預期價值;考慮適當的比較基線。

示範技術:各種評估指標;估算成本和收益;計算預期利潤;創建基線方法進行比較。

評估分類器188

平準精度及其問題189

混亂矩陣189

不平衡類的問題190

不平等成本和收益的問題193

概括超越分類193

關鍵分析框架:預期值194

使用預期值框分類器使用195

使用預期價值來分類評估196

評估,基準績效和對數據投資的影響204

概要

8.可視化模型表現。 209

基本概念:可視化各種不確定性下的模型表現; 進一步考慮數據挖掘結果的期望。

示範技術:利潤曲線; 累積響應曲線; 提升曲線; ROC曲線。

排名而不是分類209

利潤曲線212

ROC曲線和曲線214

ROC曲線下面積(AUC)219

累積響應和升力曲線219

示例:流失建模的性能分析223

總結231

9.證據與概率。 233

基本概念:明確證據與貝葉斯規則的結合; 通過條件獨立假設的概率推理。

示範技術:樸素貝葉斯分類; 證據提升。

示例:使用廣告定位在線消費者233

綜合證據概率235

聯合概率與獨立236

貝葉斯規則237

將貝葉斯規則應用於數據科學239

條件獨立和樸素貝葉斯240

樸素貝斯的優點和缺點242

證據模型「電梯」244

示例:從Facebook的證據升高「喜歡」245

行動證據:針對消費者與廣告247

總結247

10.代表和挖掘文本。 249

基本概念:構建挖掘友好數據表示的重要性;表示數據挖掘的文本。

示範技巧: TFIDF計算N克停止命名實體提取;主題模型。

為什麼文本重要250

為什麼文本很困難250

代表251

辭彙袋子252

詞頻252

測量稀疏度:逆文檔頻率254

結合他們:TFIDF 256

例如:爵士音樂家256

* IDF與熵的關係261

超越袋子263

N-克序列263

命名實體提取264

主題模型264

示例:採礦新聞故事預測股價走勢266

任務266

數據268

數據預處理270

結果271

總結275

11.決策分析思維二:走向分析工程。 277

基本概念:解決數據科學的業務問題從分析工程開始:基於可用的數據,工具和技術設計分析解決方案。

示範技術:預期價值作為數據科學解決方案設計的框架。

針對慈善郵件的最佳前景278

預期價值框架:分解業務問題並重新組織解決方案278

選擇偏倚的簡要說明280

我們的流失例子更加複雜281

預期價值框架:構建更複雜的業務問題281

評估激勵的影響283

從預期價值分解到數據科學解決方案284

總結287

12.其他數據科學任務和技術。 289

基本概念:我們的基本概念作為許多常見數據科學技術的基礎;熟悉數據科學基礎的重要性。

示範技術:協會和共同事件;行為剖析;鏈接預測;數據簡化潛在信息挖掘;電影推薦;誤差的偏差分解;模特兒組合數據原因推理。

共同發現和協會:尋找合作的項目290

測量驚喜:電梯和槓桿291

示例:啤酒和彩票292

Facebook之間的關聯喜歡293

分析:尋找典型行為296

鏈接預測和社會建議301

數據縮減,潛在信息和電影建議302

偏差,方差和集合方法306

數據驅動因果解釋和病毒營銷實例309

總結310

13.數據科學與商業戰略。 313

基本概念:我們的原則作為數據驅動業務成功的基礎;通過數據科學獲取和維持競爭優勢;認真策劃數據科學能力的重要性。

思考數據 - 分析,Redux 313

數據科學實現競爭優勢315

用數據科學維持競爭優勢316

強大的歷史優勢317

獨特的知識產權317

獨特的無形擔保資產318

高級數據科學家318

高級數據科學管理320

吸引和培育數據科學家及其團隊321

檢查數據科學案例研究323

準備接受來自任何來源的創意想法324

準備評估數據科學項目的提案324

示例數據挖掘提案325

大紅色建議中的缺陷326

企業數據科學成熟度327

14.結論。 331

數據科學的基本概念331

將我們的基本概念應用於新問題:挖掘移動

設備數據334

改變我們對商業問題解決方案的看法337

什麼數據不能做:循環中的人,重新審視338

關於個人的隱私,倫理和採礦數據341

數據科學有更多嗎? 342

最終的例子:從人群採購到雲採購343

最後的話

A.提案審查指南。 347

B.另一個樣本提案。 351

辭彙表。 355

參考書目。 359

索引。 367

全書洋洋洒洒384頁,共14章,內容涉及數據分析思維、商業業務問題和數據科學解決方案、預測模型建模:從相關性到監督細分(切分)、模型和數據擬合、過度擬合和如何避免、相似性、決策分析思維、可視化模型性能、證據和概率、重現和文本挖掘、數據分析思維-分析工程、其他數據科學任務和技巧、數據科學任務和技巧和數據科學和商業戰略。

前言總結:

  • 首先定位讀者群,然後說本書由淺入深,雜而不深,點到為止。
  • 不需要複雜的數學背景知識(個人感覺,這一點真的是因讀者而異了)
  • 業內人士評價此書非常好 (數據科學家的三條腿:IT+統計和商業行業知識,很貼心的是書中也談論了數據科學家這個職位面試的一個案例 )
  • 數據科學 到底是什麼意思:作者從三個緯度來分析說,1. 數據科學如何適應組織和競爭; 2. 數據分析的思維; 3. 如何從數據提取有用信息?
  • 使用的場景有:如何找到類似的客戶群?如何查詢數據?推薦演算法?
  • 本書特色:使用實例來解釋這些概念
  • 本書曾在紐約大學商學院作為MBA等學生的教科書
  • 本書也曾被7所國家的大學採用,用於商學院、計算機科學、和數據科學入門教科書。
  • 常用語言,技巧:(直接copy過來了)
  • Python, Unix command-line processing, datafiles, common data formats, databases and querying, big data architectures and systems like MapReduce and Hadoop, data visualization, and other related topics。

格式:

f (X) = Age × - 1 + 0.7 × Balance + 60

本書使用到的語言:

  • Python and Perl
  • Scipy,
  • Numpy,
  • Matplotlib, and
  • Scikit-Learn

    Weka

  • The Machine Learning Repository at the University of California at Irvine (Bache& Lichman, 2013)

最新信息請移步到該書的網站:Data Science for Business

目前該書提供了韓文、日文、波蘭文、俄文的翻譯版。葡萄牙語版和中文版正在處理中...

未完待續

先睹為快:第1章和第2章包含的例子:

1. 颶風弗朗西斯登陸對Wal mart客戶需求的影響,他們會搶購瓶裝水嗎?有哪些購買的行為模式呢?

2. 移動通信公司客戶流失(churn)的問題,如何留住客戶?

3. Target 百貨想知道懷孕客戶的情況

兩種類型的DDD-data driven decisions: 類似統計中做因子分析的EFA和CFA。

問題:如何解釋分析數據挖掘和數據科學的相似和不同?

#################################################分割線###########

說明:整本書翻譯的話工作量太大,我只好換做導讀的方式來介紹這本書。有興趣的話,可以自行閱讀原版或翻譯版(如果有的話)

導讀

第一章 入門:數據分析思維

在過去15年里,商業基礎設施的大量投入帶來的結果是,整個企業內部的數據收集變得非常容易。實際上商業活動的每個層面都向數據收集開放,而且已經有相應的數據收集工具:運營、製造業、供應鏈管理、客戶行為、市場推廣業績、工作流程步驟等等。同時,關於外部事件如市場趨勢、業界新聞,和競爭對手動態等信息也變得非常容易獲得。數據變得廣泛可用,如何從數據提取有用信息和知識- 這些數據科學領域內的問題,就受到越來越多的關注。

無所不在的數據機遇

大量的數據變得唾手可得,幾乎每個行業的公司都關注如何發掘數據,讓公司更加有競爭優勢。傳統的商業數據處理模式,在大數據面前會力不從心。計算機和網路運算能力的大幅提升,讓更廣泛和深入了解商業數據成為可能。這就是數據科學和數據挖掘技術深入到商業領域的重要推動力。

數據挖掘廣泛用於:

  • 針對性營銷
  • 在線廣告
  • 推薦搭售

分析客戶行為,最大化挖掘客戶的價值。金融領域往往會藉助數據挖掘進行信用評分和交易分析,以及虛假偵測等。從沃爾瑪到亞馬遜都在使用數據挖掘技術服務於他們的經營目的。

本書的目的就是,從數據的角度看業務。讓您具備數據分析思維能力,進而更好的為商業運營服務。全書會涵蓋一些基本數據可續原則,並且會介紹至少一種對應的數據挖掘技術/方法。

兩個案例:

1. 弗朗西斯颶風

我們假定在颶風經過的地區,人們會增加對瓶裝水的需求。或許這太顯而易見了,為什麼還要數據挖掘呢?不過,如果仔細研究,我們可以分析數據,來預測具體的需求數量,比如多少瓶,多少件,這樣有利於沃爾瑪有計劃的提供水,有了具體的數量。或許人們對DVD播放器的需求增加了。只有去分析數據,才能看到這些趨勢。

紐約時報2004年的研究表明,在颶風到來之前,最暢銷的商品竟然是-啤酒。

2. 預測客戶流失

假設您負責MegaTelCo公司的數據分析業務。這家公司目前面臨的最大問題是,客戶在無線上網領域內的不斷流失。在亞特蘭大中部地區,20%的客戶在合同期滿之後就離開了,同時公司也很難吸引更多新客戶的加入。

第二章 商業/業務問題和數據科學解決方案 。。。待更新

本章節主要包括兩方面內容,第一數據挖掘常見任務;第二數據挖掘的過程

CRISP數據挖掘過程/方法。

首先來看一下數據挖掘的常見任務:

1. 分類和類別概率估計,來預測總體中的每個體屬於哪個類別。通常這些總體內的類別是獨特分類互相排斥的。比如,一家商店的所有顧客中,哪些人會對摺扣促銷感興趣。結果有兩類人,一類積極反應,另一類置之不理。

具體到數據挖掘,分類任務就是去打造一個模型,來決定新的成員屬於哪一類。最接近的兩種任務是評分(scoring)和概率估計。

2. 回歸(』數值估計』)就是去估計和預測每個個體,根據某些變數的數值來估計。具體的問題,比如:多大程度上這個顧客會使用此項服務?回歸和分類二者在數據挖掘的時候有關係,但是二者的區別是什麼呢?分類只告訴我們是否的問題,而回歸則預測多大程度會發生。

3. 相似性匹配 根據已知數據,來確定相似的個體。這個任務在推薦系統中會用到,比如某甲和某乙都對某種商品有相似的興趣。

4. 聚類,就是物以類聚,人以群分。

5. 同時分組(常見項目挖掘,相關規則,市場-籃分析),根據交易記錄發現二者之間存在的聯繫。例如,超市裡那些東西經常會一起同時買?聚類關注事物的相似性,而同時分組則關注同時發生了哪些事情,並將他們分為一組。

6. 畫像(也稱行為描述),描述個體,組,和全體最常見的特點。例如,這個客戶群標配的手機是哪一款?畫像可以針對全體或者具體到客戶群或個人。通常可以通過畫像建立常模,然後用常模來查找非正常數據。比如,欺詐檢測和監控等,通常用於信用卡。

7. 聯繫預測,預測數據直接存在何種聯繫。並會描述聯繫有多遠或近。比如facebook, linkedin 給你推薦的朋友。

8. 數據降維- 或者在這裡說數據瘦身,不過仍然保留重要的信息。不過這一過程,總是伴隨著信息的丟失。

9. 因果模型,了解那些事情和行為的確在影響其他事或人。

監督和非監督方法

如果目標明確,標準清楚,那麼這樣的數據挖掘就是監督型的,而沒有目標,只是了解分析數據,則是非監督的方法。

分類,回歸和因果模型通常解決問題採用監督的方法。

聚類,同時發生分組和畫像則屬於非監督的方法。

第二 數據挖掘過程

CRISP 過程/方法 。基本過程:

了解業務-了解數據-數據準備-建模-評估-實施

第三章 預測模型:從相關性到監督劃分

前一章節概括討論了模型和建模。本章將深入數據挖掘的主要課題之一: 預測性建模。待更新。

第四章 模型數據擬合

第五章 過度擬合和如何避免

引言:

數據科學最重要的基本概念之一過度擬合和概化過程。通俗的說,過度擬合就像你讓裁縫給你做了一套衣服,太合身了 - 數據模型完美擬合(overfitting)。可惜,這麼合身的衣服無法量產,無法適合其他人,或其他人群推廣(Generalization)。這麼說來,二者是對立存在的。

基本邏輯:從總體獲得一些樣本數據, 這些樣本數據按照比例抽取一部分作為訓練數據,另一部分用作測試數據(Hold Out Data)。訓練數據的目的是為了建模,而測試數據是為了檢驗模型是否可以推而廣之去使用。如果這兩個準確性值都很高,那麼就可以去應用到其他真實數據集了。過度擬合發生在模型和訓練數據,而無法推廣generalization 可以通過模型和測試數據來反應。

第六章 相似性,相鄰,和聚類

第四章 模型數據擬合

推薦閱讀:

聚類演算法第一篇-概覽

TAG:數據挖掘 | 數據科學 | 商業數據分析 |