Data Science for Business 是怎樣一本書?
如圖,這本書作為一本教科書收入了我的書庫。我計劃一邊讀英文,一邊簡單編譯一下,僅供交流,不作為商業用途。
Data Science for Business by Foster Provost and Tom Fawcett
(O』Reilly). Copyright 2013 Foster Provost and Tom Fawcett, 978-1-449-36132-7
我暫且翻譯為以下題目:
《數據科學- 商用之道》
你需要知道的數據挖掘和分析思維
佛斯特·普羅沃斯特 和 湯姆· 佛塞特
總評:
2013年由OReilly 出版的這本書獲得了一些好評:
SAP全球副總裁說:「任何一位想要真正要迎接大數據機遇的人士,這是一本必讀書目」
其他企業商業分析部門、統計部門、數據科學小組等部門負責人的評述略。
作者:
Foster Provost 是美國紐約大學斯特恩商學院數據科學,信息系統等專業的教授 Foster Provost, 匹茲堡大學計算機科學碩士、博士。
電子書:
請自行google,或在Amazon 購買Kindle版或紙版 $33.90。
好了,先睹為快,來看看目錄吧:
前言 xi
1.介紹:數據分析思維 1
數據機會的廣泛性1
示例:颶風弗朗西斯3
示例:預測客戶流失4
數據科學、工程和數據驅動決策4
數據處理和「大數據」7
從大數據1.0到大數據2.0 8
作為戰略資產的數據和數據科學能力 9
數據分析思維12
本書14
數據挖掘與數據科學回顧14
化學不是試管:數據科學與數據科學家的工作15
總結16
2.商業業務問題和數據科學解決方案 19
基本概念:一套規範的數據挖掘任務; 數據挖掘過程; 監督與無監督數據挖掘。
從業務問題到數據挖掘任務19
監督與無監督的方法24
數據挖掘及其成果25
數據挖掘流程26
理解業務27
理解數據28
準備數據29
建模31
評估31
部署32
管理數據科學小組意味著什麼34
其他分析技巧和技術35
統計35
資料庫查詢37
數據倉庫38
回歸分析39
機器學習和數據挖掘39
用這些技巧回答商業問題40
總結41
3.預測建模介紹:從相關到監督切分。 43
基本概念:確認信息屬性; 通過漸進式屬性選擇切分數據。
示例技術:尋找相關性; 屬性/變數選擇; 樹推導。
模型,推導和預測44
監督切分48
選擇信息屬性49
示例:信息增益的屬性選擇56
採用樹結構模型的監督切分62
可視化切分67
樹作為規則集71
概率估計71
示例:用樹推導解釋流失問題73
總結
4.模型擬合數據。 81
基本概念:基於數據查找「最優」模型參數; 選擇數據挖掘的目標; 客觀功能; 損失功能。
示例技術:線性回歸; 邏輯回歸; 支持向量機。
通過數學函數分類83
線性判別函數85
優化目標函數87
從數據挖掘線性判別的一個例子88
評分和排名實例的線性判別函數90
支持向量機,簡介91
數學函數回歸94
類概率估計與物流「回歸」96
*邏輯回歸:一些技術細節99
示例:邏輯回歸與樹推導102
非線性函數,支持向量機和神經網路
總結108
5.過度擬合及如何避免。 111
基本概念:概化;擬合和過度擬合;複雜性控制。
示例技術:交叉驗證;屬性選擇;樹修剪正規化。
概化111
過度擬合113
過度擬合檢查113
保持數據和擬合圖113
樹推導過度擬合116
數學函數過度擬合118
示例:過度擬合線性函數119
*示例:為什麼過度擬合不好? 124
從持續評估到交叉驗證126
流失數據集回顧129
學習曲線130
避免過度擬合和複雜性控制133
樹推導避免過度擬合133
避免過度裝配的一般方法134
*避免過度擬合參數優化136
總結140
6. 相似性,鄰居和集群。 141
基本概念:計算由數據描述的對象的相似度;使用相似度進行預測;聚類作為基於相似性的分割。
示範技術:搜索類似實體;最鄰近的方法;聚類方法;計算相似度的距離度量。
相似度和距離142
最近鄰的推理144
示例:威士忌分析144
最近的鄰居為預測建模146
多少鄰居多少影響? 149
幾何解釋,過擬合和複雜性控制151
最近鄰方法的問題154
關於相似性和鄰居的一些重要技術細節157
異構屬性157
*其他距離功能158
*組合功能:從鄰居計算分數161
集群163
示例:威士忌分析回顧163
層次聚類164
最近的鄰居回顧:圍繞質心聚集169
示例:集群商業新聞故事174
了解聚類結果177
*使用有監督的學習生成集群描述179
步驟:解決業務問題與數據探索182
總結184
7.決策分析思維I:什麼是好的模型? 187
基本概念:仔細考慮數據科學成果所期望的內容;作為關鍵評估框架的預期價值;考慮適當的比較基線。
示範技術:各種評估指標;估算成本和收益;計算預期利潤;創建基線方法進行比較。
評估分類器188
平準精度及其問題189
混亂矩陣189
不平衡類的問題190
不平等成本和收益的問題193
概括超越分類193
關鍵分析框架:預期值194
使用預期值框分類器使用195
使用預期價值來分類評估196
評估,基準績效和對數據投資的影響204
概要
8.可視化模型表現。 209
基本概念:可視化各種不確定性下的模型表現; 進一步考慮數據挖掘結果的期望。
示範技術:利潤曲線; 累積響應曲線; 提升曲線; ROC曲線。
排名而不是分類209
利潤曲線212
ROC曲線和曲線214
ROC曲線下面積(AUC)219
累積響應和升力曲線219
示例:流失建模的性能分析223
總結231
9.證據與概率。 233
基本概念:明確證據與貝葉斯規則的結合; 通過條件獨立假設的概率推理。
示範技術:樸素貝葉斯分類; 證據提升。
示例:使用廣告定位在線消費者233
綜合證據概率235
聯合概率與獨立236
貝葉斯規則237
將貝葉斯規則應用於數據科學239
條件獨立和樸素貝葉斯240
樸素貝斯的優點和缺點242
證據模型「電梯」244
示例:從Facebook的證據升高「喜歡」245
行動證據:針對消費者與廣告247
總結247
10.代表和挖掘文本。 249
基本概念:構建挖掘友好數據表示的重要性;表示數據挖掘的文本。
示範技巧: TFIDF計算N克停止命名實體提取;主題模型。
為什麼文本重要250
為什麼文本很困難250
代表251
辭彙袋子252
詞頻252
測量稀疏度:逆文檔頻率254
結合他們:TFIDF 256
例如:爵士音樂家256
* IDF與熵的關係261
超越袋子263
N-克序列263
命名實體提取264
主題模型264
示例:採礦新聞故事預測股價走勢266
任務266
數據268
數據預處理270
結果271
總結275
11.決策分析思維二:走向分析工程。 277
基本概念:解決數據科學的業務問題從分析工程開始:基於可用的數據,工具和技術設計分析解決方案。
示範技術:預期價值作為數據科學解決方案設計的框架。
針對慈善郵件的最佳前景278
預期價值框架:分解業務問題並重新組織解決方案278
選擇偏倚的簡要說明280
我們的流失例子更加複雜281
預期價值框架:構建更複雜的業務問題281
評估激勵的影響283
從預期價值分解到數據科學解決方案284
總結287
12.其他數據科學任務和技術。 289
基本概念:我們的基本概念作為許多常見數據科學技術的基礎;熟悉數據科學基礎的重要性。
示範技術:協會和共同事件;行為剖析;鏈接預測;數據簡化潛在信息挖掘;電影推薦;誤差的偏差分解;模特兒組合數據原因推理。
共同發現和協會:尋找合作的項目290
測量驚喜:電梯和槓桿291
示例:啤酒和彩票292
Facebook之間的關聯喜歡293
分析:尋找典型行為296
鏈接預測和社會建議301
數據縮減,潛在信息和電影建議302
偏差,方差和集合方法306
數據驅動因果解釋和病毒營銷實例309
總結310
13.數據科學與商業戰略。 313
基本概念:我們的原則作為數據驅動業務成功的基礎;通過數據科學獲取和維持競爭優勢;認真策劃數據科學能力的重要性。
思考數據 - 分析,Redux 313
數據科學實現競爭優勢315
用數據科學維持競爭優勢316
強大的歷史優勢317
獨特的知識產權317
獨特的無形擔保資產318
高級數據科學家318
高級數據科學管理320
吸引和培育數據科學家及其團隊321
檢查數據科學案例研究323
準備接受來自任何來源的創意想法324
準備評估數據科學項目的提案324
示例數據挖掘提案325
大紅色建議中的缺陷326
企業數據科學成熟度327
14.結論。 331
數據科學的基本概念331
將我們的基本概念應用於新問題:挖掘移動
設備數據334
改變我們對商業問題解決方案的看法337
什麼數據不能做:循環中的人,重新審視338
關於個人的隱私,倫理和採礦數據341
數據科學有更多嗎? 342
最終的例子:從人群採購到雲採購343
最後的話
A.提案審查指南。 347
B.另一個樣本提案。 351
辭彙表。 355
參考書目。 359
索引。 367
全書洋洋洒洒384頁,共14章,內容涉及數據分析思維、商業業務問題和數據科學解決方案、預測模型建模:從相關性到監督細分(切分)、模型和數據擬合、過度擬合和如何避免、相似性、決策分析思維、可視化模型性能、證據和概率、重現和文本挖掘、數據分析思維-分析工程、其他數據科學任務和技巧、數據科學任務和技巧和數據科學和商業戰略。
前言總結:
- 首先定位讀者群,然後說本書由淺入深,雜而不深,點到為止。
- 不需要複雜的數學背景知識(個人感覺,這一點真的是因讀者而異了)
- 業內人士評價此書非常好 (數據科學家的三條腿:IT+統計和商業行業知識,很貼心的是書中也談論了數據科學家這個職位面試的一個案例 )
- 數據科學 到底是什麼意思:作者從三個緯度來分析說,1. 數據科學如何適應組織和競爭; 2. 數據分析的思維; 3. 如何從數據提取有用信息?
- 使用的場景有:如何找到類似的客戶群?如何查詢數據?推薦演算法?
- 本書特色:使用實例來解釋這些概念
- 本書曾在紐約大學商學院作為MBA等學生的教科書
- 本書也曾被7所國家的大學採用,用於商學院、計算機科學、和數據科學入門教科書。
- 常用語言,技巧:(直接copy過來了)
- Python, Unix command-line processing, datafiles, common data formats, databases and querying, big data architectures and systems like MapReduce and Hadoop, data visualization, and other related topics。
格式:
f (X) = Age × - 1 + 0.7 × Balance + 60
本書使用到的語言:
- Python and Perl
- Scipy,
- Numpy,
- Matplotlib, and
- Scikit-LearnWeka
- The Machine Learning Repository at the University of California at Irvine (Bache& Lichman, 2013)
最新信息請移步到該書的網站:Data Science for Business
目前該書提供了韓文、日文、波蘭文、俄文的翻譯版。葡萄牙語版和中文版正在處理中...
未完待續
先睹為快:第1章和第2章包含的例子:
1. 颶風弗朗西斯登陸對Wal mart客戶需求的影響,他們會搶購瓶裝水嗎?有哪些購買的行為模式呢?
2. 移動通信公司客戶流失(churn)的問題,如何留住客戶?
3. Target 百貨想知道懷孕客戶的情況
兩種類型的DDD-data driven decisions: 類似統計中做因子分析的EFA和CFA。
問題:如何解釋分析數據挖掘和數據科學的相似和不同?
#################################################分割線###########
說明:整本書翻譯的話工作量太大,我只好換做導讀的方式來介紹這本書。有興趣的話,可以自行閱讀原版或翻譯版(如果有的話)
導讀
第一章 入門:數據分析思維
在過去15年里,商業基礎設施的大量投入帶來的結果是,整個企業內部的數據收集變得非常容易。實際上商業活動的每個層面都向數據收集開放,而且已經有相應的數據收集工具:運營、製造業、供應鏈管理、客戶行為、市場推廣業績、工作流程步驟等等。同時,關於外部事件如市場趨勢、業界新聞,和競爭對手動態等信息也變得非常容易獲得。數據變得廣泛可用,如何從數據提取有用信息和知識- 這些數據科學領域內的問題,就受到越來越多的關注。
無所不在的數據機遇
大量的數據變得唾手可得,幾乎每個行業的公司都關注如何發掘數據,讓公司更加有競爭優勢。傳統的商業數據處理模式,在大數據面前會力不從心。計算機和網路運算能力的大幅提升,讓更廣泛和深入了解商業數據成為可能。這就是數據科學和數據挖掘技術深入到商業領域的重要推動力。
數據挖掘廣泛用於:
- 針對性營銷
- 在線廣告
- 推薦搭售
分析客戶行為,最大化挖掘客戶的價值。金融領域往往會藉助數據挖掘進行信用評分和交易分析,以及虛假偵測等。從沃爾瑪到亞馬遜都在使用數據挖掘技術服務於他們的經營目的。
本書的目的就是,從數據的角度看業務。讓您具備數據分析思維能力,進而更好的為商業運營服務。全書會涵蓋一些基本數據可續原則,並且會介紹至少一種對應的數據挖掘技術/方法。
兩個案例:
1. 弗朗西斯颶風
我們假定在颶風經過的地區,人們會增加對瓶裝水的需求。或許這太顯而易見了,為什麼還要數據挖掘呢?不過,如果仔細研究,我們可以分析數據,來預測具體的需求數量,比如多少瓶,多少件,這樣有利於沃爾瑪有計劃的提供水,有了具體的數量。或許人們對DVD播放器的需求增加了。只有去分析數據,才能看到這些趨勢。
紐約時報2004年的研究表明,在颶風到來之前,最暢銷的商品竟然是-啤酒。
2. 預測客戶流失
假設您負責MegaTelCo公司的數據分析業務。這家公司目前面臨的最大問題是,客戶在無線上網領域內的不斷流失。在亞特蘭大中部地區,20%的客戶在合同期滿之後就離開了,同時公司也很難吸引更多新客戶的加入。
第二章 商業/業務問題和數據科學解決方案 。。。待更新
本章節主要包括兩方面內容,第一數據挖掘常見任務;第二數據挖掘的過程
CRISP數據挖掘過程/方法。首先來看一下數據挖掘的常見任務:
1. 分類和類別概率估計,來預測總體中的每個體屬於哪個類別。通常這些總體內的類別是獨特分類互相排斥的。比如,一家商店的所有顧客中,哪些人會對摺扣促銷感興趣。結果有兩類人,一類積極反應,另一類置之不理。
具體到數據挖掘,分類任務就是去打造一個模型,來決定新的成員屬於哪一類。最接近的兩種任務是評分(scoring)和概率估計。
2. 回歸(』數值估計』)就是去估計和預測每個個體,根據某些變數的數值來估計。具體的問題,比如:多大程度上這個顧客會使用此項服務?回歸和分類二者在數據挖掘的時候有關係,但是二者的區別是什麼呢?分類只告訴我們是否的問題,而回歸則預測多大程度會發生。
3. 相似性匹配 根據已知數據,來確定相似的個體。這個任務在推薦系統中會用到,比如某甲和某乙都對某種商品有相似的興趣。
4. 聚類,就是物以類聚,人以群分。
5. 同時分組(常見項目挖掘,相關規則,市場-籃分析),根據交易記錄發現二者之間存在的聯繫。例如,超市裡那些東西經常會一起同時買?聚類關注事物的相似性,而同時分組則關注同時發生了哪些事情,並將他們分為一組。
6. 畫像(也稱行為描述),描述個體,組,和全體最常見的特點。例如,這個客戶群標配的手機是哪一款?畫像可以針對全體或者具體到客戶群或個人。通常可以通過畫像建立常模,然後用常模來查找非正常數據。比如,欺詐檢測和監控等,通常用於信用卡。
7. 聯繫預測,預測數據直接存在何種聯繫。並會描述聯繫有多遠或近。比如facebook, linkedin 給你推薦的朋友。
8. 數據降維- 或者在這裡說數據瘦身,不過仍然保留重要的信息。不過這一過程,總是伴隨著信息的丟失。
9. 因果模型,了解那些事情和行為的確在影響其他事或人。
監督和非監督方法
如果目標明確,標準清楚,那麼這樣的數據挖掘就是監督型的,而沒有目標,只是了解分析數據,則是非監督的方法。
分類,回歸和因果模型通常解決問題採用監督的方法。
聚類,同時發生分組和畫像則屬於非監督的方法。
第二 數據挖掘過程
CRISP 過程/方法 。基本過程:
了解業務-了解數據-數據準備-建模-評估-實施
第三章 預測模型:從相關性到監督劃分
前一章節概括討論了模型和建模。本章將深入數據挖掘的主要課題之一: 預測性建模。待更新。
第四章 模型數據擬合
第五章 過度擬合和如何避免
引言:
數據科學最重要的基本概念之一過度擬合和概化過程。通俗的說,過度擬合就像你讓裁縫給你做了一套衣服,太合身了 - 數據模型完美擬合(overfitting)。可惜,這麼合身的衣服無法量產,無法適合其他人,或其他人群推廣(Generalization)。這麼說來,二者是對立存在的。
基本邏輯:從總體獲得一些樣本數據, 這些樣本數據按照比例抽取一部分作為訓練數據,另一部分用作測試數據(Hold Out Data)。訓練數據的目的是為了建模,而測試數據是為了檢驗模型是否可以推而廣之去使用。如果這兩個準確性值都很高,那麼就可以去應用到其他真實數據集了。過度擬合發生在模型和訓練數據,而無法推廣generalization 可以通過模型和測試數據來反應。
第六章 相似性,相鄰,和聚類
第四章 模型數據擬合
推薦閱讀: