簡明數據科學 Part1：原理與過程

01-29

本文首發於集智專欄：簡明數據科學 Part1：原理與過程 - 集智專欄

譯者： @idejie 楊德傑

2006年，英國數學家、Tesco Clubcard的架構師Clive Humbly創造性地提出了「數據是新的原油」這個理念。他說：

數據是新的原油。它雖然有價值，但是不經提煉也沒法被用。它必須轉化成天然氣、塑料、化學品等，來創造一個便於實現的利益驅動體。所以我們必須細分數據、分析它的價值。

iPhone的革新、移動經濟的增長、大數據技術領域的進步，為我們創造了一場完美的風暴。2012年，HBR發表了一篇文章使人們對數據科學家開始關注。這篇文章《數據科學家：21世紀最性感的工作》（Data Scientist: The Sexiest Job of the 21st Century）把數據科學家看作人類的「新物種」:一個數據黑客、分析師、交流學者、可信賴顧問的混合體。

每個組織正在試圖使用更多的數據驅動。機器學習技術為他們在這一方面的努力提供了幫助。我意識到很多材料過於技術化、太難理解。在本系列文章中，我的目的是簡化數據科學。我將以斯坦福大學課程/書（統計學習導論）為線索。試圖讓大家更易於理解數據科學。

本文我將首先介紹數據科學的基本原理、一般過程和問題類型。

數據科學是一個多學科交叉領域。它是以下領域之間的交集：

商業知識
統計學習，又稱機器學習
電腦編程

該系列文章的重點是將數據科學的機器學習方面進行簡化。在本文中，我將首先介紹數據科學中的原理，一般過程和問題類型。

關鍵原理：

數據是一種戰略資產： 這個概念是一個結構性的思維。你可能要問「我們是否正在使用我們在收集和存儲的所有數據？我們能從中提取出有意義的信息嗎？」我認為這些問題的答案都是「否」。由雲產生的公司本質上是由數據驅動的。正是因為他們心裡將數據視為戰略資產，所以對於他們中的大多數來說實現這些為「否」的大部分問題，並不是問題。 ?知識提取的系統過程：我們需要有一個有效的過程來從數據中提取知識。這個過程應該在有清楚的交付成果下，同時具備清晰明確的階段層次。跨行業數據挖掘標準流程（CRISP-DM）就是這樣的一個過程。
和數據睏覺： 組織機構都需要投資於熱衷於數據的人。將數據轉化為知識不是鍊金術，也不存在鍊金術士。他們需要的是能夠理解數據價值，並且具備數據素養和創造力的佈道師。他們需要的是可以把數據，技術和業務聯繫起來的人員。
擁抱不確定性： 數據科學不是一個金剛鑽，不是水晶球。像報告和KPI一樣，它其實是一個決策推動者。數據科學是一種工具，而不是一種手段。它不意味著絕對，它只是代表了一種概率。管理者和決策者得接受這個事實。他們需要在決策過程中接受量化的不確定性。如果一個組織的文化是急於求成，這種不確定性只會影響更深。如果組織選擇的是一種試驗性的文化，數據科學才能發展。
BAB原則： 我認為這是最重要的原則。數據科學文獻的重點是模型和演算法。公式並沒有業務背景。業務 - 分析 - 業務（BAB）恰恰是強調公式要應用在業務中的原則。把公式應用在業務場景中才是關鍵：定義業務問題，使用分析來解決它，將輸出集成到業務流程中。記住BAB。

過程：

從第2條原則出發，我來強調一下數據科學的處理過程。以下是數據科學項目中的比較典型的幾個階段：

1. 定義業務問題

愛因斯坦曾說道：「事情應該力求簡單，但不能過於簡單」。這句話點出了定義業務問題的關鍵。問題的陳述應該被仔細研究過後並規範化。清晰成功的規範需要被制定。就我經歷來說，業務團隊雖忙於手上操作性的任務，但這也不意味著他們沒有需要解決的挑戰。頭腦風暴會議，研討會和訪談可以幫助他們發現這些挑戰並研究假設。舉例個例子，我們假設一家電信公司隨著客戶群的減少，收入也同比下降。在這種情況下，業務問題可能定義為：

該公司需要通過瞄準新的群體和減少客戶流失來擴大客戶群。

2. 分解成機器學習的任務

業務問題一旦被定義，就需要被分解成機器學習的任務。接下來詳細說明下剛剛舉的例子。如果組織需要通過瞄準新的群體和減少客戶流失來擴大客戶群，那麼我們如何將其分解為機器學習的問題呢？以下是分解的一個例子：

減少 x%的客戶流失.
為瞄準的市場識別新的客戶群

3. 數據準備

一旦我們定義了業務問題，並且分解成了機器學習問題，我們接下來需要深入了解數據。對於手頭上的問題，數據的理解應該清晰。這能幫助我們制定正確的分析策略。要注意的事項是數據來源，數據質量，數據偏差等。

4. 探索性的數據分析

宇航員要穿越未知的宇宙，同樣，數據科學家也要經曆數據中未知模式，探知其特徵的關鍵點，並構想出未探索的那一部分。探索性的數據分析（EDA）是一項令人興奮的任務。我們可以更好地了解數據，調查細微差別，發現隱藏的模式，開發新特性並制定建模策略。

5. 建模

在EDA之後，我們進入建模階段。這裡，基於具體的機器學習問題，我們要應用有效的演算法，如回歸，決策樹，隨機森林等。

6. 部署和評估

最後，開發的模型被部署。它們會被不斷監測，以觀察它們在實際中的性能，並進行相應的校準。

通常，建模和部署部分只佔工作的20％，80％是需要你親自上手，探索並了解數據。

機器學習問題分類：

通常機器學習被分成兩類任務:

有監督的學習

監督學習是一類機器學習任務，它有一個已知的目標。理論上，建模者能用監督的機器學習模型達成可分類的目標。監督學習可以進一步分為兩類：

回歸

回歸是機器學習的主要任務。它們用於估計或預測數值變數。回歸模型的幾個例子可以是：

下季度潛在收入的估計是多少？
明年可以完成多少交易？

無監督的學習

無監督的學習是另一類機器學習任務，它沒有目標。由於無監督學習沒有任何指定的目標，因此它們產生的結果有時候也很難解釋。有很多類型的無監督學習任務，主要有：

聚類: 聚類是一個講類似事物組合起來的過程。客戶細分就使用了聚類方法。
關聯: 關聯是尋找經常相互搭配在一起的產品的方法。在零售方面，市場購物籃分析就是使用關聯的方法將產品捆綁在一起。
鏈路預測: 鏈路預測用於查找數據項之間的連接。 Facebook、亞馬遜和Netflix採用的推薦引擎就大量使用了鏈接預測演算法來個性化的推薦給我們朋友、要購買的物品和電影。
數據壓縮:數據壓縮的思想被用於從具備許多特徵的數據集中簡化出一些特徵。它就是尋找能用較少屬性來表達具有許多屬性的大數據集的方式。

總結

數據科學是一個寬廣的領域，也是一個令人興奮的領域。這是一門藝術。這是一門科學。在這篇文章中，我們剛剛只是探索了冰山一角。如果「 Whys」都不知道，那麼知道「Hows」也將是徒勞的。在接下來的文章中，我們將探討機器學習的「Hows」。