機器學習實戰 | 數據探索

01-29

歡迎關注我們的微信公眾號「人工智慧LeadAI」（ID：atleadai）

數據的輸入質量決定了輸出的最後結果，數據的探索、預處理、特徵選擇、降維等特徵工程佔了項目的70%的時間。那麼如果我們確定了商業目的，該如何一步一步漸進式進行特徵工程呢？各位看官不急，請小的慢慢給你道來。

在建立模型前，我們大致需要順序經過以下幾步：

1、變數識別

2、單變數分析

3、雙變數分析

4、缺失值處理

5、異常值處理

6、變數變化

7、變數創建

其中第4-7步在模型優化中會重複進行。

1、變數識別

首先，識別Predictor（即feature、輸入）和Target（輸出）變數。接下來，確定變數的數據類型和類別。

舉一個例子，讓我們更清楚地了解這一步。假設我們想預測學生是否會玩板球（參考下面的數據集），需要識別預測變數、目標變數，變數的數據類型和變數類別。

那麼

Data_exploration_2.png

2、單變數分析

在這個階段，我們逐個探索變數。執行單變數分析的方法取決於變數類型是分類類型還是連續類型。

3、連續變數

在連續變數的情況下，我們需要了解變數的中心趨勢和分散，使用各種統計度量可視化方法進行測量，如下所示

Data_exploration_31.png

4、分類變數

對於分類變數，我們可使用頻率表來了解每個類別的分布，也可以讀取每個類別下的值的百分比，也可以使用每個類別的Count和Count％來衡量。Bar chart可以用作可視化。

5、雙變數分析

雙變數分析的主要目的是發現兩個變數之間的關係。可以對分類和連續變數的任何組合執行雙變數分析。如：Continuous & Continuous，Categorical & Categorical，Categorical & Continuous and Continuous & Continuous。

6、Continuous&Continuous

在兩個連續變數之間進行雙變數分析時，散點圖（ scatter plot）是找出兩個變數之間的關係的一個很好的方式。散點圖表示變數之間的關係可以是線性或非線性。

correlation-examples

-1: perfect negative linear correlation
+1:perfect positive linear correlation and
0: No correlation

scatter plot只是直觀來看，但是相關性如何計算呢？一般通過Pearson Correlation 來計算，缺點是：只可以確定線性相關性。非線性關係，可以採用互信息法，互信息係數能夠很好地度量各種相關性，但是計算相對複雜一些。Pearson Correlation 計算方法如下：

correlation-calc1

Step 1: 計算x、y的均值

Step 2: x的每個值減去x的均值得到a, y值做類似操作得到b

Step 3: 計算: a × b, a的平方和b的平方

Step 4: 求a × b, a平方和b平方的和

Step 5: 如5的公式

7、Categorical&Categorical

雙向表：我們可以通過創建一個計數和計數％的雙向表來開始分析關係，行表示一個變數的類別，列表示另一個變數的類別，如圖。

Data_exploratio

Stacked Column Chart:更直觀，如上圖。

卡方檢驗：計算方法可以參考前面文章

確定自變數和因變數的相關性

p值為0：表示兩個變數是相關的

p值為1：表示兩個變數是獨立的

8、Categorical&Continuous

在探索分類和連續變數之間的關係時，我們可以為每個級別的分類變數繪製box plot，但不顯示統計學意義。為了看統計學意義，我們可以進行Z檢驗，T檢驗或方差分析。

T檢驗與Z檢驗非常相似，但用於當兩個類別的觀察次數小於30時，方差分析用於評估兩個以上組的平均值是否在統計學上不同。

下篇再接著介紹。

9、參考

1、central measures

2、range

3、https://www.analyticsvidhya.com/blog/2016/01/guide-data-explo

4、ration/

機器學習實戰 | 數據探索

1、變數識別

2、單變數分析

3、連續變數

4、分類變數

5、雙變數分析

6、Continuous&amp;Continuous

7、Categorical&amp;Categorical

8、Categorical&amp;Continuous

9、參考

6、Continuous&Continuous

7、Categorical&Categorical

8、Categorical&Continuous