標籤:

機器學習實戰 | 數據探索

歡迎關注我們的微信公眾號「人工智慧LeadAI」(ID:atleadai)

數據的輸入質量決定了輸出的最後結果,數據的探索、預處理、特徵選擇、降維等特徵工程佔了項目的70%的時間。那麼如果我們確定了商業目的,該如何一步一步漸進式進行特徵工程呢?各位看官不急,請小的慢慢給你道來。

在建立模型前,我們大致需要順序經過以下幾步:

1、變數識別

2、單變數分析

3、雙變數分析

4、缺失值處理

5、異常值處理

6、變數變化

7、變數創建

其中第4-7步在模型優化中會重複進行。

1、變數識別

首先,識別Predictor(即feature、輸入)和Target(輸出)變數。 接下來,確定變數的數據類型和類別。

舉一個例子,讓我們更清楚地了解這一步。 假設我們想預測學生是否會玩板球(參考下面的數據集),需要識別預測變數、目標變數,變數的數據類型和變數類別。

那麼

Data_exploration_2.png

2、單變數分析

在這個階段,我們逐個探索變數。 執行單變數分析的方法取決於變數類型是分類類型還是連續類型。

3、連續變數

在連續變數的情況下,我們需要了解變數的中心趨勢和分散,使用各種統計度量可視化方法進行測量,如下所示

Data_exploration_31.png

4、分類變數

對於分類變數,我們可使用頻率表來了解每個類別的分布,也可以讀取每個類別下的值的百分比,也可以使用每個類別的Count和Count%來衡量。Bar chart可以用作可視化。

5、雙變數分析

雙變數分析的主要目的是發現兩個變數之間的關係。可以對分類和連續變數的任何組合執行雙變數分析。如:Continuous & Continuous,Categorical & Categorical,Categorical & Continuous and Continuous & Continuous。

6、Continuous&Continuous

在兩個連續變數之間進行雙變數分析時,散點圖( scatter plot)是找出兩個變數之間的關係的一個很好的方式。 散點圖表示變數之間的關係可以是線性或非線性。

correlation-examples

  • -1: perfect negative linear correlation
  • +1:perfect positive linear correlation and
  • 0: No correlation

scatter plot只是直觀來看,但是相關性如何計算呢?一般通過Pearson Correlation 來計算,缺點是:只可以確定線性相關性。非線性關係,可以採用互信息法,互信息係數能夠很好地度量各種相關性,但是計算相對複雜一些。Pearson Correlation 計算方法如下:

correlation-calc1

Step 1: 計算x、y的均值

Step 2: x的每個值減去x的均值得到a, y值做類似操作得到b

Step 3: 計算: a × b, a的平方和b的平方

Step 4: 求a × b, a平方和b平方的和

Step 5: 如5的公式

7、Categorical&Categorical

雙向表:我們可以通過創建一個計數和計數%的雙向表來開始分析關係,行表示一個變數的類別,列表示另一個變數的類別,如圖。

Data_exploratio

Stacked Column Chart:更直觀,如上圖。

卡方檢驗:計算方法可以參考前面文章

確定自變數和因變數的相關性

p值為0:表示兩個變數是相關的

p值為1:表示兩個變數是獨立的

8、Categorical&Continuous

在探索分類和連續變數之間的關係時,我們可以為每個級別的分類變數繪製box plot,但不顯示統計學意義。 為了看統計學意義,我們可以進行Z檢驗,T檢驗或方差分析。

T檢驗與Z檢驗非常相似,但用於當兩個類別的觀察次數小於30時,方差分析用於評估兩個以上組的平均值是否在統計學上不同。

下篇再接著介紹。

9、參考

1、central measures

2、range

3、analyticsvidhya.com/blo

4、ration/

推薦閱讀:

入坑/轉型人工智慧你必須要弄懂的20個問題
想系統學習機器學習,有什麼書值得推薦?
BP神經網路及其C語言實現
深度學習(Deep Learning)基礎概念2:深度學習測試題及詳解1
KL散度不對稱。如果分布P和Q,KL(P||Q)很大而KL(Q||P)很小表示什麼現象?

TAG:机器学习 |