機器學習實戰 | 數據探索
歡迎關注我們的微信公眾號「人工智慧LeadAI」(ID:atleadai)
數據的輸入質量決定了輸出的最後結果,數據的探索、預處理、特徵選擇、降維等特徵工程佔了項目的70%的時間。那麼如果我們確定了商業目的,該如何一步一步漸進式進行特徵工程呢?各位看官不急,請小的慢慢給你道來。
在建立模型前,我們大致需要順序經過以下幾步:
1、變數識別
2、單變數分析
3、雙變數分析
4、缺失值處理
5、異常值處理
6、變數變化
7、變數創建
其中第4-7步在模型優化中會重複進行。
1、變數識別
首先,識別Predictor(即feature、輸入)和Target(輸出)變數。 接下來,確定變數的數據類型和類別。
舉一個例子,讓我們更清楚地了解這一步。 假設我們想預測學生是否會玩板球(參考下面的數據集),需要識別預測變數、目標變數,變數的數據類型和變數類別。
那麼
2、單變數分析
在這個階段,我們逐個探索變數。 執行單變數分析的方法取決於變數類型是分類類型還是連續類型。
3、連續變數
在連續變數的情況下,我們需要了解變數的中心趨勢和分散,使用各種統計度量可視化方法進行測量,如下所示
4、分類變數
對於分類變數,我們可使用頻率表來了解每個類別的分布,也可以讀取每個類別下的值的百分比,也可以使用每個類別的Count和Count%來衡量。Bar chart可以用作可視化。
5、雙變數分析
雙變數分析的主要目的是發現兩個變數之間的關係。可以對分類和連續變數的任何組合執行雙變數分析。如:Continuous & Continuous,Categorical & Categorical,Categorical & Continuous and Continuous & Continuous。
6、Continuous&Continuous
在兩個連續變數之間進行雙變數分析時,散點圖( scatter plot)是找出兩個變數之間的關係的一個很好的方式。 散點圖表示變數之間的關係可以是線性或非線性。
- -1: perfect negative linear correlation
- +1:perfect positive linear correlation and
- 0: No correlation
scatter plot只是直觀來看,但是相關性如何計算呢?一般通過Pearson Correlation 來計算,缺點是:只可以確定線性相關性。非線性關係,可以採用互信息法,互信息係數能夠很好地度量各種相關性,但是計算相對複雜一些。Pearson Correlation 計算方法如下:
Step 1: 計算x、y的均值
Step 2: x的每個值減去x的均值得到a, y值做類似操作得到b
Step 3: 計算: a × b, a的平方和b的平方Step 4: 求a × b, a平方和b平方的和Step 5: 如5的公式7、Categorical&Categorical
雙向表:我們可以通過創建一個計數和計數%的雙向表來開始分析關係,行表示一個變數的類別,列表示另一個變數的類別,如圖。
Stacked Column Chart:更直觀,如上圖。
卡方檢驗:計算方法可以參考前面文章確定自變數和因變數的相關性p值為0:表示兩個變數是相關的
p值為1:表示兩個變數是獨立的
8、Categorical&Continuous
在探索分類和連續變數之間的關係時,我們可以為每個級別的分類變數繪製box plot,但不顯示統計學意義。 為了看統計學意義,我們可以進行Z檢驗,T檢驗或方差分析。
T檢驗與Z檢驗非常相似,但用於當兩個類別的觀察次數小於30時,方差分析用於評估兩個以上組的平均值是否在統計學上不同。
下篇再接著介紹。
9、參考
1、central measures
2、range
3、https://www.analyticsvidhya.com/blog/2016/01/guide-data-explo
4、ration/
推薦閱讀:
※入坑/轉型人工智慧你必須要弄懂的20個問題
※想系統學習機器學習,有什麼書值得推薦?
※BP神經網路及其C語言實現
※深度學習(Deep Learning)基礎概念2:深度學習測試題及詳解1
※KL散度不對稱。如果分布P和Q,KL(P||Q)很大而KL(Q||P)很小表示什麼現象?
TAG:机器学习 |