面向機器學習的特徵工程 六、降維:用 PCA 壓縮數據集

面向機器學習的特徵工程 六、降維:用 PCA 壓縮數據集

來自專欄信數據得永生8 人贊了文章

來源:ApacheCN《面向機器學習的特徵工程》翻譯項目

譯者:@cn-Wziv

校對:@HeYun

通過自動數據收集和特徵生成技術,可以快速獲得大量特徵,但並非所有這些都有用。在第 3 章和

在第 4 章中,我們討論了基於頻率的濾波和特徵縮放修剪無信息的特徵。現在我們來仔細討論一下使用主成分分析(PCA)進行數據降維。

本章標誌著進入基於模型的特徵工程技術。在這之前,大多數技術可以在不參考數據的情況下定義。對於實例中,基於頻率的過濾可能會說「刪除所有小於n的計數「,這個程序可以在沒有進一步輸入的情況下進行數據本身。 另一方面,基於模型的技術則需要來自數據的信息。例如,PCA 是圍繞數據的主軸定義的。 在之前的技術中,數據,功能和模型之間從來沒有明確的界限。從這一點前進,差異變得越來越模糊。這正是目前關於特徵學習研究的興奮之處。

閱讀全文?

github.com圖標
推薦閱讀:

一個完整的機器學習項目在Python中的演練(二)
咒語入門(數學符號入門)神經網路篇
[PVLDB 12] GraphLab : 分散式機器學習大規模圖處理系統 學習總結
面向機器學習的特徵工程 三、文本數據: 展開、過濾和分塊

TAG:機器學習 | 特徵工程 |