面向機器學習的特徵工程六、降維：用 PCA 壓縮數據集

08-05

來自專欄信數據得永生8 人贊了文章

來源：ApacheCN《面向機器學習的特徵工程》翻譯項目
譯者：@cn-Wziv
校對：@HeYun

通過自動數據收集和特徵生成技術，可以快速獲得大量特徵，但並非所有這些都有用。在第 3 章和

在第 4 章中，我們討論了基於頻率的濾波和特徵縮放修剪無信息的特徵。現在我們來仔細討論一下使用主成分分析（PCA）進行數據降維。

本章標誌著進入基於模型的特徵工程技術。在這之前，大多數技術可以在不參考數據的情況下定義。對於實例中，基於頻率的過濾可能會說「刪除所有小於n的計數「，這個程序可以在沒有進一步輸入的情況下進行數據本身。另一方面，基於模型的技術則需要來自數據的信息。例如，PCA 是圍繞數據的主軸定義的。在之前的技術中，數據，功能和模型之間從來沒有明確的界限。從這一點前進，差異變得越來越模糊。這正是目前關於特徵學習研究的興奮之處。

閱讀全文?

TAG:機器學習 | 特徵工程 |

面向機器學習的特徵工程 六、降維：用 PCA 壓縮數據集

面向機器學習的特徵工程六、降維：用 PCA 壓縮數據集