數據特徵的歸一化,是對整個矩陣還是對每一維特徵?

對數據做PCA,之前考慮歸一化,突然想到應該是對每一維特徵做歸一化然後合起來還是直接對整個特徵矩陣歸一化?


整體做歸一化相當於各向同性的放縮,做了也沒有用。

各維分別做歸一化會丟失各維方差這一信息,但各維之間的相關係數可以保留。

如果本來各維的量綱是相同的,最好不要做歸一化,以儘可能多地保留信息。

如果本來各維的量綱是不同的,那麼直接做PCA沒有意義,就需要先對各維分別歸一化。


推薦閱讀:

中文情感分析 (Sentiment Analysis) 的難點在哪?現在做得比較好的有哪幾家?
文本情感分析有什麼好資料、網站、工具推薦呢?
Tagxedo個性化詞雲的繪圖思路是什麼?

TAG:數據挖掘 | 數據分析 | 機器學習 | 文本挖掘 |