標準化和歸一化什麼區別?


歸一化方法:

1、把數變為(0,1)之間的小數

主要是為了數據處理方便提出來的,把數據映射到0~1範圍之內處理,更加便捷快速。

2、把有量綱表達式變為無量綱表達式

歸一化是一種簡化計算的方式,即將有量綱的表達式,經過變換,化為無量綱的表達式,成為純量。

標準化方法:

數據的標準化是將數據按比例縮放,使之落入一個小的特定區間。由於信用指標體系的各個指標度量單位是不同的,為了能夠將指標參與評價計算,需要對指標進行規範化處理,通過函數變換將其數值映射到某個數值區間。


謝邀

參見

統計數據歸一化與標準化


1歸一化

特點

對不同特徵維度的伸縮變換的目的是使各個特徵維度對目標函數的影響權重是一致的,即使得那些扁平分布的數據伸縮變換成類圓形。這也就改變了原始數據的一個分布。

好處:

1 提高迭代求解的收斂速度

2 提高迭代求解的精度

2標準化

特點

對不同特徵維度的伸縮變換的目的是使得不同度量之間的特徵具有可比性。同時不改變原始數據的分布。

好處

1 使得不同度量之間的特徵具有可比性,對目標函數的影響體現在幾何分布上,而不是數值上

2 不改變原始數據的分布

參考資料:

數據標準化/歸一化

處理數據時不進行歸一化會有什麼影響?歸一化的作用是什麼?什麼時候需要歸一化?有哪些歸一化的方法?

在進行數據分析的時候,什麼情況下需要對數據進行標準化處理? - 王贇 Maigo 的回答

機器學習數據歸一化的的方法有哪些?適合於什麼樣的數據? - 王贇Maigo 的回答

為什麼feature scaling會 使gradient descent的收斂更好?- 王贇 Maigo 的回答

數據特徵的歸一化,是對整個矩陣還是對每一維特徵? - 王贇 Maigo 的回答

舉例

根據人的身高和體重預測人的健康指數

假設有如下原始樣本數據是四維的(當然一般不會有這麼無聊的數據)

從上面兩個坐標圖可以看出,樣本在數據值上的分布差距是不一樣的,但是其幾何距離是一致的。而標準化就是一種對樣本數據在不同維度上進行一個伸縮變化(而不改變數據的幾何距離),也就是不改變原始數據的信息(分布)。這樣的好處就是在進行特徵提取時,忽略掉不同特徵之間的一個度量,而保留樣本在各個維度上的信息(分布)。

從採用大單位的身高和體重這兩個特徵來看,如果採用標準化,不改變樣本在這兩個維度上的分布,則左圖還是會保持二維分布的一個扁平性;而採用歸一化則會在不同維度上對數據進行不同的伸縮變化(歸一區間,會改變數據的原始距離,分布,信息),使得其呈類圓形。雖然這樣樣本會失去原始的信息,但這防止了歸一化前直接對原始數據進行梯度下降類似的優化演算法時最終解被數值大的特徵所主導。歸一化之後,各個特徵對目標函數的影響權重是一致的。這樣的好處是在提高迭代求解的精度。


數據的標準化和歸一化其實是一回事情。

------------------------------------------------------------------------------------------------------

數據標準化(歸一化)處理是數據挖掘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,為了消除指標之間的量綱影響,需要進行數據標準化處理,以解決數據指標之間的可比性。原始數據經過數據標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一化方法:

一、min-max標準化(Min-Max Normalization)

也稱為離差標準化,是對原始數據的線性變換,使結果值映射到[0 - 1]之間。轉換函數如下:

其中max為樣本數據的最大值,min為樣本數據的最小值。這種方法有個缺陷就是當有新數據加入時,可能導致max和min的變化,需要重新定義。

二、Z-score標準化方法

這種方法給予原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。經過處理的數據符合標準正態分布,即均值為0,標準差為1,轉化函數為:

其中其中

為所有樣本數據的均值,

為所有樣本數據的標準差。

以上內容參考博客: 數據歸一化和兩種常用的歸一化方法 - ChaoSimple - 博客園

------------------------------------------------------------------------------------------------------

數據標準化(歸一化)的概念同Andrew Ng的coursera機器學習課程中特徵縮放(week 3提到該概念)。Andrew Ng認為將數據進行訓練的時候應該保證這些特徵都具有相近的尺度,這將幫助梯度下降演算法更快地收斂,他在課程中舉例房價估計的問題,其中使用到了Z-score標準化方法用於數據標準化。


兩種不同的縮放方式,目的都是縮小範圍。

歸一化

歸一化是一種簡化計算的方式,即將有量綱的表達式,經過變換,化為無量綱的表達式,成為標量。 在多種計算中都經常用到這種方法。

標準化

數據的標準化(normalization)是將數據按比例縮放,使之落入一個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除數據的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權

進一步參考:

歸一化與標準化

統計數據標準化的常見方法


【原】關於使用sklearn進行數據預處理 —— 歸一化/標準化/正則化


推薦閱讀:

決策樹演算法中,CART與ID3、C4.5特徵選擇之間的區別會對實際應用有哪些影響?哪種的結果會更好些?
什麼是數據挖掘?
KDD2015的頁面是怎麼做到將1G多的數據壓縮成0的?
想學習製作優質的可讀性高又富有設計感的可視化大數據圖,需要學會哪些工具?
如何獲取Google Play上APP信息和用戶評價的數據集?

TAG:數據挖掘 | 數據分析 | 機器學習 |