Python學習筆記-數據標準化

05-20

Python學習筆記-數據標準化

import numpy as npfrom sklearn import preprocessingimport matplotlib.pyplot as pltdata = np.loadtxt(data6.txt, delimiter= ) # 讀取數據# Z-Score標準化(做中心化處理，並且對數據分布有正態需求)zscore_scaler = preprocessing.StandardScaler() # 建立StandardScaler對象data_scale_1 = zscore_scaler.fit_transform(data) # StandardScaler標準化處理# Max-Min標準化minmax_scaler = preprocessing.MinMaxScaler() # 建立MinMaxScaler模型對象data_scale_2 = minmax_scaler.fit_transform(data) # MinMaxScaler標準化處理# MaxAbsScaler標準化maxabsscaler_scaler = preprocessing.MaxAbsScaler() # 建立MaxAbsScaler對象data_scale_3 = maxabsscaler_scaler.fit_transform(data) # MaxAbsScaler標準化處理# RobustScaler標準化robustscalerr_scaler = preprocessing.RobustScaler() # 建立RobustScaler標準化對象data_scale_4 = robustscalerr_scaler.fit_transform(data) # RobustScaler標準化標準化處理# 展示多網格結果data_list = [data, data_scale_1, data_scale_2, data_scale_3, data_scale_4] # 創建數據集列表scalar_list = [15, 10, 15, 10, 15, 10] # 創建點尺寸列表color_list = [black, green, blue, yellow, red] # 創建顏色列表merker_list = [o, ,, +, s, p] # 創建樣式列表title_list = [source data, zscore_scaler, minmax_scaler, maxabsscaler_scaler, robustscalerr_scaler] # 創建標題列表for i, data_single in enumerate(data_list): # 循環得到索引和每個數值 plt.subplot(2, 3, i + 1) # 確定子網格 plt.scatter(data_single[:, :-1], data_single[:, -1], s=scalar_list[i], marker=merker_list[i], c=color_list[i]) # 子網格展示散點圖 plt.title(title_list[i]) # 設置子網格標題plt.suptitle("raw data and standardized data") # 設置總標題plt.show() # 展示圖形