網站行為欄位的標準化與歸一化方法

02-03

距離上次文章更新已經快3個月了，雖然專欄的讀者不多，可我真心為你們打 call，這麼無聊的專欄你們還沒有取消關注，也真是難為你們了。另外，本專欄非常歡迎大家拍磚，文中若有不清不楚的地方，請儘管問。

數據的標準化/歸一化是什麼

標準化/歸一化是機器學習中特徵工程最基礎的一項了，但它對模型的預測精準度卻有較大影響。該過程的目的是為了將源數據欄位量綱和範圍進行統一處理，使之符合我們接下來要使用模型的數據形式。

標準化是指把數據處理成相同分布的過程；狹義的歸一化是將數據處理成0~1分布的過程，但現在部分團隊為了方便也將標準化等同於廣義歸一化，不同團隊使用名稱可能不同，但不管怎樣這兩個過程目的都是一致的，所以在這篇文章中我將它們放在一起討論。

數據的標準化/歸一化要處理什麼問題

舉個很簡單的例子：

在網站行為分析中，如果我們要建立用戶的會話質量評估體系，用來衡量每個用戶帶來會話的質量，輔助會員營銷和改進廣告投放策略。該體系的主要衡量指標是以平均會話時長、貢獻總收入和加車率三個指標來建立模型，最後輸出的是會話質量評分。

考慮下你會怎麼處理這三個維度的數據？

當拿到數據，你很快就發現了時間、收入和比例這三個指標的量綱（單位）就不統一，再一看這三個指標數量級也並非完全相當。強行對比會導致什麼結果呢：

當我們評估不同用戶會話質量分並據此計算用戶之間相似程度（距離）時，發現在數學意義上收入這個欄位變化幅度太快了，收入每增加100塊錢對用戶間的距離衡量影響是100，但反觀會話平均時間的計算卻不那麼迅速，停留時長增加十幾秒已經算了不得了網站體驗了。這就會導致收入增長對用戶的評估影響巨大，而時間的增長就被迫忽略不計了，而事實上卻並非如此。所以聰明的你為每個影響因素設定權重 $K$ 來規避以上問題，並建立回歸模型：