數據挖掘過程中的離散方法

01-27

我們在跑模型的過程中都離不開特徵離散的環節，特別是一些連續值範圍絕大的特徵，不做離散化處理很容易過擬合，在數據特徵處理過程中離散可以很好的解決這些問題，包括常知道的分箱處理等頻等距。

從數據集的特徵按照其取值可以分為連續特徵和離散特徵。連續特徵也稱為定量特徵，例如人的身高160~190cm，年齡18~60周歲等等。n離散特徵也稱定性特徵，如性別（男/女）、學歷（大專/本/碩/博），城市（北上廣）等，此類特徵的值域只限定於較少的取值。連續特徵的取值允許被排序，可進行算術運算；離散特徵的取值有時允許被排序，n但是其不能進行算術運算。

在我們平時做分類預測問題過程中存在著大量的連續特徵，基本的年齡、收入、購買頻次/登陸次數/消費金額等等。n將連續特徵離散化，再將離散化的結果應n用於演算法有很多好處。

離散化結果將會減少給定連續特徵值的個數，減小系統對存儲空間的實際需求。
離散特徵相對於連續特徵來說更接近於知識層面的表示。
通過離散化，數據被規約和簡化，對於使用者和專家來說，離散化的數據都更易於理解，使用和解釋。
離散化處理使得演算法的學習更為準確和迅速。
一系列演算法只能應用於離散型數據，n使得離散化處理成為必要，而離散化又使很多演算法的應用範圍擴展了。

但最優離散化問題已經被證明是一個NP-hard問題。n離散化的方法有很多，在這裡重點介紹離散化過程和不同的方法論。

離散化處理的一般過程

對連續特徵進行離散化處理，一般經過以下步驟：

對此特徵進行排序。特別是對於大數據集，排序演算法的選擇要有助於節省時間，提高效率，減少離散化的整個過程的時間開支及複雜度。
選擇某個點作為候選斷點，用所選取的具體的離散化方法的尺度進行衡量此候選斷點是否滿足要求。
若候選斷點滿足離散化的衡量尺度，n則對數據集進行分裂或合併，再選擇下一個候選斷點，重複步驟（2）（3）。
當離散演算法存在停止準則時，如果滿足停止準則，則不再進行離散化過程，從而得到最終的離散結果。

關於離散結果的好壞，還是要看模型的效果。

離散化方法

一般的離散方法有

分箱binning

Equal width or frequency
1R

熵entropy

ID3 type
D2
Ent-MDLP
Mantaras distance

獨立性dependency

Zeta

精確度accuracy

adaptive quantizer

歸納參考下圖

離散化過程在數據的預處理中發揮著重要的作用。一些比較常用的離散化的方法，如等寬離散法、等頻離散法、基於熵的離散化、基於卡方的離散化等方法，在實際應用時，需要根據數據集的特點和學習環境等選擇合適的離散化方法。

參考文獻

[1] Mehmed Kantardzic ， 2003. Data Mining:nConcepts, Models, Methods, and Algorithms,nIEEE press, pp:19-22,54-58

[2] 張永，丁洪昌,2007。連續特徵離散化的nMaxDiff 方法。計算機工程與應用，2007，43n（19）

[3] Ying Yang and Xindong Wu,2007 。nDiscretization Methods Simon, H.A. 1981. ThenSciences of the Artificial, 2nd edn. Cambridge,nMA: MIT Press.

[4] 劉業政，焦寧等,2007。連續特徵離散化演算法n比較研究。計算機應用研究，2007 年 9 月第n24 卷第 9 期。

[5] Dougherty, J.,Kohavi, R., and Sahami, M. 1995.nSupervised and unsupervised discretization ofncontinuous features. In Proc. TwelfthnInternational Conference on MachinenLearning. Los Altos, CA: Morgan Kaufmann,npp. 194–202