如何判斷分類特徵值選取是否有效？

01-06

在文本分類選取文本訓練集特徵時，如何判斷特徵是可以用來分類的。(分類方法尚未確定)。

公式可能會有小錯誤~~~因為我比較馬虎= =。。。你可以用之前先查一下。。。。大概有這四種，歡迎補充。

1) 文本頻度（Document Frequency, DF）

文本頻度是某詞語在資料庫中出現的次數。在DF中，首先設置了兩個閾值。假設極少出現的詞語或者特別常見的詞語都是沒有為分類提供信息或者對於全局沒有影響的。所以，在計算DF時，那些低於最小閾值或者高於最高閾值的詞語都被去掉。DF是詞語分類最簡單的標準，同時它對於一個巨大的資料庫也只有一個線性計算的複雜度。所以它是一個簡單卻有效的特徵選擇方法。

2) 卡方統計法（CHI statistic）

卡方統計法用來衡量詞語（term）和類別（category）之間的聯繫（Galavotti, Sebastiani, Simi,2000）。它的定義如下：

$CHI(t,c_{i})=frac{(N imes (AD-BE) ^{2})}{ ((A+E) imes (B+D) imes (A+B) imes (E+D) )}$

其中，A是要計算的詞語t和某一類別 $c_{i}$ 同時出現的文檔數；B是t出現而 $c_{i}$ 沒有出現的文檔數；E是 $c_{i}$ 出現而t沒有出現的文檔數；D是兩者均沒有出現的文檔數。N是總的文檔數。

3) 交互信息（Mutual information, MI）

交互信息法是在統計語言為詞語聯繫和相關應用建模中常見的標準（Yang Pedersen, 1997）。它可以定義為：

$MI(t,c_{i})=log(frac{A imes N}{(A + E) imes(A+B)})$

其中A， B，E，D，N的定義與CHI統計法中定義相同。

4) 信息增益（Information gain, IG）

信息增益在機器學習中常用作詞語褒義標準。它通過計算詞語在文檔中出現或者未出現的次數來衡量其對於某類別所包含的信息量。

$IG(t)=-sum_{i=1}^{|C|}{P(c_{i})*log(P(c_{i}))}+P(t)sum_{i=1}^{|C|} {P(c_{i}|t)*log(P(c_{i}|t))}+P(ar t)sum_{i=1}^{|C|} {P(c_{i}|ar t)*log(P(c_{i}|ar t))}$

其中 $P(c_i)$ 定義為類別 $c_i$ 出現的概率； $P(t)$ 定義為詞語 $t$ 出現的概率； $P(ar t)$ 定義為詞語 $ar t$ 未出現的概率。

幫助樓上補充一下，判斷分類特徵值選取是否有效這個問題，本質上是根據已經標註了分類標籤的數據，尋找每個分類標籤最有代表性的特徵，也就是最能夠將該類別與其他類別區分開的特徵。基本上CHI-squre、MI和IG都直接或間接實現這一目標的。從文本分類來看，CHI-squre效果最佳。