《機器學習》習題解答（第二章：模型評估與選擇）

04-25

習題

2.1 數據集包含1000個樣本，其中500個正例、500個反例，將其劃分為包含70%樣本的訓練集和30%樣本的測試集用於留出法評估，試估算共有多少種劃分方式。

2.2 數據集包含100個樣本，其中正、反例各一半，假定學習演算法所產生的模型是將新樣本預測為訓練樣本數較多的類別（訓練樣本數相同時進行隨機猜測），試給出用10折交叉驗證法和留一法分別對錯誤率進行評估所得的結果。

2.3 若機器學習A的F1值比學習器B高，試析A的BEP值是否也比B高。

2.4 試述真正例率(TPR)、假證例率(FPR)與查准率(P)、查全率(R)之間的聯繫。

2.5 試證明式(2.22)

2.6 試述錯誤率與ROC曲線的聯繫。

2.7 試證明任意一條ROC曲線都有一條代價曲線與之對應，反之亦然。

2.8 Min-max規範化和z-score規範化是兩種常用的規範化方法，令 $x$ 和 $x$ 分別表示變數在規範化前後的取值，相應的，令 $x_{min}$ 和 $x_{max}$ 表示規範化後的最小值和最大值， $overline x$ 和 $sigma_x$ 分別表示規範化前的均值和標準差，則min-max規範化，z-score規範化分別如式(2.43)和(2.44)所示。試析二者的優缺點。

$x=x_{min}+frac{x-x_{min}}{x_{max}-x_{min}} imes(x_{max}-x_{min}),(2.43)$

$x=frac{x-overline x}{sigma_x},(2.44)$

2.9 試述 $chi^2$ 檢驗過程。

2.10 試述在Frienman檢驗中使用(2.34)與(2.35)的區別。

解答

2.1

按對應比例分別從正例中和反例中採樣即可。

$n = C{500}^{350} imes C{500}^{350} approx 1.73 imes 10^{131}$

共有約 $1.73 imes 10^{131}$ 種劃分方法。

2.2

留一法：測試集1個樣本，訓練集99個樣本，假如測試集真實情況為反例，則訓練集包含50個正例和49個反例，所以測試集將被預測為正例，反之，將被預測為反例。錯誤率100%。

交叉驗證法：按比例分層抽樣的情況下，兩類樣本數量相同，預測結果等價於隨機猜測。錯誤率50%。

2.3

概念：

$BEP$ ： $P$ - $R$ 曲線上的平衡點坐標值， $BEP = P = R$ (即準確率 = 召回率)；

$F1$ 值：是 $P$ 與 $R$ 的調和平均， $frac{1}{F1} = frac{1}{2} (frac{1}{P} + frac{1}{R})$ ；

所以，當 $P=R$ 時：

$frac{1}{F1} = frac{1}{2} (frac{1}{P} + frac{1}{R}) = frac{1}{2} (frac{1}{BEP} + frac{1}{BEP}) = frac{1}{BEP}$ ，

即 $F1 = BEP$ 。

所以，當 $F1_A > F1_B$ 時，有 $BEP_A > BEP_B$ 。

2.4

參考混淆矩陣：

| | 預測正例 | 預測反例 |

| 真實正例 | TP（真正例） | FN（假反例） |

| 真實反例 | FP（假正例） | TN（真反例） |

$P = frac{TP}{TP+FP}$ ，查准率（準確率），（預測正例）中（真實正例）的比例。

$R = frac{TP}{TP+FN}$ ，查全率（召回率），（真實正例）中（預測正例）的比例。

$TPR = frac{TP}{TP+FN}$ ，真正例率，（真實正例）中（預測正例）的比例，且TPR就是R。

$FPR = frac{FP}{TN+FP}$ ，假正例率，（真實反例）中（預測正例）的比例。

2.5

即證明 $AUC = 1 - l_{rank}$ 。

$AUC$ 的定義：

$AUC = frac12 sum_{i=1}^{m-1} (x_{i+1}-x_i)(y_i+y_{i+1})$ ，

$l_{rank}$ 的定義：

$l_{rank} = frac{1}{m^+ m^-} sum_{x^+ in D^+} sum_{x^- in D^-} (mathbb I(f(x^+)<f(x^-))+frac12 mathbb I(f(x^+)=f(x^-)))$

學習器的本質是將樣例按照預測概率排序，正例在前，反例在後。首先將一個閾值設為最大，即在排序的最左邊，閾值左邊為預測正例，右邊為預測反例。

因為閾值左邊沒有樣例，所以這時沒有真正例，也沒有假正例，對應ROC曲線上的 $(0,0)$ 。

向右不斷移動閾值，每掃過一部分，都將這部分變為預測正例，該部分預測正例中若只包含真正例，則ROC曲線豎直向上移動，若只包含假正例，則ROC曲線水平向右移動，若既有正例也有反例，則斜向上移動。

$l_{rank}$ 累加了所有不在正例的反例數目，其中同樣的位置標記為0.5，在正例前面標記為1。從圖中可以看出，折線每次向右(右上)延伸，表示掃描到了反例，折線上方對應的面積，就是該反例後面有多少個正例，每個正例是一個正方形，對應的面積是1。同位置上的正例是個三角形，對應的面積是0.5。計算出總面積後，由於ROC圖的坐標是歸一化的，所以總面積要除以一開始放大的倍數，也就是 $m^+m^?$ 。

2.6

ROC曲線基於TPR與FPR表示了模型在不同截斷點取值下的泛化性能。
ROC曲線上越靠近 $(0,1)$ 的點，對應的學習器越完美，但是常需要通過計算等錯誤率來實現P、R的折衷，而P、R則反映了我們所側重部分的錯誤率。

2.7

ROC曲線的點對應了一對（TPR,FPR），即一對（FNR,FPR），由此可得一條代價線段（0,FPR)–(1,FNR），由所有代價線段構成簇，圍取期望總體代價和它的邊界–代價曲線。所以說，ROC對應了一條代價曲線。

2.8

Min-max規範化方法較簡單，當加入新值超出當前範圍時才需要重新計算之前所有結果，但容易受高槓桿點和離群點影響。

z-score規範化的計算量較大，對離群點敏感度低，每加入新值都需要重新計算之前所有結果。

2.9

To do.

2.10

To do.