機器學習測試題（上）

01-31

人工智慧一直助力著科技發展，新興的機器學習正推動著各領域的進步。如今，機器學習的方法已經無處不在—從手機上的語音助手到商業網站的推薦系統，機器學習正以不容忽視的速度闖入我們的生活。以下測試題可以粗略的檢測你對機器學習的了解和掌握程度。

1.以下哪一種方法最適合在n（n>1）維空間中做異常點檢測。

A 正態分布圖

B 盒圖

C 馬氏距離

D 散點圖

答案：C

馬氏距離是是一種有效的計算兩個未知樣本集的相似度的多元計量方法，以卡方分布為基礎，表示數據的協方差距離。與歐氏距離不同的是它考慮到各種特性之間的聯繫(例如：一條關於身高的信息會帶來一條關於體重的信息，因為兩者是關聯的)。因此馬氏距離常用於多元異常值檢測。

2. 邏輯回歸與多元回歸分析有哪些不同？

A. 邏輯回歸預測某事件發生的概率

B. 邏輯回歸有較高的擬合效果

C. 邏輯回歸回歸係數的評估

D. 以上全選

答案：D

邏輯回歸是用於分類問題，我們能計算出一個事件/樣本的概率；一般來說，邏輯回歸對測試數據有著較好的擬合效果；建立邏輯回歸模型後，我們可以觀察回歸係數類標籤(正類和負類)與獨立變數的的關係。

3 bootstrap 數據的含義是：

A. 有放回的從整體M中抽樣m個特徵

B. 無放回的從整體M中抽樣m個特徵

C. 有放回的從整體N中抽樣n個樣本

D. 無放回的從整體N中抽樣n個樣本

答案：C

如果我們沒有足夠的數據來訓練我們的演算法，我們應該通過重複隨機採樣增加訓練集合的大小

4."過擬合是有監督學習的挑戰，而不是無監督學習"以上說法是否正確：

A. 正確

B. 錯誤

答案：B

我們可以評估無監督學習方法通過無監督學習的指標，如：我們可以評估聚類模型通過調整蘭德係數

5.下列表述中，在k-fold交叉驗證中關於選擇K說法正確的是：

A. 較大的K並不總是好的，選擇較大的K可能需要較長的時間來評估你的結果

B. 相對於期望誤差來說，選擇較大的K會導致低偏差（因為訓練folds會變得與整個數據集相似）

C. 在交叉驗證中通過最小化方差法來選擇K值

D. 以上都正確

答案：D

較大的K意味著更小的偏差（因為訓練folds的大小接近整個dataset）和更多的運行時間（極限情況是：留一交叉驗證）。當選取K值的時候，我們需要考慮到k-folds 準確度的方差。

6. 一個回歸模型存在多重共線問題。在不損失過多信息的情況下，你該怎麼做：

A. 移除共線的兩個變數

B. 移除共線的兩個變數其中一個

C. 我們可以計算方差膨脹因子（variance inflation factor)來檢查存在的多重共線性並採取相應的措施

D. 移除相關變數可能會導致信息的丟失，為了保留這些變數，我們可以使用嶺回歸(ridge)或lasso等回歸方法對模型進行懲罰

答案：B C D

為了檢查多重共線性，我們可以創建相關係數矩陣來辨別和移除相關係數大於75%的變數(閾值根據情況設定),除此之外，我們可以使用VIF方法來檢查當前存在的共線變數。VIF<=4表明沒有多種共線，VIF>=10表明有著嚴重的多重共線性。當然，我們也可以使用公差(tolerance)作為評估指標。

但是,移除相關變數可能導致信息的丟失，為了保留這些變數，我們可以使用帶懲罰的回歸方法。我們也可以在相關變數之間隨機加入噪音，使得變數之間存在差異。但增加噪音可能影響準確度，因此這種方法應該小心使用。

7.評估模型之後，得出模型存在偏差，下列哪種方法可能解決這一問題：

A. 減少模型中特徵的數量

B. 向模型中增加更多的特徵

C. 增加更多的數據

D. B 和 C

E. 以上全是

答案：B

高偏差意味這模型不夠複雜(欠擬合)，為了模型更加的強大，我們需要向特徵空間中增加特徵。增加樣本能夠降低方差

8. 在構建一個基於決策樹模型時，使用信息增益information gain作為決策樹節點屬性選擇的標準，以下圖片中哪一個屬性具信息增益最大：

A. Outlook

B. Humidity

C. Windy

D. Temperature

答案：A

信息增益是劃分前樣本數據集的不純程度(熵)和劃分後數據集的不純程度(熵)的差值，計算各信息增益即可。

9. 在決策樹中，用作分裂節點的information gain說法正確的是

A. 較小不純度的節點需要更多的信息來區分總體

B. 信息增益可以使用熵得到

C. 信息增益更加傾向於選擇有較多取值的屬性

答案 B C

使用信息增益作為決策樹節點屬性選擇的標準，由於信息增益在類別值多的屬性上計算結果大於類別值少的屬性上計算結果，這將導致決策樹演算法偏向選擇具有較多分枝的屬性。

10. 一個SVM存在欠擬合問題，下面怎麼做能提高模型的性能:

A. 增大懲罰參數C

B. 減小懲罰參數C

C. 減小核函數係數(gamma值)

答案： A

C >0稱為懲罰參數，是調和二者的係數，C值大時對誤差分類的懲罰增大，C值小時對誤差分類的懲罰減小。當C越大，趨近無窮的時候，表示不允許分類誤差的存在，margin越小，容易過擬合；當C趨於0時，表示我們不再關注分類是否正確，只要求margin越大，容易欠擬合

11.支持向量機模型，選擇RBF函數作為kernel後，對gamma（函數自帶參數）畫散點圖，如果忘記在圖上標記gamma值，以下哪一個選項可以解釋下圖的gamma值（圖1,2,3從左向右，gamma值分別為g1、g2、g3）？

A. g1 > g2 > g3

B. g1 = g2 = g3

C. g1 < g2 < g3

D. g1 >= g2 >= g3

E. g1 <= g2 <= g3

答案: C

隨著gamma的增大，存在對於測試集分類效果差而對訓練分類效果好的情況，並且容易泛化誤差出現過擬合，因此C選項正確。

12. 做一個二分類預測問題，先設定閾值為0.5，概率大於等於0.5的樣本歸入正例類（即1），小於0.5的樣本歸入反例類（即0）。然後，用閾值n（n>0.5）重新劃分樣本到正例類和反例類，下面哪一種說法正確是（）

1.增加閾值不會提高召回率

2..增加閾值會提高召回率

3..增加閾值不會降低查准率

4.增加閾值會降低查准率

A. 1

B. 2

C. 1 and 3

D. 2 and 4

E. None of the above

答案: C

實際為「正」

實際為「反」

預測為「正」

預測為「反」

召回率=TP/TP+FN

查准率=TP/TP+FP

所以當概率閾值增加時，TP、FP減少或者持平， TP+FN不變，所以召回率不會增加，一般情況，用不同的閥值，統計出一組不同閥值下的精確率和召回率，如右圖，所以答案選擇C。

13.點擊率的預測是一個數據比例不平衡問題（比如訓練集中樣本呈陰性的比例為99%，陽性的比例是1%），如果我們用這種數據建立模型並使得訓練集的準確率高達99%。我們可以得出結論是：

A.模型的準確率非常高，我們不需要進一步探索

B.模型不好，我們應建一個更好的模型

C.無法評價模型

D.以上都不正確

答案: B

對於失衡數據，模型的準確率不能作為衡量模型效果的標準。因為我們需要探索的是少數1%的數據，為更好的評估模型效果，可以用靈敏度、特異度、F measure來判斷，如果樣本數少的類別表現非常弱，我們會採取更多措施。所以答案選B。

14. 圖片是訓練數據集（樣本非常少）的快照（屬性x、y分別用「+」和「o」表示），設定kNN的k=1，那麼留一法交叉驗證的誤差是

A. 0%

B. 100%

C. 0 到 100%

D. 以上均不正確

答案: B

留一交叉驗證法中，如果有N個樣本數據。將每個樣本單獨作為測試集，其餘N-1個樣本作為訓練集，這樣得到了N個模型，用這N個模型的分類準確率的平均數作為此分類器的性能指標。因此每一個模型都是用幾乎所有的樣本來訓練得到最接近樣本，這樣評估所得的結果沒有隨機因素，所以答案選擇B

15. 下面哪一項用決策樹法訓練大量數據集最節約時間?

1. 增加樹的深度

2. 增加學習率

3. 減少數的深度

4..減少樹的個數

A. 2

B. 1 and 2

C. 3

D. 3 and 4

E. 2 and 3

F. 2, 3 and 4

答案: C

如果決策樹的其他參數固定不變，那麼：增加樹的深度使得所有節點將延伸直到所有葉節點都是純的，因此會消耗更多時間；學習率在此問題中不是有效參數；決策樹模型只建立一個樹

16. 下列有關神經網路的問題正確的有？

1..增加層數可能擴大測試誤差

2. 減少層數一定縮小測試誤差

3..增加層數一定減少訓練誤差

A. 1

B. 1 and 3

C. 1 and 2

D. 2

答案: A

一般情況增加層數能讓模型在訓練集和測試集中都表現出更好的效果，但有研究表明層數多的神經網路相對於層數較少的神經網路可能呈現更大的訓練誤差，所以問題不能下定論，答案應該選擇A

17.解決線性不可分情況下的支持向量分類機的最優化模型問題時，以下可以保證結果模型線性可分的是

A. C = 1

B. C = 0

C. C 無限制

D.以上均不正確

答案: C

18. 訓練一個支持向量機，除去不支持的向量後仍能分類

A. 真的

B. 假的

答案: A

只有支持向量會影響邊界

19. 下列哪種演算法可以用神經網路構建?

1. K-NN最近鄰演算法

2. 線性回歸

3. 邏輯回歸

A. 1 and 2

B. 2 and 3

C. 1, 2 and 3

D. None of the above

答案: B

1..KNN是關於距離的學習演算法，沒有任何參數，所以無法用神經網路構建

2. 神經網路實現最小二乘法

3. 邏輯回歸相當於一層的神經網路

20. 下列可以用隱馬爾可夫模型來分析的是？

A. 基因序列數據

B. 電影評論數據

C. 股價數據

D. 以上三種

答案: D

三種都是時間序列數據，可以應用隱馬爾可夫模型

未完待續

PPV課翻譯小組作品，未經許可，嚴禁轉載！