BAT機器學習面試1000題系列(241-245)

241.下圖是同一個SVM模型, 但是使用了不同的徑向基核函數的gamma參數, 依次是g1, g2, g3 , 下面大小比較正確的是 :

A. g1 > g2 > g3

B. g1 = g2 = g3

C. g1 < g2 < g3

D. g1 >= g2 >= g3

E. g1 <= g2 <= g3

答案: C

242.假設我們要解決一個二類分類問題, 我們已經建立好了模型, 輸出是0或1, 初始時設閾值為0.5, 超過0.5概率估計, 就判別為1, 否則就判別為0 ; 如果我們現在用另一個大於0.5的閾值, 那麼現在關於模型說法, 正確的是 :

1. 模型分類的召回率會降低或不變

2. 模型分類的召回率會升高

3. 模型分類準確率會升高或不變

4. 模型分類準確率會降低

A. 1

B. 2

C.1和3

D. 2和4

E. 以上都不是

答案: C

這篇文章講述了閾值對準確率和召回率影響 :

Confidence Splitting Criterions Can Improve Precision And Recall in Random Forest Classifiers

243.」點擊率問題」是這樣一個預測問題, 99%的人是不會點擊的, 而1%的人是會點擊進去的, 所以這是一個非常不平衡的數據集. 假設, 現在我們已經建了一個模型來分類, 而且有了99%的預測準確率, 我們可以下的結論是 :

A. 模型預測準確率已經很高了, 我們不需要做什麼了

B. 模型預測準確率不高, 我們需要做點什麼改進模型

C. 無法下結論

D. 以上都不對

答案: B

99%的預測準確率可能說明, 你預測的沒有點進去的人很準確 (因為有99%的人是不會點進去的, 這很好預測). 不能說明你的模型對點進去的人預測準確, 所以, 對於這樣的非平衡數據集, 我們要把注意力放在小部分的數據上, 即那些點擊進去的人.

詳細參考: analyticsvidhya.com/blo

244.使用k=1的knn演算法, 下圖二類分類問題, 「+」 和 「o」 分別代表兩個類, 那麼, 用僅拿出一個測試樣本的交叉驗證方法, 交叉驗證的錯誤率是多少 :

A. 0%

B. 100%

C. 0% 到 100%

D. 以上都不是

答案: B

knn演算法就是, 在樣本周圍看k個樣本, 其中大多數樣本的分類是A類, 我們就把這個樣本分成A類. 顯然, k=1 的knn在上圖不是一個好選擇, 分類的錯誤率始終是100%

245.我們想在大數據集上訓練決策樹, 為了使用較少時間, 我們可以 :

A. 增加樹的深度

B. 增加學習率 (learning rate)

C. 減少樹的深度

D. 減少樹的數量

答案: C

A.增加樹的深度, 會導致所有節點不斷分裂, 直到葉子節點是純的為止. 所以, 增加深度, 會延長訓練時間.

B.決策樹沒有學習率參數可以調. (不像集成學習和其它有步長的學習方法)

D.決策樹只有一棵樹, 不是隨機森林.


推薦閱讀:

如何解釋小概率隨機事件?

TAG:SVM | 决策树 | 预测模型 |