BAT機器學習面試1000題系列(241-245)
241.下圖是同一個SVM模型, 但是使用了不同的徑向基核函數的gamma參數, 依次是g1, g2, g3 , 下面大小比較正確的是 :
A. g1 > g2 > g3
B. g1 = g2 = g3
C. g1 < g2 < g3
D. g1 >= g2 >= g3
E. g1 <= g2 <= g3
答案: C
242.假設我們要解決一個二類分類問題, 我們已經建立好了模型, 輸出是0或1, 初始時設閾值為0.5, 超過0.5概率估計, 就判別為1, 否則就判別為0 ; 如果我們現在用另一個大於0.5的閾值, 那麼現在關於模型說法, 正確的是 :
1. 模型分類的召回率會降低或不變
2. 模型分類的召回率會升高
3. 模型分類準確率會升高或不變
4. 模型分類準確率會降低
A. 1
B. 2
C.1和3
D. 2和4
E. 以上都不是
答案: C
這篇文章講述了閾值對準確率和召回率影響 :
Confidence Splitting Criterions Can Improve Precision And Recall in Random Forest Classifiers
243.」點擊率問題」是這樣一個預測問題, 99%的人是不會點擊的, 而1%的人是會點擊進去的, 所以這是一個非常不平衡的數據集. 假設, 現在我們已經建了一個模型來分類, 而且有了99%的預測準確率, 我們可以下的結論是 :
A. 模型預測準確率已經很高了, 我們不需要做什麼了
B. 模型預測準確率不高, 我們需要做點什麼改進模型
C. 無法下結論
D. 以上都不對
答案: B
99%的預測準確率可能說明, 你預測的沒有點進去的人很準確 (因為有99%的人是不會點進去的, 這很好預測). 不能說明你的模型對點進去的人預測準確, 所以, 對於這樣的非平衡數據集, 我們要把注意力放在小部分的數據上, 即那些點擊進去的人.
詳細參考: https://www.analyticsvidhya.com/blog/2016/03/practical-guide-deal-imbalanced-classification-problems/
244.使用k=1的knn演算法, 下圖二類分類問題, 「+」 和 「o」 分別代表兩個類, 那麼, 用僅拿出一個測試樣本的交叉驗證方法, 交叉驗證的錯誤率是多少 :
A. 0%
B. 100%
C. 0% 到 100%
D. 以上都不是
答案: B
knn演算法就是, 在樣本周圍看k個樣本, 其中大多數樣本的分類是A類, 我們就把這個樣本分成A類. 顯然, k=1 的knn在上圖不是一個好選擇, 分類的錯誤率始終是100%
245.我們想在大數據集上訓練決策樹, 為了使用較少時間, 我們可以 :
A. 增加樹的深度
B. 增加學習率 (learning rate)
C. 減少樹的深度
D. 減少樹的數量
答案: C
A.增加樹的深度, 會導致所有節點不斷分裂, 直到葉子節點是純的為止. 所以, 增加深度, 會延長訓練時間.
B.決策樹沒有學習率參數可以調. (不像集成學習和其它有步長的學習方法)
D.決策樹只有一棵樹, 不是隨機森林.
推薦閱讀: