BAT機器學習面試1000題系列(236-240)
02-03
236.回歸模型中存在多重共線性, 你如何解決這個問題?
1. 去除這兩個共線性變數
2. 我們可以先去除一個共線性變數 3. 計算VIF(方差膨脹因子), 採取相應措施 4. 為了避免損失信息, 我們可以使用一些正則化方法, 比如, 嶺回歸和lasso回歸.以下哪些是對的:
A. 1
B. 2 C. 2和3 D. 2, 3和4答案: D
解決多重公線性, 可以使用相關矩陣去去除相關性高於75%的變數 (有主觀成分). 也可以VIF, 如果VIF值<=4說明相關性不是很高, VIF值>=10說明相關性較高. 我們也可以用 嶺回歸和lasso回歸的帶有懲罰正則項的方法. 我們也可以在一些變數上加隨機雜訊, 使得變數之間變得不同, 但是這個方法要小心使用, 可能會影響預測效果。237.模型的高bias是什麼意思, 我們如何降低它 ?
A. 在特徵空間中減少特徵
B. 在特徵空間中增加特徵 C. 增加數據點 D. B和C E. 以上所有答案: B
bias太高說明模型太簡單了, 數據維數不夠, 無法準確預測數據, 所以, 升維吧 !238.訓練決策樹模型, 屬性節點的分裂, 具有最大信息增益的圖是下圖的哪一個:
A. Outlook
B. Humidity C. Windy D. Temperature答案: A信息增益, 增加平均子集純度, 詳細研究, 請戳下面鏈接:
A Complete Tutorial on Tree Based Modeling from Scratch (in R & Python)Lecture 4 Decision Trees (2): Entropy, Information Gain, Gain Ratio239.對於信息增益, 決策樹分裂節點, 下面說法正確的是:
1. 純度高的節點需要更多的信息去區分
2. 信息增益可以用」1比特-熵」獲得3. 如果選擇一個屬性具有許多歸類值, 那麼這個信息增益是有偏差的
A. 1
B. 2 C.2和3 D. 所有以上 答案: C 詳細研究, 請戳下面鏈接: A Complete Tutorial on Tree Based Modeling from Scratch (in R & Python) Lecture 4 Decision Trees (2): Entropy, Information Gain, Gain Ratio240. 如果SVM模型欠擬合, 以下方法哪些可以改進模型 :
A. 增大懲罰參數C的值
B. 減小懲罰參數C的值 C. 減小核係數(gamma參數)答案: A
如果SVM模型欠擬合, 我們可以調高參數C的值, 使得模型複雜度上升.LibSVM中,SVM的目標函數是:
而, gamma參數是你選擇徑向基函數作為kernel後,該函數自帶的一個參數.隱含地決定了數據映射到新的特徵空間後的分布.
gamma參數與C參數無關. gamma參數越高, 模型越複雜.推薦閱讀:
※線性回歸模型 為什麼要求隨機誤差的均值為0?
※Logistic 回歸模型的參數估計為什麼不能採用最小二乘法?
※為什麼變數間的相關關係會使變數係數不能通過t檢驗?
※數據嗨客 | 第2期:線性回歸