BAT機器學習面試1000題系列（236-240）

02-03

236.回歸模型中存在多重共線性, 你如何解決這個問題？

1. 去除這兩個共線性變數

2. 我們可以先去除一個共線性變數

3. 計算VIF(方差膨脹因子), 採取相應措施

4. 為了避免損失信息, 我們可以使用一些正則化方法, 比如, 嶺回歸和lasso回歸.

以下哪些是對的:

A. 1

B. 2

C. 2和3

D. 2, 3和4

答案: D

解決多重公線性, 可以使用相關矩陣去去除相關性高於75%的變數 (有主觀成分). 也可以VIF, 如果VIF值<=4說明相關性不是很高, VIF值>=10說明相關性較高.

我們也可以用嶺回歸和lasso回歸的帶有懲罰正則項的方法. 我們也可以在一些變數上加隨機雜訊, 使得變數之間變得不同, 但是這個方法要小心使用, 可能會影響預測效果。

237.模型的高bias是什麼意思, 我們如何降低它 ?

A. 在特徵空間中減少特徵

B. 在特徵空間中增加特徵

C. 增加數據點

D. B和C

E. 以上所有

答案: B

bias太高說明模型太簡單了, 數據維數不夠, 無法準確預測數據, 所以, 升維吧 !

238.訓練決策樹模型, 屬性節點的分裂, 具有最大信息增益的圖是下圖的哪一個:

A. Outlook

B. Humidity

C. Windy

D. Temperature

答案: A信息增益, 增加平均子集純度, 詳細研究, 請戳下面鏈接:

A Complete Tutorial on Tree Based Modeling from Scratch (in R & Python)

Lecture 4 Decision Trees (2): Entropy, Information Gain, Gain Ratio

239.對於信息增益, 決策樹分裂節點, 下面說法正確的是:

1. 純度高的節點需要更多的信息去區分

2. 信息增益可以用」1比特-熵」獲得

3. 如果選擇一個屬性具有許多歸類值, 那麼這個信息增益是有偏差的

A. 1

B. 2

C.2和3

D. 所有以上

答案: C

詳細研究, 請戳下面鏈接:

A Complete Tutorial on Tree Based Modeling from Scratch (in R & Python)

Lecture 4 Decision Trees (2): Entropy, Information Gain, Gain Ratio

240. 如果SVM模型欠擬合, 以下方法哪些可以改進模型 :

A. 增大懲罰參數C的值

B. 減小懲罰參數C的值

C. 減小核係數(gamma參數)

答案: A

如果SVM模型欠擬合, 我們可以調高參數C的值, 使得模型複雜度上升.LibSVM中，SVM的目標函數是：

而, gamma參數是你選擇徑向基函數作為kernel後,該函數自帶的一個參數.隱含地決定了數據映射到新的特徵空間後的分布.

gamma參數與C參數無關. gamma參數越高, 模型越複雜.