BAT機器學習面試1000題系列(286-290)

286.優化演算法及其優缺點?

溫馨提示:在回答面試官的問題的時候,往往將問題往大的方面去回答,這樣不會陷於小的技術上死磕,最後很容易把自己嗑死了。

1)隨機梯度下降

優點:可以一定程度上解決局部最優解的問題

缺點:收斂速度較慢

2)梯度下降

優點:容易陷入局部最優解

缺點:收斂速度較快

3)mini_batch梯度下降

綜合隨機梯度下降和批量梯度下降的優缺點,提取的一個中和的方法。

4)牛頓法

牛頓法在迭代的時候,需要計算Hessian矩陣,當維度較高的時候,計算 Hessian矩陣比較困難。

5)擬牛頓法

擬牛頓法是為了改進牛頓法在迭代過程中,計算Hessian矩陣而提取的演算法,它採用的方式是通過逼近Hessian的方式來進行求解。

287.RF與GBDT之間的區別與聯繫?

1)相同點:都是由多棵樹組成,最終的結果都是由多棵樹一起決定。

2)不同點:

a 組成隨機森林的樹可以分類樹也可以是回歸樹,而GBDT只由回歸樹組成

b 組成隨機森林的樹可以並行生成,而GBDT是串列生成

c 隨機森林的結果是多數表決表決的,而GBDT則是多棵樹累加之和

d 隨機森林對異常值不敏感,而GBDT對異常值比較敏感

e 隨機森林是減少模型的方差,而GBDT是減少模型的偏差

f 隨機森林不需要進行特徵歸一化。而GBDT則需要進行特徵歸一化

288.兩個變數的 Pearson 相關性係數為零,但這兩個變數的值同樣可以相關。

A 正確

B 錯誤

答案為(A):Pearson相關係數只能衡量線性相關性,但無法衡量非線性關係。如y=x^2,x和y有很強的非線性關係。

289.下面哪個/些超參數的增加可能會造成隨機森林數據過擬合?

A 樹的數量

B 樹的深度

C 學習速率

答案為(B):通常情況下,我們增加樹的深度有可能會造成模型過擬合。學習速率並不是隨機森林的超參數。增加樹的數量可能會造成欠擬合。

290.目標變數在訓練集上的 8 個實際值 [0,0,0,1,1,1,1,1],目標變數的熵是多少?

A. -(5/8 log(5/8) + 3/8 log(3/8))

B. 5/8 log(5/8) + 3/8 log(3/8)

C. 3/8 log(5/8) + 5/8 log(3/8)

D. 5/8 log(3/8) – 3/8 log(5/8)

答案為(A)


推薦閱讀:

機器學習筆記8 —— 邏輯回歸模型的代價函數和梯度下降演算法
神經網路之梯度下降與反向傳播(上)
詳解softmax函數以及相關求導過程
梯度下降法和高斯牛頓法的區別在哪裡,各自的優缺點呢?

TAG:梯度下降 | gbdt | 在线机器学习 |