BAT機器學習面試1000題系列（286-290）

02-03

286.優化演算法及其優缺點？

溫馨提示：在回答面試官的問題的時候，往往將問題往大的方面去回答，這樣不會陷於小的技術上死磕，最後很容易把自己嗑死了。

1）隨機梯度下降

優點：可以一定程度上解決局部最優解的問題

缺點：收斂速度較慢

2）梯度下降

優點：容易陷入局部最優解

缺點：收斂速度較快

3）mini_batch梯度下降

綜合隨機梯度下降和批量梯度下降的優缺點，提取的一個中和的方法。

4）牛頓法

牛頓法在迭代的時候，需要計算Hessian矩陣，當維度較高的時候，計算 Hessian矩陣比較困難。

5）擬牛頓法

擬牛頓法是為了改進牛頓法在迭代過程中，計算Hessian矩陣而提取的演算法，它採用的方式是通過逼近Hessian的方式來進行求解。

287.RF與GBDT之間的區別與聯繫？

1）相同點：都是由多棵樹組成，最終的結果都是由多棵樹一起決定。

2）不同點：

a 組成隨機森林的樹可以分類樹也可以是回歸樹，而GBDT只由回歸樹組成

b 組成隨機森林的樹可以並行生成，而GBDT是串列生成

c 隨機森林的結果是多數表決表決的，而GBDT則是多棵樹累加之和

d 隨機森林對異常值不敏感，而GBDT對異常值比較敏感

e 隨機森林是減少模型的方差，而GBDT是減少模型的偏差

f 隨機森林不需要進行特徵歸一化。而GBDT則需要進行特徵歸一化

288.兩個變數的 Pearson 相關性係數為零，但這兩個變數的值同樣可以相關。

A 正確

B 錯誤

答案為（A）：Pearson相關係數只能衡量線性相關性，但無法衡量非線性關係。如y=x^2，x和y有很強的非線性關係。

289.下面哪個/些超參數的增加可能會造成隨機森林數據過擬合？

A 樹的數量

B 樹的深度

C 學習速率

答案為（B）：通常情況下，我們增加樹的深度有可能會造成模型過擬合。學習速率並不是隨機森林的超參數。增加樹的數量可能會造成欠擬合。

290.目標變數在訓練集上的 8 個實際值 [0,0,0,1,1,1,1,1]，目標變數的熵是多少？

A. -(5/8 log(5/8) + 3/8 log(3/8))

B. 5/8 log(5/8) + 3/8 log(3/8)

C. 3/8 log(5/8) + 5/8 log(3/8)

D. 5/8 log(3/8) – 3/8 log(5/8)

答案為（A）