BAT機器學習面試1000題系列(286-290)
02-03
286.優化演算法及其優缺點?
溫馨提示:在回答面試官的問題的時候,往往將問題往大的方面去回答,這樣不會陷於小的技術上死磕,最後很容易把自己嗑死了。
1)隨機梯度下降優點:可以一定程度上解決局部最優解的問題
缺點:收斂速度較慢2)梯度下降優點:容易陷入局部最優解缺點:收斂速度較快
3)mini_batch梯度下降綜合隨機梯度下降和批量梯度下降的優缺點,提取的一個中和的方法。4)牛頓法牛頓法在迭代的時候,需要計算Hessian矩陣,當維度較高的時候,計算 Hessian矩陣比較困難。5)擬牛頓法
擬牛頓法是為了改進牛頓法在迭代過程中,計算Hessian矩陣而提取的演算法,它採用的方式是通過逼近Hessian的方式來進行求解。287.RF與GBDT之間的區別與聯繫?
1)相同點:都是由多棵樹組成,最終的結果都是由多棵樹一起決定。2)不同點:a 組成隨機森林的樹可以分類樹也可以是回歸樹,而GBDT只由回歸樹組成
b 組成隨機森林的樹可以並行生成,而GBDT是串列生成c 隨機森林的結果是多數表決表決的,而GBDT則是多棵樹累加之和d 隨機森林對異常值不敏感,而GBDT對異常值比較敏感e 隨機森林是減少模型的方差,而GBDT是減少模型的偏差
f 隨機森林不需要進行特徵歸一化。而GBDT則需要進行特徵歸一化288.兩個變數的 Pearson 相關性係數為零,但這兩個變數的值同樣可以相關。
A 正確B 錯誤
答案為(A):Pearson相關係數只能衡量線性相關性,但無法衡量非線性關係。如y=x^2,x和y有很強的非線性關係。289.下面哪個/些超參數的增加可能會造成隨機森林數據過擬合?A 樹的數量B 樹的深度
C 學習速率
答案為(B):通常情況下,我們增加樹的深度有可能會造成模型過擬合。學習速率並不是隨機森林的超參數。增加樹的數量可能會造成欠擬合。290.目標變數在訓練集上的 8 個實際值 [0,0,0,1,1,1,1,1],目標變數的熵是多少?A. -(5/8 log(5/8) + 3/8 log(3/8))B. 5/8 log(5/8) + 3/8 log(3/8)C. 3/8 log(5/8) + 5/8 log(3/8)D. 5/8 log(3/8) – 3/8 log(5/8)答案為(A)推薦閱讀:
※機器學習筆記8 —— 邏輯回歸模型的代價函數和梯度下降演算法
※神經網路之梯度下降與反向傳播(上)
※詳解softmax函數以及相關求導過程
※梯度下降法和高斯牛頓法的區別在哪裡,各自的優缺點呢?