BAT機器學習面試1000題(406~410題)

點擊上方  

?

   藍字關注七月在線實驗室

誠邀愛刷題的你,加入【

機器學習·30天刷題團

】,利用碎片化時間,每天15分鐘,掃描文末海報二維碼,了解刷題團詳情。 

BAT機器學習面試1000題(406~410題)

406題

常用的聚類劃分方式有哪些?列舉代表演算法。

點擊下方空白區域查看答案▼

解析:

1.基於劃分的聚類:K-means,k-medoids,CLARANS。

2. 基於層次的聚類:AGNES(自底向上),DIANA(自上向下)。 

3. 基於密度的聚類:DBSACN,OPTICS,BIRCH(CF-Tree),CURE。

4. 基於網格的方法:STING,WaveCluster。 

5. 基於模型的聚類:EM,SOM,COBWEB。

407題

什麼是偏差與方差?

點擊下方空白區域查看答案 ▼

解析:

泛化誤差可以分解成偏差的平方加上方差加上雜訊。偏差度量了學習演算法的期望預測和真實結果的偏離程度,刻畫了學習演算法本身的擬合能力,方差度量了同樣大小的訓練集的變動所導致的學習性能的變化,刻畫了數據擾動所造成的影響,雜訊表達了當前任務上任何學習演算法所能達到的期望泛化誤差下界,刻畫了問題本身的難度。

偏差和方差一般稱為bias和variance,一般訓練程度越強,偏差越小,方差越大,泛化誤差一般在中間有一個最小值,如果偏差較大,方差較小,此時一般稱為欠擬合,而偏差較小,方差較大稱為過擬合。

 偏差:

方差:

408題

解決bias和Variance問題的方法是什麼?

點擊下方空白區域查看答案▼

解析:

High bias解決方案:Boosting、複雜模型(非線性模型、增加神經網路中的層)、更多特徵High Variance解決方案:agging、簡化模型、降維 

具體而言 

高偏差, 可以用boosting模型, 對預測殘差進行優化, 直接降低了偏差. 也可以用高模型容量的複雜模型(比如非線性模型, 深度神經網路), 更多的特徵, 來增加對樣本的擬合度.高方差, 一般使用平均值法, 比如bagging, 或者模型簡化/降維方法, 來降低方差. 

高偏差和高方差都是不好的, 我們應該加以避免. 但是它們又是此消彼長的關係, 所以必須權衡考慮. 一般情況下, 交叉驗證訓練可以取得比較好的平衡:將原始樣本均分成K組, 將每組樣本分別做一次驗證集,其餘的K-1組子集數據作為訓練集,這樣會得到K個模型, 這K個模型可以並發訓練以加速. 用這K個模型最終的驗證集的分類準確率的平均數作為此K-CV下分類器的性能指標. K一般大於等於3, 而K-CV 的實驗共需要建立 k 個models,並計算 k 次 test sets 的平均預測正確率。 

在實作上,k 要夠大才能使各回合中的 訓練樣本數夠多,一般而言 k=10 (作為一個經驗參數)算是相當足夠了。

409題

採用 EM 演算法求解的模型有哪些,為什麼不用牛頓法或梯度下降法?

點擊下方空白區域查看答案▼

解析:

用EM演算法求解的模型一般有GMM或者協同過濾,k-means其實也屬於EM。EM演算法一定會收斂,但是可能收斂到局部最優。由於求和的項數將隨著隱變數的數目指數上升,會給梯度計算帶來麻煩。

410題

xgboost怎麼給特徵評分?

點擊下方空白區域查看答案 ▼

解析:

在訓練的過程中,通過Gini指數選擇分離點的特徵,一個特徵被選中的次數越多,那麼該特徵評分越高。

[python] # feature importance  print(model.feature_importances_)   

#plot pyplot.bar(range(len(model.feature_importances_)), model.feature_importances_)  pyplot.show()  ==========   

# plot feature importance  plot_importance(model)   

pyplot.show()

題目來源

:七月在線官網(https://www.julyedu.com/)——面試題庫——面試大題——機器學習

今日推薦

我們的

計算機視覺第二期

正在火熱報名中喔

還沒報名的小夥伴們

抓緊時間嘍

2人及2人以上組團

立減100元

想組團者可以添加客服:

julyedukefu_02

讓客服幫忙組團享受優惠喔

點擊下方「

閱讀原文

可在線報名

 分享一哈:

喜歡刷題的你,

一定不要錯過啦

【機器學習·30天刷題團】

超300道ML優質題目,

每天限刷10道

班主任督學,專業講師答疑

一起營造最好的刷題體驗

掃碼立即參加

往期推薦

雲詞圖,帶你傳播社會正能量!(崑山正當防衛被判無罪)

還在擔心個稅?你的同齡人早已年薪百萬了!

一圖了解整個機器學習的核心知識體系(建議收藏)

kaggle大殺器之十大深度學習技巧,你了解多少?

深度學習難嗎?如果你連這25個概念都不知道,當然難!

45萬AI面經 |  面試offer拿不停,人稱「offer收割機」

【乾貨合集】關於支持向量機(SVM)的原理,你了解多少?(萬字長文 速收)

點擊「閱讀原文」,可在線報名

推薦閱讀:

面試的時候,被問對老闆怎麼看的?你們都是怎麼回答的?
如何「治療」面試答題中的啰嗦重複
星座秘籍:十二星座必知的面試風水秘籍
面試寶典
面試中想不到的套路:"如何自證沒有精神病?"

TAG:學習 | 機器學習 | 面試 | 機器 |