BAT機器學習面試1000題(401~405題)

點擊上方藍字關注

BAT機器學習面試1000題(401~405題)

401題

對於維度極低的特徵,選擇線性還是非線性分類器?

點擊下方空白區域查看答案▼

解析:

非線性分類器,低維空間可能很多特徵都跑到一起了,導致線性不可分。

 

1.如果Feature的數量很大,跟樣本數量差不多,這時候選用LR或者是Linear Kernel的SVM

2. 如果Feature的數量比較小,樣本數量一般,不算大也不算小,選用SVM+Gaussian Kernel 

3. 如果Feature的數量比較小,而樣本數量很多,需要手工添加一些feature變成第一種情況。

402題

請問怎麼處理特徵向量的缺失值

點擊下方空白區域查看答案 ▼

解析:

一方面,缺失值較多.直接將該特徵捨棄掉,否則可能反倒會帶入較大的noise,對結果造成不良影響。 

另一方面缺失值較少,其餘的特徵缺失值都在10%以內,我們可以採取很多的方式來處理: 

1) 把NaN直接作為一個特徵,假設用0表示;

 2) 用均值填充;

 3) 用隨機森林等演算法預測填充。

403題

SVM、LR、決策樹的對比。

點擊下方空白區域查看答案▼

解析:

模型複雜度:SVM支持核函數,可處理線性非線性問題;LR模型簡單,訓練速度快,適合處理線性問題;決策樹容易過擬合,需要進行剪枝 

損失函數:SVM hinge loss; LR L2正則化; adaboost 指數損失 

數據敏感度:SVM添加容忍度對outlier不敏感,只關心支持向量,且需要先做歸一化; LR對遠點敏感

 數據量:數據量大就用LR,數據量小且特徵少就用SVM非線性核

404題

什麼是ill-condition病態問題?

點擊下方空白區域查看答案▼

解析:

訓練完的模型,測試樣本稍作修改就會得到差別很大的結果,就是病態問題,模型對未知數據的預測能力很差,即泛化誤差大。

405題

簡述KNN最近鄰分類演算法的過程?

點擊下方空白區域查看答案 ▼

解析:

1.計算測試樣本和訓練樣本中每個樣本點的距離(常見的距離度量有歐式距離,馬氏距離等);

2. 對上面所有的距離值進行排序;

3. 選前 k 個最小距離的樣本;

4. 根據這 k 個樣本的標籤進行投票,得到最後的分類類別;

題目來源

:七月在線官網(https://www.julyedu.com/)——面試題庫——面試大題——機器學習

分享一哈:

喜歡刷題的你,

一定不要錯過啦

【機器學習·30天刷題團】

超300道ML優質題目,

每天限刷10道

班主任督學,專業講師答疑

一起營造最好的刷題體驗

刷題鏈接:

https://www.julyedu.com/course/getDetail/127

今日推薦

我們的

計算機視覺第二期

正在火熱報名中喔

還沒報名的小夥伴們

抓緊時間嘍

2人及2人以上組團

立減100元

想組團者可以添加客服:

julyedukefu_02

讓客服幫忙組團享受優惠喔

點擊下方「

閱讀原文

可在線報名

 

更多資訊

 請戳一戳

往期推薦

還在擔心個稅?你的同齡人早已年薪百萬了!

一圖了解整個機器學習的核心知識體系(建議收藏)

kaggle大殺器之十大深度學習技巧,你了解多少?

深度學習難嗎?如果你連這25個概念都不知道,當然難!

45萬AI面經 |  面試offer拿不停,人稱「offer收割機」

【乾貨合集】關於支持向量機(SVM)的原理,你了解多少?(萬字長文 速收)

點擊「閱讀原文」,可在線報名

推薦閱讀:

考前學習動力提升與放鬆輔導(下)
【人生智慧】從兩個水桶的故事學習如何做個好領導
孩子學習時間總不夠用怎麼辦?這些方法教你把一天變兩天!
不寐方121首學習輯要
【書法學習】趙孟頫楷書結構九十二法,值得學習!

TAG:學習 | 機器學習 | 面試 | 機器 |