BAT機器學習面試1000題(401~405題)
點擊上方藍字關注
BAT機器學習面試1000題(401~405題)
401題
對於維度極低的特徵,選擇線性還是非線性分類器?
點擊下方空白區域查看答案▼
解析:
非線性分類器,低維空間可能很多特徵都跑到一起了,導致線性不可分。
1.如果Feature的數量很大,跟樣本數量差不多,這時候選用LR或者是Linear Kernel的SVM
2. 如果Feature的數量比較小,樣本數量一般,不算大也不算小,選用SVM+Gaussian Kernel
3. 如果Feature的數量比較小,而樣本數量很多,需要手工添加一些feature變成第一種情況。
402題
請問怎麼處理特徵向量的缺失值
點擊下方空白區域查看答案 ▼
解析:
一方面,缺失值較多.直接將該特徵捨棄掉,否則可能反倒會帶入較大的noise,對結果造成不良影響。
另一方面缺失值較少,其餘的特徵缺失值都在10%以內,我們可以採取很多的方式來處理:
1) 把NaN直接作為一個特徵,假設用0表示;
2) 用均值填充;
3) 用隨機森林等演算法預測填充。
403題
SVM、LR、決策樹的對比。
點擊下方空白區域查看答案▼
解析:
模型複雜度:SVM支持核函數,可處理線性非線性問題;LR模型簡單,訓練速度快,適合處理線性問題;決策樹容易過擬合,需要進行剪枝
損失函數:SVM hinge loss; LR L2正則化; adaboost 指數損失
數據敏感度:SVM添加容忍度對outlier不敏感,只關心支持向量,且需要先做歸一化; LR對遠點敏感
數據量:數據量大就用LR,數據量小且特徵少就用SVM非線性核
404題
什麼是ill-condition病態問題?
點擊下方空白區域查看答案▼
解析:
訓練完的模型,測試樣本稍作修改就會得到差別很大的結果,就是病態問題,模型對未知數據的預測能力很差,即泛化誤差大。
405題
簡述KNN最近鄰分類演算法的過程?
點擊下方空白區域查看答案 ▼
解析:
1.計算測試樣本和訓練樣本中每個樣本點的距離(常見的距離度量有歐式距離,馬氏距離等);
2. 對上面所有的距離值進行排序;
3. 選前 k 個最小距離的樣本;
4. 根據這 k 個樣本的標籤進行投票,得到最後的分類類別;
題目來源
:七月在線官網(https://www.julyedu.com/)——面試題庫——面試大題——機器學習分享一哈:
喜歡刷題的你,
一定不要錯過啦
【機器學習·30天刷題團】
超300道ML優質題目,
每天限刷10道
班主任督學,專業講師答疑
一起營造最好的刷題體驗
刷題鏈接:
https://www.julyedu.com/course/getDetail/127
今日推薦
我們的
【
計算機視覺第二期
】
正在火熱報名中喔
還沒報名的小夥伴們
抓緊時間嘍
2人及2人以上組團
立減100元
想組團者可以添加客服:
julyedukefu_02
讓客服幫忙組團享受優惠喔
點擊下方「
閱讀原文
」
可在線報名
更多資訊
請戳一戳
往期推薦
還在擔心個稅?你的同齡人早已年薪百萬了!
一圖了解整個機器學習的核心知識體系(建議收藏)
kaggle大殺器之十大深度學習技巧,你了解多少?
深度學習難嗎?如果你連這25個概念都不知道,當然難!
45萬AI面經 | 面試offer拿不停,人稱「offer收割機」
【乾貨合集】關於支持向量機(SVM)的原理,你了解多少?(萬字長文 速收)
點擊「閱讀原文」,可在線報名
推薦閱讀:
※考前學習動力提升與放鬆輔導(下)
※【人生智慧】從兩個水桶的故事學習如何做個好領導
※孩子學習時間總不夠用怎麼辦?這些方法教你把一天變兩天!
※不寐方121首學習輯要
※【書法學習】趙孟頫楷書結構九十二法,值得學習!