標籤：

數據挖掘機器學習面試

機器學習/數據挖掘面試總結

05-03

瓜子二手車

一面:

一上來先是楊輝三角給定行和列輸出這個數,很基礎的一道題
開始聊項目,之前做了天池汽車銷量的比賽,問了下主要職責,我從剛開始的數據預處理到最後的模型融合都講了一遍;如何選擇一個模型,為什麼選擇這個模型
問了決策樹,幾個決策樹的優缺點. ID3, C4.5的區別
對聚類有沒有了解,知道那些聚類? 我只了解k-means, 所以就講了這個. 聚類演算法還有很多,得總結總結
為了幾個SQL語句,給個案例,怎麼來實現,基本的select,group by, count,這個確實很基礎
好多不記得了,下次還得面試完即使總結記錄

二面:

問了下一面問的演算法題, 然後問一句英文,翻轉過來,如何實現?
還是那個項目,依舊大概介紹了下,問你們是怎麼構造特徵的,知道第一名是怎麼構造的特徵嗎?第一名確實不知道,只是說了下我們是怎麼構造特徵的
項目中提到了LSTM問有沒有深入了解?深度學習沒怎麼看
LR的損失函數怎麼寫?突然忘了,直接從最大似然估計進行推到損失函數.
隨機森林和GBDT的區別?具體講下GBDT的構造方式
如何確定結果是否過擬合?怎麼處理過擬合與欠擬合?我提到了正則化,然後又問L1和L2的區別?
問了一道題至今沒搞懂,在一個圓圈裡,有無數多個點,均有兩個屬性,現在使用決策樹來進行切分,切6刀,畫出圖?what........
你是怎麼來學機器學習的,看了哪些書?

鏈家:

筆試:

現場筆試,2個小時10道編程題,純手寫

現有5角,2角,1角,例如:輸入6角,輸出:多少種拼湊法
大整數相乘
兩個二進位數,求其漢明距離,例如011和101,漢明距離為2
最小編輯距離演算法
螺旋矩陣,順時針輸出
給定一個單向鏈表,要求刪除所以重複的數據1->1->2變為1->2
去除數組中重複次數大於2的數字,返回新數組
讓數組中所有的奇數都放在偶數前面
給定一個字元串,可以從中刪除一些字元,使得剩下的串是一個迴文串,如何刪除才能使得到的迴文串最長. 例如:abcda 輸出2, google輸出2
忘記(what........)

一面:

1分鐘自我介紹,直接問項目,從剛開始做到最後,全部講一遍,面試官會打斷我,然後問一些問題
如何清理數據,遇到缺失值怎麼處理?以及各種填充方法的使用場景?
如何構造特徵,這個特徵所表達怎樣的含義?
對於特徵選擇,你都用了哪些方法?三種常見的做法是哪些?特徵選擇
有哪些常用評價指標?AUC、Precision、Recall、F-measure、Accuracy、mse、mlse
又是提到了LSTM,對深度學習了解多少?
GBDT和xgboost的區別?為什麼xgboost比GBDT快?這裡問的比較細,建議看下構造過程

華為：

華為走的內推直接進行面試

一面：

問了下平時用的語言，我主要用的python，java也會用的，python用過哪些庫
說一個你最熟悉的項目，說的是天池大賽汽車銷量那個。問到了最終方案，我說用的xgboost（果然讓我把xgboost原理講了一遍，不過這次讓我推到出來，我就從決策樹開始推，然後提升樹，梯度提升樹，再到xgboost）。
說說你這個比賽與其他人比有哪些優勢或者不同之處。提到了特徵選擇和特徵構造，以及用不同的特徵訓練多個模型增加模型的魯棒性。
正則化的原理，如何控制模型過擬合的

一面基本從項目裡面提問，所有所寫項目務必全部吃透，例如為何用這個模型，和其它的模型的區別，為什麼不選用其它模型。

二面（綜合面）：

本科學習情況，研究生學習情況
未來規劃，實習地方的期望
會用C/C++嗎
興趣愛好
我們公司會很辛苦的
balabala......

再次發現很多不足之處，xgboost需多啃幾遍！

後續還會補充其它面試分享

推薦閱讀

Betten：機器學習面試乾貨精講?

zhuanlan.zhihu.com
推薦閱讀：

※推薦系統中的矩陣分解技術
※基礎數據分析——案例分析1（藥品銷售數據分析)
※《Python數據科學實戰》特徵工程
※38套大數據，雲計算，架構，數據分析師，人工智慧，機器學習，深度學習，項目實戰視頻教程？
※數據思維---互聯網時代的必備能力

TAG:機器學習 | 數據挖掘 | 面試 |