機器學習/數據挖掘面試總結
05-03
瓜子二手車
一面:
- 一上來先是楊輝三角給定行和列輸出這個數,很基礎的一道題
- 開始聊項目,之前做了天池汽車銷量的比賽,問了下主要職責,我從剛開始的數據預處理到最後的模型融合都講了一遍;如何選擇一個模型,為什麼選擇這個模型
- 問了決策樹,幾個決策樹的優缺點. ID3, C4.5的區別
- 對聚類有沒有了解,知道那些聚類? 我只了解k-means, 所以就講了這個. 聚類演算法還有很多,得總結總結
- 為了幾個SQL語句,給個案例,怎麼來實現,基本的select,group by, count,這個確實很基礎
- 好多不記得了,下次還得面試完即使總結記錄
二面:
- 問了下一面問的演算法題, 然後問一句英文,翻轉過來,如何實現?
- 還是那個項目,依舊大概介紹了下,問你們是怎麼構造特徵的,知道第一名是怎麼構造的特徵嗎?第一名確實不知道,只是說了下我們是怎麼構造特徵的
- 項目中提到了LSTM問有沒有深入了解?深度學習沒怎麼看
- LR的損失函數怎麼寫?突然忘了,直接從最大似然估計進行推到損失函數.
- 隨機森林和GBDT的區別?具體講下GBDT的構造方式
- 如何確定結果是否過擬合?怎麼處理過擬合與欠擬合?我提到了正則化,然後又問L1和L2的區別?
- 問了一道題至今沒搞懂,在一個圓圈裡,有無數多個點,均有兩個屬性,現在使用決策樹來進行切分,切6刀,畫出圖?what........
- 你是怎麼來學機器學習的,看了哪些書?
鏈家:
筆試:
現場筆試,2個小時10道編程題,純手寫
- 現有5角,2角,1角,例如:輸入6角,輸出:多少種拼湊法
- 大整數相乘
- 兩個二進位數,求其漢明距離,例如011和101,漢明距離為2
- 最小編輯距離演算法
- 螺旋矩陣,順時針輸出
- 給定一個單向鏈表,要求刪除所以重複的數據1->1->2變為1->2
- 去除數組中重複次數大於2的數字,返回新數組
- 讓數組中所有的奇數都放在偶數前面
- 給定一個字元串,可以從中刪除一些字元,使得剩下的串是一個迴文串,如何刪除才能使得到的迴文串最長. 例如:abcda 輸出2, google輸出2
- 忘記(what........)
一面:
- 1分鐘自我介紹,直接問項目,從剛開始做到最後,全部講一遍,面試官會打斷我,然後問一些問題
- 如何清理數據,遇到缺失值怎麼處理?以及各種填充方法的使用場景?
- 如何構造特徵,這個特徵所表達怎樣的含義?
- 對於特徵選擇,你都用了哪些方法?三種常見的做法是哪些?特徵選擇
- 有哪些常用評價指標?AUC、Precision、Recall、F-measure、Accuracy、mse、mlse
- 又是提到了LSTM,對深度學習了解多少?
- GBDT和xgboost的區別?為什麼xgboost比GBDT快?這裡問的比較細,建議看下構造過程
華為 :
華為走的內推直接進行面試
一面:
- 問了下平時用的語言,我主要用的python,java也會用的,python用過哪些庫
- 說一個你最熟悉的項目,說的是天池大賽汽車銷量那個。問到了最終方案,我說用的xgboost(果然讓我把xgboost原理講了一遍,不過這次讓我推到出來,我就從決策樹開始推,然後提升樹,梯度提升樹,再到xgboost)。
- 說說你這個比賽與其他人比有哪些優勢或者不同之處。提到了特徵選擇和特徵構造,以及用不同的特徵訓練多個模型增加模型的魯棒性。
- 正則化的原理,如何控制模型過擬合的
一面基本從項目裡面提問,所有所寫項目務必全部吃透,例如為何用這個模型,和其它的模型的區別,為什麼不選用其它模型。
二面(綜合面):
- 本科學習情況,研究生學習情況
- 未來規劃,實習地方的期望
- 會用C/C++嗎
- 興趣愛好
- 我們公司會很辛苦的
- balabala......
再次發現很多不足之處,xgboost需多啃幾遍!
後續還會補充其它面試分享
推薦閱讀
Betten:機器學習面試乾貨精講
推薦閱讀:
※推薦系統中的矩陣分解技術
※基礎數據分析——案例分析1(藥品銷售數據分析)
※《Python數據科學實戰》 特徵工程
※38套大數據,雲計算,架構,數據分析師,人工智慧,機器學習,深度學習,項目實戰視頻教程?
※數據思維---互聯網時代的必備能力