機器學習/數據挖掘面試總結

瓜子二手車

一面:

  1. 一上來先是楊輝三角給定行和列輸出這個數,很基礎的一道題
  2. 開始聊項目,之前做了天池汽車銷量的比賽,問了下主要職責,我從剛開始的數據預處理到最後的模型融合都講了一遍;如何選擇一個模型,為什麼選擇這個模型
  3. 問了決策樹,幾個決策樹的優缺點. ID3, C4.5的區別
  4. 對聚類有沒有了解,知道那些聚類? 我只了解k-means, 所以就講了這個. 聚類演算法還有很多,得總結總結
  5. 為了幾個SQL語句,給個案例,怎麼來實現,基本的select,group by, count,這個確實很基礎
  6. 好多不記得了,下次還得面試完即使總結記錄

二面:

  1. 問了下一面問的演算法題, 然後問一句英文,翻轉過來,如何實現?
  2. 還是那個項目,依舊大概介紹了下,問你們是怎麼構造特徵的,知道第一名是怎麼構造的特徵嗎?第一名確實不知道,只是說了下我們是怎麼構造特徵的
  3. 項目中提到了LSTM問有沒有深入了解?深度學習沒怎麼看
  4. LR的損失函數怎麼寫?突然忘了,直接從最大似然估計進行推到損失函數.
  5. 隨機森林和GBDT的區別?具體講下GBDT的構造方式
  6. 如何確定結果是否過擬合?怎麼處理過擬合與欠擬合?我提到了正則化,然後又問L1和L2的區別?
  7. 問了一道題至今沒搞懂,在一個圓圈裡,有無數多個點,均有兩個屬性,現在使用決策樹來進行切分,切6刀,畫出圖?what........
  8. 你是怎麼來學機器學習的,看了哪些書?

鏈家:

筆試:

現場筆試,2個小時10道編程題,純手寫

  1. 現有5角,2角,1角,例如:輸入6角,輸出:多少種拼湊法
  2. 大整數相乘
  3. 兩個二進位數,求其漢明距離,例如011和101,漢明距離為2
  4. 最小編輯距離演算法
  5. 螺旋矩陣,順時針輸出
  6. 給定一個單向鏈表,要求刪除所以重複的數據1->1->2變為1->2
  7. 去除數組中重複次數大於2的數字,返回新數組
  8. 讓數組中所有的奇數都放在偶數前面
  9. 給定一個字元串,可以從中刪除一些字元,使得剩下的串是一個迴文串,如何刪除才能使得到的迴文串最長. 例如:abcda 輸出2, google輸出2
  10. 忘記(what........)

一面:

  1. 1分鐘自我介紹,直接問項目,從剛開始做到最後,全部講一遍,面試官會打斷我,然後問一些問題
  2. 如何清理數據,遇到缺失值怎麼處理?以及各種填充方法的使用場景?
  3. 如何構造特徵,這個特徵所表達怎樣的含義?
  4. 對於特徵選擇,你都用了哪些方法?三種常見的做法是哪些?特徵選擇
  5. 有哪些常用評價指標?AUC、Precision、Recall、F-measure、Accuracy、mse、mlse
  6. 又是提到了LSTM,對深度學習了解多少?
  7. GBDT和xgboost的區別?為什麼xgboost比GBDT快?這裡問的比較細,建議看下構造過程

華為 :

華為走的內推直接進行面試

一面:

  1. 問了下平時用的語言,我主要用的python,java也會用的,python用過哪些庫
  2. 說一個你最熟悉的項目,說的是天池大賽汽車銷量那個。問到了最終方案,我說用的xgboost(果然讓我把xgboost原理講了一遍,不過這次讓我推到出來,我就從決策樹開始推,然後提升樹,梯度提升樹,再到xgboost)。
  3. 說說你這個比賽與其他人比有哪些優勢或者不同之處。提到了特徵選擇和特徵構造,以及用不同的特徵訓練多個模型增加模型的魯棒性。
  4. 正則化的原理,如何控制模型過擬合的

一面基本從項目裡面提問,所有所寫項目務必全部吃透,例如為何用這個模型,和其它的模型的區別,為什麼不選用其它模型。

二面(綜合面):

  1. 本科學習情況,研究生學習情況
  2. 未來規劃,實習地方的期望
  3. 會用C/C++嗎
  4. 興趣愛好
  5. 我們公司會很辛苦的
  6. balabala......

再次發現很多不足之處,xgboost需多啃幾遍!

後續還會補充其它面試分享

推薦閱讀

Betten:機器學習面試乾貨精講?

zhuanlan.zhihu.com圖標
推薦閱讀:

推薦系統中的矩陣分解技術
基礎數據分析——案例分析1(藥品銷售數據分析)
《Python數據科學實戰》 特徵工程
38套大數據,雲計算,架構,數據分析師,人工智慧,機器學習,深度學習,項目實戰視頻教程?
數據思維---互聯網時代的必備能力

TAG:機器學習 | 數據挖掘 | 面試 |