data scientist 有什麼常見 machine learning 相關的面試問題?


謝邀

適合面試ML的題目可借鑒性並不大,因為很多時候你懂了就是懂了,不懂就是不懂,刷題並沒有很大的幫助。努力啃課本,看論文,看公開課,才是王道。

要說題目哪裡多的話,其實可以參考各大經典教材的習題,比如PRML的課後習題。

另一方面,我在我之前面試的過程中也被問了不少ML的題目,原文可參考:Data Scientist 面試都面了哪些題? - Hello陳然! - 知乎專欄

Machine Learning相關的問題就太多了,我稍微列舉一些我遇到過的問題:

* 一些分布參數的最大似然估計之類的東西是什麼,如何推導

* LR SVM的本質區別是什麼

* 哪些Regularization,都各有什麼性質

* 對於Naive Bayes的理解,NB有哪些局限性

* Random Forest 為什麼很好用

* 如何做Model Selection

* 給一組數據,問Decision Tree,LR,NB,SVM等演算法學出來都是什麼樣子的,是否學不出來,怎麼處理,有哪些Kernel,在圖上畫線怎麼畫

還有被問到了一些比較難的問題,比如:

* 對於Graphical Model的理解,寫出LDA的公式,給出Topic Model 生成過程等的

* PageRank的原理和公式推導

----

陳然_Ran的微博


舉個例子。為了敘述方便「我」代表面試官,「你」代表被面試者。

你用過什麼模型?

邏輯回歸 隨機森林 支持向量機 神經網路等等

這些模型都有現成的package,你有沒有自己customize過什麼模型?

我以前自己設計過一個kernel,用svm加這個kernel解決了什麼什麼問題。

那你是自己寫objective function了?那你解決的是primal 還是dual問題?

是的,自己寫。dual

那你用的什麼演算法解決的你的優化問題?描述一下你設計的什麼kernel?

呃呃呃,想不起來了。。。

我靠,這就尷尬了,有時候我們建模,尤其是有時間序列,是必須自己寫目標函數,自己解優化問題的呀。他就是隨便說個啟發式演算法我也認了。這麼回答,我怎麼能確定這哥們會做參數估計呢。我甚至怎麼能確定他能寫出來目標函數呢。

我自己以前也不注意,面試時候不好好準備,瞎答。東西我確實做過,就是想不起來了。現在想想,都是浪費機會。


推薦閱讀:

將來用人工智慧管理網民是否可行?
能不能用機器學習征服耳機/音響玄學?
《TensorFlow實戰》和《TensorFlow:實戰google深度學習框架》兩本書有何異同?
怎麼理解在模型中使用L1+L2正則化?
支持向量機(SVM)方法在預測方面有什麼優缺點?

TAG:機器學習 | 數據科學家 |