BAT機器學習面試1000題（421~425題）

09-09

點擊上方

藍字關注七月在線實驗室

BAT機器學習面試1000題（421~425題）

421題

解釋樸素貝葉斯演算法裡面的先驗概率、似然估計和邊際似然估計？

點擊下方空白區域查看答案▼

解析：

先驗概率就是因變數（二分法）在數據集中的比例。這是在你沒有任何進一步的信息的時候，是對分類能做出的最接近的猜測。

例如，在一個數據集中，因變數是二進位的（1和0）。例如，1（垃圾郵件）的比例為70％和0（非垃圾郵件）的為30％。因此，我們可以估算出任何新的電子郵件有70％的概率被歸類為垃圾郵件。

似然估計是在其他一些變數的給定的情況下，一個觀測值被分類為1的概率。例如，「FREE」這個詞在以前的垃圾郵件使用的概率就是似然估計。邊際似然估計就是，「FREE」這個詞在任何消息中使用的概率

422題

你正在一個時間序列數據集上工作。經理要求你建立一個高精度的模型。你開始用決策樹演算法，因為你知道它在所有類型數據上的表現都不錯。後來，你嘗試了時間序列回歸模型，並得到了比決策樹模型更高的精度。

這種情況會發生嗎？為什麼？

點擊下方空白區域查看答案 ▼

解析：

眾所周知，時間序列數據有線性關係。另一方面，決策樹演算法是已知的檢測非線性交互最好的演算法

。

為什麼決策樹沒能提供好的預測的原因是它不能像回歸模型一樣做到對線性關係的那麼好的映射。

因此，我們知道了如果我們有一個滿足線性假設的數據集，一個線性回歸模型能提供強大的預測。

423題

給你分配了一個新的項目，是關於幫助食品配送公司節省更多的錢。問題是，公司的送餐隊伍沒辦法準時送餐。結果就是他們的客戶很不高興。

最後為了使客戶高興，他們只好以免餐費了事。

哪個機器學習演算法能拯救他們？

點擊下方空白區域查看答案▼

解析：

你的大腦里可能已經開始閃現各種機器學習的演算法。但是等等！這樣的提問方式只是來測試你的機器學習基礎。這不是一個機器學習的問題，而是一個路徑優化問題。

機器學習問題由三樣東西組成：

1.模式已經存在。

2.不能用數學方法解決（指數方程都不行）。

3.有相關的數據。

424題

你意識到你的模型受到低偏差和高方差問題的困擾。應該使用哪種演算法來解決問題呢？為什麼？

點擊下方空白區域查看答案▼

解析：

低偏差意味著模型的預測值接近實際值。換句話說，該模型有足夠的靈活性，以模仿訓練數據的分布。貌似很好，但是別忘了，一個靈活的模型沒有泛化能力。這意味著，當這個模型用在對一個未曾見過的數據集進行測試的時候，它會令人很失望。

在這種情況下，我們可以使用bagging演算法（如隨機森林），以解決高方差問題。bagging演算法把數據集分成重複隨機取樣形成的子集。然後，這些樣本利用單個學習演算法生成一組模型。接著，利用投票（分類）或平均（回歸）把模型預測結合在一起。

另外，為了應對大方差，我們可以：

1.使用正則化技術，懲罰更高的模型係數，從而降低了模型的複雜性。

2.使用可變重要性圖表中的前n個特徵。可以用於當一個演算法在數據集中的所有變數里很難尋找到有意義信號的時候。

425題

給你一個數據集。該數據集包含很多變數，你知道其中一些是高度相關的。經理要求你用PCA。你會先去掉相關的變數嗎？為什麼？

點擊下方空白區域查看答案 ▼

解析：

答：你可能會說不，但是這有可能是不對的。丟棄相關變數會對PCA有實質性的影響，因為有相關變數的存在，由特定成分解釋的方差被放大。

例如：在一個數據集有3個變數，其中有2個是相關的。如果在該數據集上用PCA，第一主成分的方差會是與其不相關變數的差異的兩倍。此外，加入相關的變數使PCA錯誤地提高那些變數的重要性，這是有誤導性的。

題目來源

：七月在線官網（https://www.julyedu.com/）——面試題庫——面試大題——機器學習

今日推薦

我們的

【

計算機視覺第二期

】

正在火熱報名中

9月22日開課嘍

還沒報名的小夥伴們

抓緊時間嘍

2人及2人以上組團

立減100元

想組團者可以添加客服：

julyedukefu_02

讓客服幫忙組團享受優惠喔

點擊下方「

閱讀原文

」

可在線報名

更多資訊

請戳一戳

往期推薦

面試常考：Python中的os模塊和sys模塊「文末送Python暢銷書」

數據結構究竟是什麼？為什麼你一定要學好數據結構？

看懂深度學習真的那麼難嗎？初中數學，就用10分鐘

一圖了解整個機器學習的核心知識體系（建議收藏）

深度學習難嗎？如果你連這25個概念都不知道，當然難！

點擊「閱讀原文」，可在線報名