BAT機器學習面試1000題（426~430題）

09-11

點擊上方

藍字關注七月在線實驗室

BAT機器學習面試1000題（426~430題）

426題

花了幾個小時後，現在你急於建一個高精度的模型。結果，你建了5 個GBM （Gradient Boosted Models），想著boosting演算法會顯示魔力。不幸的是，沒有一個模型比基準模型表現得更好。最後，你決定將這些模型結合到一起。儘管眾所周知，結合模型通常精度高，但你就很不幸運。你到底錯在哪裡？

點擊下方空白區域查看答案▼

解析：

答：據我們所知，組合的學習模型是基於合併弱的學習模型來創造一個強大的學習模型的想法。但是，只有當各模型之間沒有相關性的時候組合起來後才比較強大。由於我們已經試了5個 GBM，但沒有提高精度，表明這些模型是相關的。

具有相關性的模型的問題是，所有的模型提供相同的信息。例如：如果模型1把User1122歸類為 1，模型2和模型3很有可能會做有同樣分類，即使它的實際值應該是0，因此，只有弱相關的模型結合起來才會表現更好。

427題

KNN和KMEANS聚類（kmeans clustering）有什麼不同？

點擊下方空白區域查看答案 ▼

解析：

答：不要被它們的名字里的「K」誤導。

你應該知道，這兩種演算法之間的根本區別是，KMEANS本質上是無監督學習而KNN是監督學習。KMEANS是聚類演算法。KNN是分類（或回歸）演算法。

KMEAN演算法把一個數據集分割成簇，使得形成的簇是同構的，每個簇里的點相互靠近。該演算法試圖維持這些簇之間有足夠的可分離性。由於無監督的性質，這些簇沒有任何標籤。NN演算法嘗試基於其k（可以是任何數目）個周圍鄰居來對未標記的觀察進行分類。它也被稱為懶惰學習法，因為它涉及最小的模型訓練。因此，它不用訓練數據對未看見的數據集進行泛化。

428題

真陽性率和召回有什麼關係？寫出方程式。

點擊下方空白區域查看答案▼

解析：

答：真陽性率=召回。是的，它們有相同的公式（TP / TP + FN）。注意：要了解更多關於估值矩陣的知識。

429題

你建了一個多元回歸模型。你的模型R2為並不如你設想的好。為了改進，你去掉截距項，模型R的平方從0.3變為0.8。這是否可能？怎樣才能達到這個結果？

點擊下方空白區域查看答案▼

解析：

答：是的，這有可能。我們需要了解截距項在回歸模型里的意義。截距項顯示模型預測沒有任何自變數，比如平均預測。公式R2 = 1 – ∑(y – y′)2/∑(y – ymean)2中的y′是預測值。

當有截距項時，R2值評估的是你的模型基於均值模型的表現。在沒有截距項（ymean）時，當分母很大時，該模型就沒有這樣的估值效果了，∑(y – y′)2/∑(y – ymean)2式的值會變得比實際的小，而R2會比實際值大。

430題

在分析了你的模型後，經理告訴你，你的模型有多重共線性。你會如何驗證他說的是真的？在不丟失任何信息的情況下，你還能建立一個更好的模型嗎？

點擊下方空白區域查看答案 ▼

解析：

答：要檢查多重共線性，我們可以創建一個相關矩陣，用以識別和除去那些具有75％以上相關性（決定閾值是主觀的）的變數。此外，我們可以計算VIF（方差膨脹因子）來檢查多重共線性的存在。

VIF值<= 4表明沒有多重共線性，而值> = 10意味著嚴重的多重共線性。

此外，我們還可以用容差作為多重共線性的指標。但是，刪除相關的變數可能會導致信息的丟失。為了留住這些變數，我們可以使用懲罰回歸模型，如Ridge和Lasso回歸。

我們還可以在相關變數里添加一些隨機雜訊，使得變數變得彼此不同。但是，增加噪音可能會影響預測的準確度，因此應謹慎使用這種方法。

題目來源

：七月在線官網（https://www.julyedu.com/）——面試題庫——面試大題——機器學習

今日推薦

我們的

【

計算機視覺第二期

】

正在火熱報名中

9月22日開課嘍

還沒報名的小夥伴們

抓緊時間嘍

2人及2人以上組團

立減100元

想組團者可以添加客服：

julyedukefu_02

讓客服幫忙組團享受優惠喔

點擊下方「

閱讀原文

」

可在線報名

更多資訊

請戳一戳

往期推薦

年薪25萬的程序員都選擇轉行了，究竟是什麼行業這麼熱門？

數據結構究竟是什麼？為什麼你一定要學好數據結構？

看懂深度學習真的那麼難嗎？初中數學，就用10分鐘

一圖了解整個機器學習的核心知識體系（建議收藏）

深度學習難嗎？如果你連這25個概念都不知道，當然難！

點擊「閱讀原文」，立即報名