BAT機器學習面試1000題（436~440題）

09-15

點擊上方

藍字關注七月在線實驗室

BAT機器學習面試1000題（436~440題）

436題

運行二元分類樹演算法很容易，但是你知道一個樹是如何做分割的嗎，即樹如何決定把哪些變數分到哪個根節點和後續節點上？

點擊下方空白區域查看答案▼

解析：

答：分類樹利用基尼係數與節點熵來做決定。簡而言之，樹演算法找到最好的可能特徵，它可以將數據集分成最純的可能子節點。樹演算法找到可以把數據集分成最純凈的可能的子節點的特徵量。基尼係數是，如果總體是完全純的，那麼我們從總體中隨機選擇2個樣本，而這2個樣本肯定是同一類的而且它們是同類的概率也是1。我們可以用以下方法計算基尼係數：

1.利用成功和失敗的概率的平方和(p^2+q^2)計運算元節點的基尼係數

2.利用該分割的節點的加權基尼分數計算基尼係數以分割

熵是衡量信息不純的一個標準（二分類）：

這裡的p和q是分別在該節點成功和失敗的概率。當一個節點是均勻時熵為零。當2個類同時以50%對50%的概率出現在同一個節點上的時候，它是最大值。熵越低越好。

437題

你已經建了一個有10000棵樹的隨機森林模型。在得到0.00的訓練誤差後，你非常高興。但是，驗證錯誤是34.23。到底是怎麼回事？你還沒有訓練好你的模型嗎？

點擊下方空白區域查看答案 ▼

解析：

答：該模型過度擬合。訓練誤差為0.00意味著分類器已在一定程度上模擬了訓練數據，這樣的分類器是不能用在未看見的數據上的。

因此，當該分類器用於未看見的樣本上時，由於找不到已有的模式，就會返回的預測有很高的錯誤率。在隨機森林演算法中，用了多於需求個數的樹時，這種情況會發生。因此，為了避免這些情況，我們要用交叉驗證來調整樹的數量。

438題

你有一個數據集，變數個數p大於觀察值個數n。為什麼用OLS是一個不好的選擇？用什麼技術最好？為什麼？

點擊下方空白區域查看答案▼

解析：

答：在這樣的高維數據集中，我們不能用傳統的回歸技術，因為它們的假設往往不成立。當p>nN，我們不能計算唯一的最小二乘法係數估計，方差變成無窮大，因此OLS無法在此使用的。

為了應對這種情況，我們可以使用懲罰回歸方法，如lasso、LARS、ridge，這些可以縮小係數以減少方差。準確地說，當最小二乘估計具有較高方差的時候，ridge回歸最有效。

其他方法還包括子集回歸、前向逐步回歸。

439題

什麼是凸包？（提示：想一想SVM）其他方法還包括子集回歸、前向逐步回歸。

點擊下方空白區域查看答案▼

解析：

答：當數據是線性可分的，凸包就表示兩個組數據點的外邊界。

一旦凸包建立，我們得到的最大間隔超平面（MMH）作為兩個凸包之間的垂直平分線。 MMH是能夠最大限度地分開兩個組的線。

440題

我們知道，一位有效編碼會增加數據集的維度。但是，標籤編碼不會。為什麼？

點擊下方空白區域查看答案 ▼

解析：

答：對於這個問題不要太糾結。這只是在問這兩者之間的區別。

用一位有效編碼編碼，數據集的維度（也即特徵）增加是因為它為分類變數中存在的的每一級都創建了一個變數。例如：假設我們有一個變數「顏色」。這變數有3個層級，即紅色、藍色和綠色。

對「顏色」變數進行一位有效編碼會生成含0和1值的Color.Red，Color.Blue和Color.Green 三個新變數。在標籤編碼中，分類變數的層級編碼為0和1，因此不生成新變數。標籤編碼主要是用於二進位變數。

題目來源

：七月在線官網（https://www.julyedu.com/）——面試題庫——面試大題——機器學習

今日推薦

我們的

【

計算機視覺第二期

】

正在火熱報名中

9月22日開課嘍

還沒報名的小夥伴們

抓緊時間嘍

2人及2人以上組團

立減100元

想組團者可以添加客服：

julyedukefu_02

讓客服幫忙組團享受優惠喔

點擊下方「

閱讀原文

」

可在線報名

更多資訊

請戳一戳

往期推薦

為什麼程序員總喜歡在半夜寫代碼？

2019校招面試必備，15個CNN關鍵回答集錦【建議收藏】

年薪25萬的程序員都選擇轉行了，究竟是什麼行業這麼熱門？

數據結構究竟是什麼？為什麼你一定要學好數據結構？

看懂深度學習真的那麼難嗎？初中數學，就用10分鐘

一圖了解整個機器學習的核心知識體系（建議收藏）

點擊「閱讀原文」，立即報名