BAT機器學習面試1000題(436~440題)

點擊上方  

?

   藍字關注七月在線實驗室

BAT機器學習面試1000題(436~440題)

436題

運行二元分類樹演算法很容易,但是你知道一個樹是如何做分割的嗎,即樹如何決定把哪些變數分到哪個根節點和後續節點上?

點擊下方空白區域查看答案▼

解析:

答:分類樹利用基尼係數與節點熵來做決定。簡而言之,樹演算法找到最好的可能特徵,它可以將數據集分成最純的可能子節點。樹演算法找到可以把數據集分成最純凈的可能的子節點的特徵量。基尼係數是,如果總體是完全純的,那麼我們從總體中隨機選擇2個樣本,而這2個樣本肯定是同一類的而且它們是同類的概率也是1。我們可以用以下方法計算基尼係數: 

1.利用成功和失敗的概率的平方和(p^2+q^2)計運算元節點的基尼係數

2.利用該分割的節點的加權基尼分數計算基尼係數以分割 

熵是衡量信息不純的一個標準(二分類):

這裡的p和q是分別在該節點成功和失敗的概率。當一個節點是均勻時熵為零。當2個類同時以50%對50%的概率出現在同一個節點上的時候,它是最大值。熵越低越好。

437題

你已經建了一個有10000棵樹的隨機森林模型。在得到0.00的訓練誤差後,你非常高興。但是,驗證錯誤是34.23。到底是怎麼回事?你還沒有訓練好你的模型嗎?

點擊下方空白區域查看答案 ▼

解析:

答:該模型過度擬合。訓練誤差為0.00意味著分類器已在一定程度上模擬了訓練數據,這樣的分類器是不能用在未看見的數據上的。 

因此,當該分類器用於未看見的樣本上時,由於找不到已有的模式,就會返回的預測有很高的錯誤率。在隨機森林演算法中,用了多於需求個數的樹時,這種情況會發生。因此,為了避免這些情況,我們要用交叉驗證來調整樹的數量。

438題

你有一個數據集,變數個數p大於觀察值個數n。為什麼用OLS是一個不好的選擇?用什麼技術最好?為什麼?

點擊下方空白區域查看答案▼

解析:

答:在這樣的高維數據集中,我們不能用傳統的回歸技術,因為它們的假設往往不成立。當p>nN,我們不能計算唯一的最小二乘法係數估計,方差變成無窮大,因此OLS無法在此使用的。 

為了應對這種情況,我們可以使用懲罰回歸方法,如lasso、LARS、ridge,這些可以縮小係數以減少方差。準確地說,當最小二乘估計具有較高方差的時候,ridge回歸最有效。

 其他方法還包括子集回歸、前向逐步回歸。

439題

什麼是凸包?(提示:想一想SVM)其他方法還包括子集回歸、前向逐步回歸。

點擊下方空白區域查看答案▼

解析:

答:當數據是線性可分的,凸包就表示兩個組數據點的外邊界。

 一旦凸包建立,我們得到的最大間隔超平面(MMH)作為兩個凸包之間的垂直平分線。 MMH是能夠最大限度地分開兩個組的線。

440題

我們知道,一位有效編碼會增加數據集的維度。但是,標籤編碼不會。為什麼?

點擊下方空白區域查看答案 ▼

解析:

答:對於這個問題不要太糾結。這只是在問這兩者之間的區別。

 用一位有效編碼編碼,數據集的維度(也即特徵)增加是因為它為分類變數中存在的的每一級都創建了一個變數。例如:假設我們有一個變數「顏色」。這變數有3個層級,即紅色、藍色和綠色。 

對「顏色」變數進行一位有效編碼會生成含0和1值的Color.Red,Color.Blue和Color.Green 三個新變數。在標籤編碼中,分類變數的層級編碼為0和1,因此不生成新變數。標籤編碼主要是用於二進位變數。

題目來源

:七月在線官網(https://www.julyedu.com/)——面試題庫——面試大題——機器學習

今日推薦

我們的

計算機視覺第二期

正在火熱報名中

9月22日開課嘍

還沒報名的小夥伴們

抓緊時間嘍

2人及2人以上組團

立減100元

想組團者可以添加客服:

julyedukefu_02

讓客服幫忙組團享受優惠喔

點擊下方「

閱讀原文

可在線報名

 

更多資訊

 請戳一戳

往期推薦

為什麼程序員總喜歡在半夜寫代碼?

2019校招面試必備,15個CNN關鍵回答集錦【建議收藏】

年薪25萬的程序員都選擇轉行了,究竟是什麼行業這麼熱門?

數據結構究竟是什麼?為什麼你一定要學好數據結構?

看懂深度學習真的那麼難嗎?初中數學,就用10分鐘

一圖了解整個機器學習的核心知識體系(建議收藏)

點擊「閱讀原文」,立即報名

推薦閱讀:

北大女生應聘60家公司 寫出最牛面試寶典網上熱傳
面試中遇到最難的這10個問題該怎麼回答?
面試前要如何準備
面試對策(一)
熟知不同的面試形式

TAG:學習 | 機器學習 | 面試 | 機器 |