BAT機器學習面試1000題(436~440題)
點擊上方
?
藍字關注七月在線實驗室BAT機器學習面試1000題(436~440題)
436題
運行二元分類樹演算法很容易,但是你知道一個樹是如何做分割的嗎,即樹如何決定把哪些變數分到哪個根節點和後續節點上?
點擊下方空白區域查看答案▼
解析:
答:分類樹利用基尼係數與節點熵來做決定。簡而言之,樹演算法找到最好的可能特徵,它可以將數據集分成最純的可能子節點。樹演算法找到可以把數據集分成最純凈的可能的子節點的特徵量。基尼係數是,如果總體是完全純的,那麼我們從總體中隨機選擇2個樣本,而這2個樣本肯定是同一類的而且它們是同類的概率也是1。我們可以用以下方法計算基尼係數:
1.利用成功和失敗的概率的平方和(p^2+q^2)計運算元節點的基尼係數
2.利用該分割的節點的加權基尼分數計算基尼係數以分割
熵是衡量信息不純的一個標準(二分類):
這裡的p和q是分別在該節點成功和失敗的概率。當一個節點是均勻時熵為零。當2個類同時以50%對50%的概率出現在同一個節點上的時候,它是最大值。熵越低越好。
437題
你已經建了一個有10000棵樹的隨機森林模型。在得到0.00的訓練誤差後,你非常高興。但是,驗證錯誤是34.23。到底是怎麼回事?你還沒有訓練好你的模型嗎?
點擊下方空白區域查看答案 ▼
解析:
答:該模型過度擬合。訓練誤差為0.00意味著分類器已在一定程度上模擬了訓練數據,這樣的分類器是不能用在未看見的數據上的。
因此,當該分類器用於未看見的樣本上時,由於找不到已有的模式,就會返回的預測有很高的錯誤率。在隨機森林演算法中,用了多於需求個數的樹時,這種情況會發生。因此,為了避免這些情況,我們要用交叉驗證來調整樹的數量。
438題
你有一個數據集,變數個數p大於觀察值個數n。為什麼用OLS是一個不好的選擇?用什麼技術最好?為什麼?
點擊下方空白區域查看答案▼
解析:
答:在這樣的高維數據集中,我們不能用傳統的回歸技術,因為它們的假設往往不成立。當p>nN,我們不能計算唯一的最小二乘法係數估計,方差變成無窮大,因此OLS無法在此使用的。
為了應對這種情況,我們可以使用懲罰回歸方法,如lasso、LARS、ridge,這些可以縮小係數以減少方差。準確地說,當最小二乘估計具有較高方差的時候,ridge回歸最有效。
其他方法還包括子集回歸、前向逐步回歸。
439題
什麼是凸包?(提示:想一想SVM)其他方法還包括子集回歸、前向逐步回歸。
點擊下方空白區域查看答案▼
解析:
答:當數據是線性可分的,凸包就表示兩個組數據點的外邊界。
一旦凸包建立,我們得到的最大間隔超平面(MMH)作為兩個凸包之間的垂直平分線。 MMH是能夠最大限度地分開兩個組的線。
440題
我們知道,一位有效編碼會增加數據集的維度。但是,標籤編碼不會。為什麼?
點擊下方空白區域查看答案 ▼
解析:
答:對於這個問題不要太糾結。這只是在問這兩者之間的區別。
用一位有效編碼編碼,數據集的維度(也即特徵)增加是因為它為分類變數中存在的的每一級都創建了一個變數。例如:假設我們有一個變數「顏色」。這變數有3個層級,即紅色、藍色和綠色。
對「顏色」變數進行一位有效編碼會生成含0和1值的Color.Red,Color.Blue和Color.Green 三個新變數。在標籤編碼中,分類變數的層級編碼為0和1,因此不生成新變數。標籤編碼主要是用於二進位變數。
題目來源
:七月在線官網(https://www.julyedu.com/)——面試題庫——面試大題——機器學習今日推薦
我們的
【
計算機視覺第二期
】正在火熱報名中
9月22日開課嘍
還沒報名的小夥伴們
抓緊時間嘍
2人及2人以上組團
立減100元
想組團者可以添加客服:
julyedukefu_02
讓客服幫忙組團享受優惠喔
點擊下方「
閱讀原文
」可在線報名
更多資訊
請戳一戳
往期推薦
為什麼程序員總喜歡在半夜寫代碼?
2019校招面試必備,15個CNN關鍵回答集錦【建議收藏】
年薪25萬的程序員都選擇轉行了,究竟是什麼行業這麼熱門?
數據結構究竟是什麼?為什麼你一定要學好數據結構?
看懂深度學習真的那麼難嗎?初中數學,就用10分鐘
一圖了解整個機器學習的核心知識體系(建議收藏)
點擊「閱讀原文」,立即報名
推薦閱讀:
※北大女生應聘60家公司 寫出最牛面試寶典網上熱傳
※面試中遇到最難的這10個問題該怎麼回答?
※面試前要如何準備
※面試對策(一)
※熟知不同的面試形式