BAT機器學習面試1000題系列（181-185題）

01-30

181.基於二次準則函數的H-K演算法較之於感知器演算法的優點是（）?

A.計算量小

B.可以判別問題是否線性可分

C.其解完全適用於非線性可分的情況

D.其解的適應性更好

正確答案：BD

@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html

HK演算法思想很樸實,就是在最小均方誤差準則下求得權矢量.

他相對於感知器演算法的優點在於,他適用於線性可分和非線性可分得情況,對於線性可分的情況,給出最優權矢量,對於非線性可分得情況,能夠判別出來,以退出迭代過程.

182.以下說法中正確的是（）？

A.SVM對雜訊(如來自其他分布的雜訊樣本)魯棒

B.在AdaBoost演算法中,所有被分錯的樣本的權重更新比例相同

C.Boosting和Bagging都是組合多個分類器投票的方法,二者都是根據單個分類器的正確率決定其權重

D.給定n個數據點,如果其中一半用於訓練,一般用於測試,則訓練誤差和測試誤差之間的差別會隨著n的增加而減少

正確答案：BD

@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html

A、SVM對雜訊（如來自其他分布的雜訊樣本）魯棒

SVM本身對雜訊具有一定的魯棒性，但實驗證明，是當雜訊率低於一定水平的雜訊對SVM沒有太大影響，但隨著雜訊率的不斷增加，分類器的識別率會降低。

B、在AdaBoost演算法中所有被分錯的樣本的權重更新比例相同

AdaBoost演算法中不同的訓練集是通過調整每個樣本對應的權重來實現的。開始時，每個樣本對應的權重是相同的，即其中n為樣本個數，在此樣本分布下訓練出一弱分類器。對於分類錯誤的樣本，加大其對應的權重；而對於分類正確的樣本，降低其權重，這樣分錯的樣本就被凸顯出來，從而得到一個新的樣本分布。在新的樣本分布下，再次對樣本進行訓練，得到弱分類器。以此類推，將所有的弱分類器重疊加起來，得到強分類器。

C、Boost和Bagging都是組合多個分類器投票的方法，二者均是根據單個分類器的正確率決定其權重。

Bagging與Boosting的區別：

取樣方式不同。

Bagging採用均勻取樣，而Boosting根據錯誤率取樣。

Bagging的各個預測函數沒有權重，而Boosting是有權重的。

Bagging的各個預測函數可以並行生成，而Boosing的各個預測函數只能順序生成。

183.輸入圖片大小為200×200，依次經過一層卷積（kernel size 5×5，padding 1，stride 2），pooling（kernel size 3×3，padding 0，stride 1），又一層卷積（kernel size 3×3，padding 1，stride 1）之後，輸出特徵圖大小為（）：

A. 95

B. 96

C. 97

D. 98

正確答案：C

@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html

首先我們應該知道卷積或者池化後大小的計算公式：

out_height=（(input_height - filter_height + padding_top+padding_bottom)/stride_height ）+1

out_width_=（(input_width - filter_width + padding_left+padding_right)/stride_width ）+1

其中，padding指的是向外擴展的邊緣大小，而stride則是步長，即每次移動的長度。

這樣一來就容易多了，首先長寬一般大，所以我們只需要計算一個維度即可，這樣，經過第一次卷積後的大小為: （200-5+2）/2+1，取99；經過第一次池化後的大小為：（99-3）/1+1 為97；經過第二次卷積後的大小為：（97-3+2）/1+1 為97

184.在spss的基礎分析模塊中，作用是「以行列表的形式揭示數據之間的關係」的是（）

A. 數據描述

B. 相關

C. 交叉表

D. 多重相應

正確答案：C

185.一監獄人臉識別准入系統用來識別待進入人員的身份，此系統一共包括識別4種不同的人員：獄警，小偷，送餐員，其他。下面哪種學習方法最適合此種應用需求：（）。

A. 二分類問題

B. 多分類問題

C. 層次聚類問題

D. k-中心點聚類問題

E. 回歸問題

F. 結構分析問題

正確答案：B

@劉炫320，本題題目及解析來源：http://blog.csdn.net/column/details/16442.html

二分類：每個分類器只能把樣本分為兩類。監獄裡的樣本分別為獄警、小偷、送餐員、其他。二分類肯定行不通。瓦普尼克95年提出來基礎的支持向量機就是個二分類的分類器，這個分類器學習過程就是解一個基於正負二分類推導而來的一個最優規劃問題（對偶問題），要解決多分類問題就要用決策樹把二分類的分類器級聯，VC維的概念就是說的這事的複雜度。

層次聚類：創建一個層次等級以分解給定的數據集。監獄裡的對象分別是獄警、小偷、送餐員、或者其他，他們等級應該是平等的，所以不行。此方法分為自上而下（分解）和自下而上（合併）兩種操作方式。

K-中心點聚類：挑選實際對象來代表簇，每個簇使用一個代表對象。它是圍繞中心點劃分的一種規則，所以這裡並不合適。

回歸分析：處理變數之間具有相關性的一種統計方法，這裡的獄警、小偷、送餐員、其他之間並沒有什么直接關係。

結構分析：結構分析法是在統計分組的基礎上，計算各組成部分所佔比重，進而分析某一總體現象的內部結構特徵、總體的性質、總體內部結構依時間推移而表現出的變化規律性的統計方法。結構分析法的基本表現形式，就是計算結構指標。這裡也行不通。

多分類問題：針對不同的屬性訓練幾個不同的弱分類器，然後將它們集成為一個強分類器。這裡獄警、小偷、送餐員以及他某某，分別根據他們的特點設定依據，然後進行區分識別。