機器學習測試題(下)

21.在一個包含5000個特徵及超過一百萬個觀測值的數據集上建立一個機器學習的模型,下面哪種方法能更高效地訓練模型?

A.從數據集中隨機抽取樣本來建立模型

B.使用在線學習演算法

C.使用主成分分析法(PCA)對數據降維

D.B和C

E.A和B

F.以上全部

答案:F

解析:以下是在有限內存機器上處理高維數據的方法:在數據集中隨機抽樣,創建一個較小的數據集進行計算(如:抽取1000個變數和300000行的數據);運用在線學習演算法,如使用Vowpal Wabbit;運用主成分分析法(PCA)選取方差最大方向。

22.以下哪種方法可以減少數據集中的特徵(選擇一個最佳答案)?

a.使用「前向」搜索

b.使用「後向」搜索

c.我們把模型中的所有特徵都訓練一次,得到測試中模型的精確性。每次取一個特徵,對測試數據集的特徵值進行清洗,並且對測試數據進行預測,然後評估模型。若模型的精確性提高,則移除次特徵。

d.根據相關表提出相關性高的特徵

A.a和b

B.b,c和d

C.a,b和d

D.以上全部

答案:D

解析:「前向」搜索和「後向」搜索是特徵選擇的兩種主要方法;使用前面兩種方法失敗時,第三種方法在一個大數據集中則非常有效;在特徵選擇中使用相關性進行選擇還可以剔除存在多重共線性的特徵。

23.下列關於隨機森林和GradientBoosting說法正確的是?

a.隨機森林裡的決策樹不是相互獨立的,而GradientBooting里的決策樹是相互獨立的。

b.兩者都使用特徵的隨機子集創造決策樹。

c.因為GrandientBoosting里的樹是互相獨立的,所以可以生成平行的樹。

d.對於任何數據,GradientBoosting總是優於隨機森林。

A.b

B.a和b

C.a,c和d

D.b和d

答案:A

解析:隨機森林基於bagging演算法,GrandientBoosting基於boosting演算法,boosting演算法里的樹不獨立是因為下一顆樹是基於前一顆樹的結果的,而bagging演算法里的樹是相互獨立的;在這兩種演算法中,我們都使用特徵的隨機自己創建決策樹;因為隨機森林裡的決策樹都是獨立的,所以我們可以在此生成平行的樹,而在GrandientBoosting里則是不可能的;這兩種演算法都是取決於數據的。

24.運用主成分分析法(PCA)降維,樸素貝葉斯分類器的屬性條件獨立性假設總是成立的,因為由各個主成分之間正交可推出它們不相關。這種說法正確嗎?

A.正確

B.不正確

答案:B

解析:不相關不等於獨立;不相關也不是降維的必要條件。

25.下列關於主成分分析法(PCA)說法正確的是?

a.進行主成分分析之前要對數據進行中心化

b.要選出方差最大的作為主成分

c.要選出方差最小的作為主成分

d.主成分分析法可用於低維數據的可視化處理

A.a,b和d

B.b和d

C.c和d

D.a和c

E.a,c和d

答案:A

解析:主成分分析法對數據中變數的尺度較為敏感,因此要先對數據進行中心化處理,;若不進行中心化,如果變數單位從千米變成厘米(方差變大),變數很有可能從影響很小的成分變成第一個主成分。主成分分析法通常選擇方差最大的作為主成分。通常,低維數據繪圖是很有用的,我們可以用散點圖來顯示前兩個主成分數據。

26.選出下圖中最恰當的主成分個數?

A. 7

B. 30

C. 35

D. 不確定

答案:B

解析:由圖可知,當主成分為30時,方差最大且主成分個數最小。

27.下列關於「集成學習」說法正確的是?

A.個體學習器間相關性較高

B.個體學習器間相關性較低

C.使用「加權平均」而不是「投票法」產生結果

D.個體學習器由相同的學習演算法生成

答案:B

解析:集成學習的結果可通過投票法產生,也可由加權平均法產生;同質集成中的個體學習器由相同的學習演算法生成,異質集成中的個體學習器由不同的學習演算法生成。

28.如何在「無監督學習」中使用聚類演算法?

a.先將樣本劃分為不同的簇,然後分別在不同的簇上使用無監督學習

b.在應用無監督學習前可將不同的簇看成不同的特徵

c.在應用無監督學習之前不能將樣本劃分為不同的簇

d.在應用無監督學習之前不能將不同的簇看成不同的特徵

A.b和d

B.a和b

C.c和d

D.a和c

答案:B

解析:我們可以根據不同的簇建立不同的機器學習模型且這能為boost提供精確的預測;將樣本劃分為不同的簇可以提高結果的精確性,因為這可以將數據進行匯總。

29.下列哪種說法是正確的?

A.一個精度高的機器學習模型通常是一個好的分類器

B.模型越複雜,測試錯誤越低

C.模型越複雜,訓練錯誤越低

D.A和C

答案:C

解析:在分類不均衡的數據集中,精度不是一個好的評價指標,而查准率和查全率更為適用於此類需求的性能度量;模型更複雜通常會導致過度擬合,此時訓練錯誤減少而測試錯誤增加。

30.下列關於梯度樹提升說法正確的是?

a.當分裂所需最小樣本數增加時,模型擬合不足

b.當分裂所需最小樣本數增加時,模型擬合過度

c.降低擬合個體學習器樣本的分數可以降低方差

d.降低擬合個體學習器樣本的分數可以減少偏差

A.b和d

B.b和c

C.a和c

D.a和d

答案:C

解析:考慮分裂節點所需最小樣本數是用於控制擬合過度的,分裂節點所需樣本數太高容易導致擬合不足,此時可以藉助sklearn.grid_search庫中的GridSearchCV類進行調參;每一棵樹的樣本分數通過隨機抽樣所得,小於1的值可以通過降低方差使模型更加穩健,一般0.8左右的值比較正常,也還可以進行微調。

31.以下哪個圖是K近鄰(KNN)的決策邊界?

A) B) C) D)

A.B)

B.A)

C.D)

D.C)

E.不確定

答案:B

解析:KNN工作機制:給定測試樣本,基於某種距離度量找出訓練集中於其最靠近的k個訓練樣本,然後基於這k個「鄰居」的信息來進行預測,通常選擇這k個樣本中出現最多的類別標記作為預測結果,所以決策邊界可能不是線性的。

32.如果一個訓練模型在測試集上精度達到100%,那麼在另一個測試集上精度能否也達到100%?

A.能,因為模型可用於任意數據上

B不能,因還有一些模型無法解決的問題,如雜訊

答案:B

解析:實際的數據不可能都是無雜訊的,所以不能達到100%的精度。

33.下列是常見的交叉驗證法:

a.自助法(bootstrapping)

b.留一法(Leave-One-Out)

c.5折交叉驗證

d.2次5折交叉驗證

樣本量為1000時,根據所需的執行時間排列上述四種方法:

A.a>b>c>d

B.b>d>c>a

C.d>a>b>c

D.b>c>d>a

答案:B

解析:「自助法」主要以可重複採樣為基礎,因此只有1個驗證集使用隨機抽樣;「留一法」所用時間最長,因為有n個樣本就要訓練n個模型,此處1000個樣本要訓練1000個模型;「5折交叉驗證」要訓練5個模型;「2次5折交叉驗證」要訓練10個模型。

34.無

35.在變數選擇過程中,下列哪些方法可用於檢查模型的性能?

a.多重變數用於同一個模型

b.模型的可解釋性

c.特徵的信息

d.交叉驗證

A.a和d

B.a,b和c

C.a,c和d

D.以上全部

答案:C

解析:多重變數用於同一個模型將會出現多重共線性;模型的性能與模型的可解釋性無關;特徵的信息可為模型提供有效信息;交叉驗證可評估學習器的泛化性能。

36.在一個線性回歸模型中增加新的變數,下列說法正確的是?

a.R^2和調整的R^2都增大

b.R^2不變,調整的R^2增大

c.R^2和調整的R^2都減小

d.R^2減小,調整的R^2增大

A.a和b

B.a和c

C.b和d

D.以上都不對

答案:D

解析:模型中增加預測變數,R^2都會增加或者保持不變;總體上,調整的R^2可能增大也可能減小。

37.下列圖形是在相同的訓練數據上具有相同回歸的三個不同的模型,從圖形中你可得到什麼信息?

a.圖1的訓練錯誤最大

b.圖3的回歸模型擬合得最好,因為它的訓練錯誤最小

c.圖2擬合的模型最穩健,因為模型的估計較好

d.圖3的回歸模型擬合過度了

e.三個模型擬合完全相同,因為我們無法看到訓練數據

A.a和c

B.a和c

C.a,c和d

D.e

答案:C

解析:圖中的趨勢看起來像是獨立變數X的二次趨勢,多項式可能在訓練數量上會有一個很高的精度,但在測試集上卻完全相反;左圖的訓練錯誤最大因為它對訓練數據擬合過度了。

38.在進行線性回歸分析時,我們應該遵循哪些假設?

a.檢查異常值,因為回歸對異常值比較敏感

b.所有變數必須服從正態分布

c.不存在或存在極少多重共線性

A.a和b

B.b和c

C.a,b和c

D.以上都不是

答案:D

解析:異常值是數據中有高度影響的點,可以改變回歸線的斜率,所以回歸中處理異常值非常重要;將高度偏態的自變數轉換為正態分布可以提高模型的性能;當模型中包含多個彼此相關的特徵時會出現多重共線性,因此回歸假設在數據中應儘可能少或沒有冗餘。

39.在建立線性回歸模型時,3對變數(Var1和Var2,Var2和Var3,Var3和Var1)之間的相關性分別為-0.98,0.45和1.23。我們可以從中推斷出什麼?

a.Var1和Var2之間相關性較高

b.由於Var1和Var2之間相關性較高,因此存在多重共線性,應該移除這兩個變數

c.Var3和Var1之間的相關係數為1.23是不可能的

A.a和c

B.a和b

C.a,b和c

D.a

答案:C

解析:Var1和Var2之間相關性較高,且是負相關,存在多重共線性,此時可去除其中一個變數;一般情況下,相關係數的絕對值大於0.7,則可認為特徵間相關性較高;相關係數取值應該在負一到一之間(包括正負一)。

40.如果自變數和因變數之間高度非線性且關係複雜,那麼運用樹回歸優於經典回歸模型,這個說法正確嗎?

A.正確

B.錯誤

答案:A

解析:對複雜和非線性的數據,樹回歸相比經典回歸能更好地擬合模型。

End.

版權聲明:PPV課翻譯小組作品,未經許可,嚴禁轉載!

翻譯來源:analyticsvidhya.com/blo


推薦閱讀:

什麼是強化學習?
「轉行人工智慧」是否前景一片光明?
CS 294: Deep Reinforcement Learning:IRL
BAT機器學習面試1000題系列(126-130題)

TAG:机器学习 | 数据挖掘 |