考察數據科學家支持向量機(SVM)知識的25道題,快來測測吧

摘要: 本套自測題專為SVM及其應用而設計,目前超過550人註冊了這個測試,最終得滿分的人卻很少,[doge],一起來看看你的SVM知識能得多少分吧,順便還能查漏補缺哦。

Introduction

機器學習強大如一座軍械庫,裡面有各種威力驚人的武器,不過你首先得學會如何使用。舉個栗子,回歸(Regression)是一把能夠有效分析數據的利劍,但它對高度複雜的數據卻束手無策。支持向量機(Support Vector Machines,SVM)就好比一把鋒利的小刀,特別是在小數據集上建模顯得更為強大有力。

本套測試題專為SVM及其應用而設計,目前超過550人註冊了這個測試(排行榜),一起來看看你的SVM知識能得多少分吧,順便還能查漏補缺。

Helpful Resources

  1. 十大常用機器學習演算法(附Python和R代碼)
  2. SVM原理及代碼

Skill test Questions and Answers

假定你用一個線性SVM分類器求解二類分類問題,如下圖所示,這些用紅色圓圈起來的點表示支持向量,據此回答問題1和2:

1.如果移除這些圈起來的數據,決策邊界(即分離超平面)是否會發生改變?

A.Yes B. No

2. 如果將數據中除圈起來的三個點以外的其他數據全部移除,那麼決策邊界是否會改變?

A.True B. False

3.關於SVM泛化誤差描述正確的是

A.超平面與支持向量之間距離

B.SVM對未知數據的預測能力

C.SVM的誤差閾值

4. 如果懲罰參數C趨於無窮,下面哪項描述是正確的?

A.若最優分離超平面存在,必然能夠將數據完全分離

B.軟間隔分類器能夠完成數據分類

C.以上都不對

5. 以下關於硬間隔描述正確的是

A.SVM允許分類存在微小誤差

B.SVM允許分類是有大量誤差

C.以上均不正確

6. 訓練SVM的最小時間複雜度為O(n2),那麼一下哪種數據集不適合用SVM?

A.大數據集 B. 小數據集 C. 中等大小數據集 D. 和數據集大小無關

7. SVM的效率依賴於:

A.核函數的選擇 B. 核參數 C. 軟間隔參數C D. 以上所有

8. 支持向量是那些最接近決策平面的數據點。

A.TRUE B. FALSE

9. SVM在下列那種情況下表現糟糕:

A.線性可分數據 B. 清洗過的數據 C. 含雜訊數據與重疊數據點

10. 假定你使用了一個很大γ值的RBF核,這意味著:

A. 模型將考慮使用遠離超平面的點建模

B.模型僅使用接近超平面的點來建模

C.模型不會被點到超平面的距離所影響

D.以上都不正確

11.SVM中的代價參數表示:

A.交叉驗證的次數

B.使用的核

C.誤分類與模型複雜性之間的平衡

D.以上均不是

假定你使用SVM學習數據X,數據X裡面有些點存在錯誤。現在如果你使用一個二次核函數,多項式階數為2,使用鬆弛變數C作為超參之一,請回答12-13。

12.當你使用較大的C(C趨於無窮),則:

A.仍然能正確分類數據

B.不能正確分類

C.不確定

D.以上均不正確

13.如果使用較小的C(C趨於0),則:

A.誤分類

B.正確分類

C.不確定

D.以上均不正確

14.如果我使用數據集的全部特徵並且能夠達到100%的準確率,但在測試集上僅能達到70%左右,這說明:

A.欠擬合 B.模型很棒 C.過擬合

15.下面哪個屬於SVM應用

A.文本和超文本分類

B.圖像分類

C.新文章聚類

D.以上均是

假設你訓練SVM後,得到一個線性決策邊界,你認為該模型欠擬合。據此回答16-18題:

16.在下次迭代訓練模型時,應該考慮:

A.增加訓練數據

B.減少訓練數據

C.計算更多變數

D.減少特徵

17.假設你在上一題做出了正確的選擇,那麼以下哪一項會發生:

1.降低偏差

2.降低方差

3.增加偏差

4.增加方差

A.1和2

B.2和3

C.1和4

D.2和4

18.假如你想修改SVM的參數,同樣達到模型不會欠擬合的效果,應該怎麼做?

A.增大參數C

B.減小參數C

C.改變C並不起作用

D.以上均不正確

19.SVM中使用高斯核函數之前通常會進行特徵歸一化,以下關於特徵歸一化描述正確的是?

1.經過特徵正則化得到的新特徵優於舊特徵

2.特徵歸一化無法處理類別變數

3.SVM中使用高斯核函數時,特徵歸一化總是有用的

A.1 B. 1 and 2 C. 1 and 3 D. 2 and 3

假定你使用SVM來處理4類分類問題,你使用了one-vs-all策略,據此回答20-22

20.此種情況下要訓練SVM模型多少次?

A.1

B.2

C. 3

D. 4

21. 假定用one-vs-all訓練一次SVM要10秒,那麼總共應該訓練多少秒?

A.20

B.40

C.60

D.80

22. 假設現在只有兩個類,這種情況下SVM需要訓練幾次?

A.1

B.2

C.3

D.4

23. 如果增加模型複雜度或核函數的多項式階數,將會發生什麼?

A.導致過擬合

B.導致欠擬合

C.無影響,因為模型已達100%準確率

D.以上均不正確

24. 如果增加模型複雜度之後,你發現訓練集上準確率還是100%,可能是什麼原因造成的?

1.數據不變,適配更多的多項式項或參數,演算法開始記憶數據中的一切

2.數據不變,SVM不必在更大的假設空間中搜索分類超平面

A.1

B.2

C.1 and 2

D.以上均不正確

25.以下關於SVM核函數說法正確的是

1. 核函數將低維數據映射到高維空間

2. 是一個相似度函數(similarity function)

A.1

B.2

C.1 and 2

D.以上均不正確

Overall Distribution

至今超過350人參與了這項測試,得分分布情況如下:

作者博客還有其他如降維、機器學習、SQL的自測題,感興趣的可以去作者博客看看。

作者信息

Ankit Gupta,Ankit是一名自由數據科學家,解決了很多領域的複雜數據挖掘問題,熱衷於學習更多數據科學和機器學習的知識。

GitHub: github.com/anki1909

LinkedIn: linkedin.com/in/ankit-g

本文由阿里云云棲社區組織翻譯。

文章原標題《25 Questions to test a Data Scientist on Support Vector Machines》,作者: Robert Chang,譯者:李烽,審閱:

文章為簡譯,更為詳細的內容,請查看原文

附件下載: 考察數據科學家支...[【方向】].1508073788.pdf

更多技術乾貨敬請關注云棲社區知乎機構號:阿里云云棲社區 - 知乎

推薦閱讀:

3 步搭建系統化數據看板 | 技能卡片 No.2
Python | 為什麼優化代碼?
什麼使得一個預測模型可被解釋?
面試坑殺新人指南,第一篇:銷售波動
成為頂級的數據分析師,要花多少錢?

TAG:函数 | 测试 | 数据科学家 |