BAT機器學習面試1000題(516~520題)

點擊上方  

?

   藍字關注七月在線實驗室

BAT機器學習面試1000題(516~520題)

516題

下圖是同一個SVM模型, 但是使用了不同的徑向基核函數的gamma參數, 依次是g1, g2, g3 , 下面大小比較正確的是

A、g1 > g2 > g3

B、g1 = g2 = g3

C、g1 < g2 < g3

D、g1 >= g2 >= g3E. g1 <= g2 <= g3

點擊下方空白區域查看答案▼

正確答案是:C

解析:

所謂徑向基函數 (Radial Basis Function 簡稱 RBF), 就是某種沿徑向對稱的標量函數。 通常定義為空間中任一點x到某一中心點xc之間歐氏距離的單調函數 , 可記作 k(||x-xc||), 其作用往往是局部的 , 即當x遠離xc時函數取值很小。

最常用的徑向基函數是高斯核函數 ,形式為 k(||x-xc||)=exp{- ||x-xc||^2/(2*σ^2) } 其中xc為核函數中心,σ為函數的寬度參數 , 控制了函數的徑向作用範圍。由radial basis: exp(-gamma*|u-v|^2)可知, gamma越小, 模型越簡單, 平滑度越好, 分類邊界越不容易過擬合, 所以選C。

517題

假設我們要解決一個二類分類問題, 我們已經建立好了模型, 輸出是0或1, 初始時設閾值為0.5, 超過0.5概率估計, 就判別為1, 否則就判別為0 ; 如果我們現在用另一個大於0.5的閾值,  那麼現在關於模型說法, 正確的是 : 

1 模型分類的召回率會降低或不變 

2 模型分類的召回率會升高 

3 模型分類準確率會升高或不變 

4 模型分類準確率會降低

A、1

B、2

C、1和3

D、2和4

E、以上都不是

點擊下方空白區域查看答案 ▼

正確答案是:A

解析:

精確率, 準確率和召回率是廣泛用於信息檢索和統計學分類領域的度量值,用來評價結果的質量。下圖可以幫助理解和記憶它們之間的關係, 其中精確率(precision)和準確率(accuracy)都是關於預測效果的描述. 召回率是關於預測樣本的描述。

精確率表示的是預測為正的樣本中有多少是真正的正樣本。

那麼預測為正就有兩種可能了,一種就是把正類預測為正類(TP),另一種就是把負類預測為正類(FP), 也就是P = TP / (TP + FP)。 

準確率表示的是預測的正負樣本有多少是真實的正和負, 預測正確的數量佔全部預測數量的比例, 也就是A = (TP + TN) / (TP + FP + TN + FN) = (TP + TN) / 全部樣本。

召回率表示的是樣本中的正例有多少被預測正確了。那也有兩種可能,一種是把原來的正類預測成正類(TP),另一種就是把原來的正類預測為負類(FN), 也就是R = TP / (TP + FN)。 

精確率和召回率二者計算方法其實就是分母不同,一個分母是預測為正的樣本數,另一個是原來樣本中所有的正樣本數。 

提高分界閾值大於0.5, 則預測為正的樣本數要降低, 相當於把圖中圓圈變小, 按下圖則可計算

召回率的分子變小分母不變, 所以召回率會變小或不變; 

精確率的分子分母同步變化, 所以精確率的變化不能確定;

準確率的分子為圓內綠色加圓外右側矩形面積所圍樣本, 兩者之和變化不能確定; 分母為矩形所含全部樣本不變化, 所以準確率的變化不能確定; 

綜上, 所以選A。

518題

「點擊率問題」是這樣一個預測問題, 99%的人是不會點擊的, 而1%的人是會點擊進去的, 所以這是一個非常不平衡的數據集. 假設, 現在我們已經建了一個模型來分類, 而且有了99%的預測準確率, 我們可以下的結論是

A、模型預測準確率已經很高了, 我們不需要做什麼了

B、模型預測準確率不高, 我們需要做點什麼改進模型

C、無法下結論

D、以上都不對

點擊下方空白區域查看答案▼

正確答案是:C

解析:

如寒老師所說,類別不均衡的情況下,不要用準確率做分類評估指標,因為全判斷為不會點,準確率也是99%,但是這個分類器一點用都沒有。 

詳細可以參考這篇文章:https://www.analyticsvidhya.com/blog/2016/03/practical-guide-deal-imbalanced-classification-problems/

519題

使用k=1的knn演算法, 下圖二類分類問題, 「+」 和 「o」 分別代表兩個類, 那麼, 用僅拿出一個測試樣本的交叉驗證方法, 交叉驗證的錯誤率是多少:

A、0%

B、100%

C、0%到100

D、以上都不是

點擊下方空白區域查看答案▼

正確答案是: B

解析:

knn演算法就是, 在樣本周圍看k個樣本, 其中大多數樣本的分類是A類, 我們就把這個樣本分成A類. 顯然, k=1 的knn在上圖不是一個好選擇, 分類的錯誤率始終是100%。

520題

我們想在大數據集上訓練決策樹, 為了使用較少時間, 我們可以

A、增加樹的深度

B、增加學習率 (learning rate)

C、減少樹的深度

D、減少樹的數量

點擊下方空白區域查看答案 ▼

正確答案是:C

解析:

增加樹的深度, 會導致所有節點不斷分裂, 直到葉子節點是純的為止. 所以, 增加深度, 會延長訓練時間.決策樹沒有學習率參數可以調. (不像集成學習和其它有步長的學習方法)決策樹只有一棵樹, 不是隨機森林。

題目來源

:七月在線官網(https://www.julyedu.com/)——面試題庫——筆試練習——機器學習

今日推薦

我們的【

深度學習集訓營第二期

】火熱報名中。從TensorFlow起步實戰BAT工業項目。

11月13日

起正式上課,為期一個多月,

努力5周,挑戰年薪40萬,甚至更多薪!

這麼好的機會,還在等什麼,報名即送三門課程,

《機器學習工程師 第八期》、《深度學習 第三期》、《TensorFlow框架案例實戰》

,更好的助力您學習深度學習集訓營課程。且2人及2人以上組團報名,可

各減500元

,想組團者請加微信客服:

julyedukefu_02

挑戰高薪,從現在開始~

 

更多資訊

 請戳一戳

往期推薦

傷不起的三十歲,干不動的程序員要何去何從?

【Github 6K星】BAT頭條滴滴小米等名企AI工程師筆經面經 + 演算法/機器學習/深度學習/NLP資源匯總

一圖概覽整個深度學習的核心知識體系(建議收藏)

起薪30萬,你還在愁找不到工作?

11個 AI 和機器學習模型的開源框架,做項目一定用的上!

作為一個開發,我犯過的錯……

拼團,諮詢,查看課程,請點擊 【

閱讀原文

↓↓↓ 
推薦閱讀:

TAG:學習 | 機器學習 | 面試 | 機器 |