BAT機器學習面試1000題(516~520題)
點擊上方
?
藍字關注七月在線實驗室BAT機器學習面試1000題(516~520題)
516題
下圖是同一個SVM模型, 但是使用了不同的徑向基核函數的gamma參數, 依次是g1, g2, g3 , 下面大小比較正確的是
A、g1 > g2 > g3
B、g1 = g2 = g3
C、g1 < g2 < g3
D、g1 >= g2 >= g3E. g1 <= g2 <= g3
點擊下方空白區域查看答案▼
正確答案是:C
解析:
所謂徑向基函數 (Radial Basis Function 簡稱 RBF), 就是某種沿徑向對稱的標量函數。 通常定義為空間中任一點x到某一中心點xc之間歐氏距離的單調函數 , 可記作 k(||x-xc||), 其作用往往是局部的 , 即當x遠離xc時函數取值很小。
最常用的徑向基函數是高斯核函數 ,形式為 k(||x-xc||)=exp{- ||x-xc||^2/(2*σ^2) } 其中xc為核函數中心,σ為函數的寬度參數 , 控制了函數的徑向作用範圍。由radial basis: exp(-gamma*|u-v|^2)可知, gamma越小, 模型越簡單, 平滑度越好, 分類邊界越不容易過擬合, 所以選C。
517題
假設我們要解決一個二類分類問題, 我們已經建立好了模型, 輸出是0或1, 初始時設閾值為0.5, 超過0.5概率估計, 就判別為1, 否則就判別為0 ; 如果我們現在用另一個大於0.5的閾值, 那麼現在關於模型說法, 正確的是 :
1 模型分類的召回率會降低或不變
2 模型分類的召回率會升高
3 模型分類準確率會升高或不變
4 模型分類準確率會降低
A、1
B、2
C、1和3
D、2和4
E、以上都不是
點擊下方空白區域查看答案 ▼
正確答案是:A
解析:
精確率, 準確率和召回率是廣泛用於信息檢索和統計學分類領域的度量值,用來評價結果的質量。下圖可以幫助理解和記憶它們之間的關係, 其中精確率(precision)和準確率(accuracy)都是關於預測效果的描述. 召回率是關於預測樣本的描述。
精確率表示的是預測為正的樣本中有多少是真正的正樣本。
那麼預測為正就有兩種可能了,一種就是把正類預測為正類(TP),另一種就是把負類預測為正類(FP), 也就是P = TP / (TP + FP)。
準確率表示的是預測的正負樣本有多少是真實的正和負, 預測正確的數量佔全部預測數量的比例, 也就是A = (TP + TN) / (TP + FP + TN + FN) = (TP + TN) / 全部樣本。
召回率表示的是樣本中的正例有多少被預測正確了。那也有兩種可能,一種是把原來的正類預測成正類(TP),另一種就是把原來的正類預測為負類(FN), 也就是R = TP / (TP + FN)。
精確率和召回率二者計算方法其實就是分母不同,一個分母是預測為正的樣本數,另一個是原來樣本中所有的正樣本數。
提高分界閾值大於0.5, 則預測為正的樣本數要降低, 相當於把圖中圓圈變小, 按下圖則可計算
召回率的分子變小分母不變, 所以召回率會變小或不變;
精確率的分子分母同步變化, 所以精確率的變化不能確定;
準確率的分子為圓內綠色加圓外右側矩形面積所圍樣本, 兩者之和變化不能確定; 分母為矩形所含全部樣本不變化, 所以準確率的變化不能確定;
綜上, 所以選A。
518題
「點擊率問題」是這樣一個預測問題, 99%的人是不會點擊的, 而1%的人是會點擊進去的, 所以這是一個非常不平衡的數據集. 假設, 現在我們已經建了一個模型來分類, 而且有了99%的預測準確率, 我們可以下的結論是
A、模型預測準確率已經很高了, 我們不需要做什麼了
B、模型預測準確率不高, 我們需要做點什麼改進模型
C、無法下結論
D、以上都不對
點擊下方空白區域查看答案▼
正確答案是:C
解析:
如寒老師所說,類別不均衡的情況下,不要用準確率做分類評估指標,因為全判斷為不會點,準確率也是99%,但是這個分類器一點用都沒有。
詳細可以參考這篇文章:https://www.analyticsvidhya.com/blog/2016/03/practical-guide-deal-imbalanced-classification-problems/
519題
使用k=1的knn演算法, 下圖二類分類問題, 「+」 和 「o」 分別代表兩個類, 那麼, 用僅拿出一個測試樣本的交叉驗證方法, 交叉驗證的錯誤率是多少:
A、0%
B、100%
C、0%到100
D、以上都不是
點擊下方空白區域查看答案▼
正確答案是: B
解析:
knn演算法就是, 在樣本周圍看k個樣本, 其中大多數樣本的分類是A類, 我們就把這個樣本分成A類. 顯然, k=1 的knn在上圖不是一個好選擇, 分類的錯誤率始終是100%。
520題
我們想在大數據集上訓練決策樹, 為了使用較少時間, 我們可以
A、增加樹的深度
B、增加學習率 (learning rate)
C、減少樹的深度
D、減少樹的數量
點擊下方空白區域查看答案 ▼
正確答案是:C
解析:
增加樹的深度, 會導致所有節點不斷分裂, 直到葉子節點是純的為止. 所以, 增加深度, 會延長訓練時間.決策樹沒有學習率參數可以調. (不像集成學習和其它有步長的學習方法)決策樹只有一棵樹, 不是隨機森林。
題目來源
:七月在線官網(https://www.julyedu.com/)——面試題庫——筆試練習——機器學習今日推薦
我們的【
深度學習集訓營第二期
】火熱報名中。從TensorFlow起步實戰BAT工業項目。11月13日
起正式上課,為期一個多月,努力5周,挑戰年薪40萬,甚至更多薪!
這麼好的機會,還在等什麼,報名即送三門課程,
《機器學習工程師 第八期》、《深度學習 第三期》、《TensorFlow框架案例實戰》
,更好的助力您學習深度學習集訓營課程。且2人及2人以上組團報名,可各減500元
,想組團者請加微信客服:julyedukefu_02
挑戰高薪,從現在開始~
更多資訊
請戳一戳
往期推薦
傷不起的三十歲,干不動的程序員要何去何從?
【Github 6K星】BAT頭條滴滴小米等名企AI工程師筆經面經 + 演算法/機器學習/深度學習/NLP資源匯總
一圖概覽整個深度學習的核心知識體系(建議收藏)
起薪30萬,你還在愁找不到工作?
11個 AI 和機器學習模型的開源框架,做項目一定用的上!
作為一個開發,我犯過的錯……
拼團,諮詢,查看課程,請點擊 【
閱讀原文
】↓↓↓推薦閱讀: