那些深度學習《面試》你可能需要知道的

本文的一些問題均基於書本的理論知識較多,真正的有關於深度學習的面試可能更多的會結合"實踐"展開,並最終落到理論部分。希望各位讀者不要被我這個誤導,這裡更多的是偏向於理論知識問題。

下面演算法大數據相關的《面試》問題

1.機器學習及大數據相關面試的職責和面試問題(轉)

2.如何準備機器學習工程師的面試 ?

對推薦演算法感興趣的小夥伴可以前往以下鏈接:

推薦演算法相關的文檔整理

也歡迎小夥伴們繼續補充,可以私信給我,我會加到問題列表裡面

0.關於答案

a.由於非常多的小夥伴諮詢答案問題,其實很多都可以在bengio和goodfellow的《深度學習》以及simon haykin的《nerual networks and learning machines》裡面找到,但限於每個問題如果展開來講,篇幅較大,有興趣的小夥伴可以去查詢書籍。

b.如果有小夥伴對其中的問題有所了解,可以在評論區之間回答,方便後續關注的小夥伴的學習。因為書上很多其實是前後關聯的,單單一個地方的回答其實只是一部分。

c.重要的事情再申明一下,對某些問題有所了解的歡迎在評論區回復,或貼出你的回答鏈接也可。

問題

1.列舉常見的一些範數及其應用場景,如L0,L1,L2,L∞,Frobenius範數

2.簡單介紹一下貝葉斯概率與頻率派概率,以及在統計中對於真實參數的假設。

3.概率密度的萬能近似器

4.簡單介紹一下sigmoid,relu,softplus,tanh,RBF及其應用場景

5.Jacobian,Hessian矩陣及其在深度學習中的重要性

6.KL散度在資訊理論中度量的是那個直觀量

7.數值計算中的計算上溢與下溢問題,如softmax中的處理方式

8.與矩陣的特徵值相關聯的條件數(病態條件)指什麼,與梯度爆炸與梯度彌散的關係

9.在基於梯度的優化問題中,如何判斷一個梯度為0的零界點為局部極大值/全局極小值還是鞍點,Hessian矩陣的條件數與梯度下降法的關係

10.KTT方法與約束優化問題,活躍約束的定義

11.模型容量,表示容量,有效容量,最優容量概念

12.正則化中的權重衰減與加入先驗知識在某些條件下的等價性

13.高斯分布的廣泛應用的緣由

14.最大似然估計中最小化KL散度與最小化分布之間的交叉熵的關係

15.在線性回歸問題,具有高斯先驗權重的MAP貝葉斯推斷與權重衰減的關係,與正則化的關係

16.稀疏表示,低維表示,獨立表示

17.列舉一些無法基於地圖的優化來最小化的代價函數及其具有的特點

18.在深度神經網路中,引入了隱藏層,放棄了訓練問題的凸性,其意義何在

19.函數在某個區間的飽和與平滑性對基於梯度的學習的影響

20.梯度爆炸的一些解決辦法

21.MLP的萬能近似性質

22.在前饋網路中,深度與寬度的關係及表示能力的差異

23.為什麼交叉熵損失可以提高具有sigmoid和softmax輸出的模型的性能,而使用均方誤差損失則會存在很多問題。分段線性隱藏層代替sigmoid的利弊

24.表示學習的發展的初衷?並介紹其典型例子:自編碼器

25.在做正則化過程中,為什麼只對權重做正則懲罰,而不對偏置做權重懲罰

26.在深度學習神經網路中,所有的層中考慮使用相同的權重衰減的利弊

27.正則化過程中,權重衰減與Hessian矩陣中特徵值的一些關係,以及與梯度彌散,梯度爆炸的關係

28.L1/L2正則化與高斯先驗/對數先驗的MAP貝葉斯推斷的關係

29.什麼是欠約束,為什麼大多數的正則化可以使欠約束下的欠定問題在迭代過程中收斂

30.為什麼考慮在模型訓練時對輸入(隱藏單元/權重)添加方差較小的雜訊,與正則化的關係

31.共享參數的概念及在深度學習中的廣泛影響

32.Dropout與Bagging集成方法的關係,以及Dropout帶來的意義與其強大的原因

33.批量梯度下降法更新過程中,批量的大小與各種更新的穩定性關係

34.如何避免深度學習中的病態,鞍點,梯度爆炸,梯度彌散

35.SGD以及學習率的選擇方法,帶動量的SGD對於Hessian矩陣病態條件及隨機梯度方差的影響

36.初始化權重過程中,權重大小在各種網路結構中的影響,以及一些初始化的方法;偏置的初始化

37.自適應學習率演算法:AdaGrad,RMSProp,Adam等演算法的做法

38.二階近似方法:牛頓法,共軛梯度,BFGS等的做法

39.Hessian的標準化對於高階優化演算法的意義

40.卷積網路中的平移等變性的原因,常見的一些卷積形式

41.pooling的做法的意義

42.循環神經網路常見的一些依賴循環關係,常見的一些輸入輸出,以及對應的應用場景

43.seq2seq,gru,lstm等相關的原理

44.採樣在深度學習中的意義

45.自編碼器與線性因子模型,PCA,ICA等的關係

46.自編碼器在深度學習中的意義,以及一些常見的變形與應用

47.受限玻爾茲曼機廣泛應用的原因

48.穩定分布與馬爾可夫鏈

49.Gibbs採樣的原理

50.配分函數通常難以計算的解決方案

51.幾種參數估計的聯繫與區別:MLE/MAP/貝葉斯

52.半監督的思想以及在深度學習中的應用

53.舉例CNN中的channel在不同數據源中的含義

54.深度學習在NLP,語音,圖像等領域的應用及常用的一些模型

55.word2vec與glove的比較

56.注意力機制在深度學習的某些場景中為何會被大量使用,其幾種不同的情形

57.wide&deep模型中的wide和deep介紹

58.核回歸與RBF網路的關係

此處問題很多編者本人也只有一個來自教材書籍的局部認識,望各位批評指正,可以在評論區留下正確全面的回答,共同學習與進步。

59.LSTM結構推導,為什麼比RNN好?

60.過擬合在深度學習中的常見的一些解決方案或結構設計

61.怎麼理解貝葉斯模型的有效參數數據會根據數據集的規模自動調整

推薦閱讀:

大數據背後的神秘公式—貝葉斯公式
能否訓練一個AI,能夠自動製作OSU!的鋪面?
機器學習初學者該如何選讀適合自己水平的論文?
用libsvm做時間序列預測,為什麼訓練數據越少越準確?
如何認識和看待人工智慧?人工智慧的巔峰是什麼?

TAG:深度学习DeepLearning | 算法 | 人工智能算法 |