淺談神經網路與數學之間的關係
那麼BP演算法具體是什麼呢?為什麼通過BP演算法,我們就可以一步一步的走向最優值(即使有可能是局部最優,不是全局最優,我們也可以通過其它的方法也達到全局最優),有沒有一些什麼數學原理在裡面支撐呢?這幾天梳理了一下這方面的知識點,寫下來,一是為了記錄,二也可以分享給大家,防止理解錯誤,一起學習交流.
BP演算法具體是什麼,可以參考我這篇文章知乎專欄(詳細的將BP過程走了一遍,加深理解),那麼下面解決這個問題,為什麼通過BP演算法,就可以一步一步的走向更好的結果.首先我們從神經網路的運行原理來看,假如現在有下面這個簡單的網路,如圖:
我們定義符號說明如下:
則我們正向傳播一次可以得到下面公式:那麼我們希望訓練出來的網路預測出來的值和真實的值越接近越好.我們先暫時不管SGD這種方法,最暴力的我們希望對於一個訓練數據,C能達到最小,而在C表達式中,我們可以把C表達式看做是所有w參數的函數,也就是求這個多元函數的最值問題.那麼成功的將一個神經網路的問題引入到數學中最優化的路上了.
-----------------我是分割線------------------------
好,我們現在順利的將一個神經網路要解決的事情轉變為一個多元函數的最優化上面來了.現在的問題是怎麼修改w,來使得C越來越往最小值靠近呢.常見的方法我們可以採取梯度下降法(為什麼梯度下降法中梯度的反方向是最快的方向,可以參考我下篇文章,不是這篇文章主旨).可能到這還有點抽象,下面舉一個特別簡單的例子.
假如我們的網路非常簡單,如下圖(符號說明跟上面一樣):
那麼我們可以得到:其中
只有w參數是未知的,那麼C就可以看做是關於w的二元函數(二元函數的好處就是我們可以在三維坐標上將它可視化出來,便於理解~).圖片來自於網路:
下面走一遍演算法過程:
我們先開始隨機初始化w參數,相當於我們可以在圖上對應A點.
下面我們的目標是到達最低點F點,於是我們進行往梯度反方向進行移動,公式如下:
每走一步的步伐大小由前面的學習率決定,假如下一步到了B點,這樣迭代下去,如果全局只有一個最優點的話,我們在迭代數次後,可以到達F點,從而解決我們的問題。那麼好了,上面我們給出二元函數這種簡單例子,從分析到最後求出結果,我們能夠直觀可視化最後的步驟,那麼如果網路複雜後,變成多元函數的最優值求法原理是一模一樣的!到此,我結束了該文要講的知識點了.歡迎各位知友指錯交流~
------------------我是分割線--------------------------
在我學習的時候,我已經理解了上面的知識了,但是我在思考既然我最後已經得到一個關於w的多元函數了,那麼我為什麼不直接對每一個w進行求偏導呢,然後直接進行更新即可,為什麼神經網路的火起還需要bp演算法的提出才復興呢!我的疑惑就是為什麼不可以直接求偏導,而必須出現BP演算法之後才使得神經網路如此的適用呢?下面給出我的思考和理解(歡迎交流~)
1.為什麼不可以直接求導數
在神經網路中,由於激活函數的存在,很多時候我們在最後的代價函數的時候,包含w參數的代價函數並不是線性函數,比如最簡單的
這個函數對w進行求導是無法得到解析解的,那麼說明了無法直接求導的原因
2 那麼既然我們我們不能夠直接求導,我們是否可以近似的求導呢?比如可以利用
根據這個公式我們可以近似的求出對每個參數的導數,間距越小就越接近,那麼為什麼不可以這樣,而必須等到BP演算法提出來的時候呢?思考中.......
答:是因為計算機量的問題,假設我們的網路中有100萬個權重,那麼我們每一次算權重的偏導時候,都需要計算一遍改變值,而改變值必須要走一遍完整的正向傳播.那麼對於每一個訓練樣例,我們需要100萬零一次的正向傳播(還有一次是需要算出C),而我們的BP演算法求所有參數的偏導只需要一次反向傳播即可,總共為倆次傳播計時.到這裡我想已經解決了為什麼不能夠用近似的辦法,因為速度太慢,計算複雜度太大了~每一次的傳播,如果參數多的話,每次的矩陣運算量非常大,以前的機器速度根本無法承受~所以直到有了BP這個利器之後,加快了神經網路的應用速度.
以上僅個人理解,感謝德川的幫助!歡迎知友提出問題交流~
以下是我學慣用到的資料和博客:《neural networks and deep learning》需要中文版的歡迎留言郵箱零基礎入門深度學習(1) - 感知器推薦閱讀:
※神經網路中利用矩陣進行反向傳播運算的實質
※用人工神經網路求解微分方程
※邏輯與神經之間的橋
※9行Python代碼搭建神經網路
※M.1.0 神經網路的數學基礎-前言
TAG:深度学习DeepLearning | 机器学习 | 神经网络 |