通俗理解激活函數作用的另一種解釋

激活函數其中一個重要的作用是加入非線性因素的,解決線性模型所不能解決的問題。這個解釋在形象的解釋神經網路激活函數的作用是什麼? - 知乎專欄這篇文章已經解釋的比較清楚。

下面從另一個角度來解釋一下激活函數的作用,特徵的充分組合。

首先我們看一個簡單的感知機如下:

其中x1,x2輸入均為特徵的輸入

x3=w1*x1+w2*x2

激活函數採取sigmoid函數,公式表達如下:

S(x)=frac{1}{1+e^{-x} }

S(x3)=frac{1}{1+e^{-x3} }

此時,我們可能看不出什麼不同,但是根據泰勒展開,

我們能夠看到,將x3代碼到激活函數的時候,其實激活函數的e^x泰勒展開後,有平方項,有立方項,有更高的項,這些自動能夠把輸入特徵進行兩兩組合,進行三三組合或者其它的組合。

比如其中的平方項體現了將特徵進行兩兩組合:

(w1*x1+w2*x2)^{2}=(w1*w1*x1*x1+w2*w2*x2*x2+w1*x1*x2*w2)

這就把原來需要領域知識的專家對特徵進行組合的情況,在激活函數運算後,其實也能夠起到特徵組合的作用。(只要激活函數中有能夠泰勒展開的函數,就可能起到特徵組合的作用)

這也許能給我們一些思考。

致謝:張梅山老師

更多文章可以在公眾號查閱~


推薦閱讀:

深度學習一行一行敲faster rcnn-keras版(目錄)
模式識別與機器學習第四講(附錄E、第2章序言)
十圖詳解tensorflow數據讀取機制(附代碼)
為什麼要對數據進行歸一化處理?

TAG:机器学习 | 深度学习DeepLearning | 自然语言处理 |