通俗理解激活函數作用的另一種解釋

01-28

激活函數其中一個重要的作用是加入非線性因素的，解決線性模型所不能解決的問題。這個解釋在形象的解釋神經網路激活函數的作用是什麼？ - 知乎專欄這篇文章已經解釋的比較清楚。

下面從另一個角度來解釋一下激活函數的作用，特徵的充分組合。

首先我們看一個簡單的感知機如下：

其中x1,x2輸入均為特徵的輸入

$x3=w1*x1+w2*x2$

激活函數採取sigmoid函數,公式表達如下：

$S(x)=frac{1}{1+e^{-x} }$

則 $S(x3)=frac{1}{1+e^{-x3} }$

此時，我們可能看不出什麼不同，但是根據泰勒展開，

我們能夠看到，將x3代碼到激活函數的時候，其實激活函數的e^x泰勒展開後，有平方項，有立方項，有更高的項，這些自動能夠把輸入特徵進行兩兩組合，進行三三組合或者其它的組合。

比如其中的平方項體現了將特徵進行兩兩組合：

$(w1*x1+w2*x2)^{2}=(w1*w1*x1*x1+w2*w2*x2*x2+w1*x1*x2*w2)$

這就把原來需要領域知識的專家對特徵進行組合的情況，在激活函數運算後，其實也能夠起到特徵組合的作用。（只要激活函數中有能夠泰勒展開的函數，就可能起到特徵組合的作用）

這也許能給我們一些思考。

致謝：張梅山老師

更多文章可以在公眾號查閱~