卷積神經網路中用1*1 卷積有什麼作用或者好處呢？

01-21

卷積神經網路中用1*1 卷積有什麼作用或者好處呢？為什麼非要加個1*1 呢，那不就是簡單的線性變換嗎？？
謝謝

1*1卷積過濾器 和正常的過濾器一樣，唯一不同的是它的大小是1*1，沒有考慮在前一層局部信息之間的關係。最早出現在 Network In Network的論文中，使用1*1卷積是想加深加寬網路結構，在Inception網路（ Going Deeper with Convolutions ）中用來降維，如下圖：

由於3*3卷積或者5*5卷積在幾百個filter的卷積層上做卷積操作時相當耗時，所以1*1卷積在3*3卷積或者5*5卷積計算之前先降低維度。

那麼，1*1卷積的主要作用有以下幾點：

1、降維（ dimension reductionality ）。比如，一張500 * 500且厚度depth為100 的圖片在20個filter上做1*1的卷積，那麼結果的大小為500*500*20。

2、加入非線性。卷積層之後經過激勵層，1*1的卷積在前一層的學習表示上添加了非線性激勵（ non-linear activation ），提升網路的表達能力；

Inception

下圖是Inception的結構，儘管也有不同的版本，但是其動機都是一樣的：消除尺寸對於識別結果的影響，一次性使用多個不同filter size來抓取多個範圍不同的概念，並讓網路自己選擇需要的特徵。

你也一定注意到了藍色的1x1卷積，撇開它，先看左邊的這個結構。

輸入（可以是被卷積完的長方體輸出作為該層的輸入）進來後，通常我們可以選擇直接使用像素信息(1x1卷積)傳遞到下一層，可以選擇3x3卷積，可以選擇5x5卷積，還可以選擇max pooling的方式downsample剛被卷積後的feature maps。但在實際的網路設計中，究竟該如何選擇需要大量的實驗和經驗的。 Inception就不用我們來選擇，而是將4個選項給神經網路，讓網路自己去選擇最合適的解決方案。

接下來我們再看右邊的這個結構，多了很多藍色的1x1卷積。這些1x1卷積的作用是為了讓網路根據需要能夠更靈活的控制數據的depth的。

1x1卷積核

如果卷積的輸出輸入都只是一個平面，那麼1x1卷積核並沒有什麼意義，它是完全不考慮像素與周邊其他像素關係。但卷積的輸出輸入是長方體，所以1x1卷積實際上是對每個像素點，在不同的channels上進行線性組合（信息整合），且保留了圖片的原有平面結構，調控depth，從而完成升維或降維的功能。

如下圖所示，如果選擇2個filters的1x1卷積層，那麼數據就從原本的depth 3 降到了2。若用4個filters，則起到了升維的作用。

這就是為什麼上面Inception的4個選擇中都混合一個1x1卷積，如右側所展示的那樣。其中，綠色的1x1卷積本身就1x1卷積，所以不需要再用另一個1x1卷積。而max pooling用來去掉卷積得到的Feature Map中的冗餘信息，所以出現在1x1卷積之前，緊隨剛被卷積後的feature maps。（由於沒做過實驗，不清楚調換順序會有什麼影響。）

來自YJango的卷積神經網路--介紹 - 知乎專欄

前面的回答講了許多1*1卷積核好處之類的，但是我認為沒有切中題主想問的。題主想問的其實是，1*1的卷積不就是多個feature channels之間的線性疊加嗎，為什要說成是什麼1*1的卷積這種貌似有特殊牛逼功能的概念？

題主你想的是對的，1*1的卷積就是多個feature channels線性疊加，nothing more!只不過這個組合係數恰好可以看成是一個1*1的卷積。這種表示的好處是，完全可以回到模型中其他常見N*N的框架下，不用定義新的層。

可以參考：CNN中，1X1卷積核到底有什麼作用呢？ | 1X1卷積核到底有什麼作用呢？ - Caffe中國用戶社區 | One by One [ 1 x 1 ] Convolution - counter-intuitively useful

1*1卷積核最開始是在顏水成論文 [1312.4400] Network In Network 中提出的，後來被[GoogLeNet 1409.4842] Going Deeper with Convolutions的Inception結構繼續應用了。

可以實現：

1. 實現跨通道的交互和信息整合

1×1的卷積層（可能）引起人們的重視是在NIN的結構中，論文中林敏師兄的想法是利用MLP代替傳統的線性卷積核，從而提高網路的表達能力。文中同時利用了跨通道pooling的角度解釋，認為文中提出的MLP其實等價於在傳統卷積核後面接cccp層，從而實現多個feature map的線性組合，實現跨通道的信息整合。而cccp層是等價於1×1卷積的，因此細看NIN的caffe實現，就是在每個傳統卷積層後面接了兩個cccp層（其實就是接了兩個1×1的卷積層）。

2. 進行卷積核通道數的降維和升維，減少網路參數

進行降維和升維引起人們重視的（可能）是在GoogLeNet里。對於每一個Inception模塊（如下圖），原始模塊是左圖，右圖中是加入了1×1卷積進行降維的。雖然左圖的卷積核都比較小，但是當輸入和輸出的通道數很大時，乘起來也會使得卷積核參數變的很大，而右圖加入1×1卷積後可以降低輸入的通道數，卷積核參數、運算複雜度也就跟著降下來了。以GoogLeNet的3a模塊為例，輸入的feature map是28×28×192，3a模塊中1×1卷積通道為64，3×3卷積通道為128,5×5卷積通道為32，如果是左圖結構，那麼卷積核參數為1×1×192×64+3×3×192×128+5×5×192×32，而右圖對3×3和5×5卷積層前分別加入了通道數為96和16的1×1卷積層，這樣卷積核參數就變成了1×1×192×64+（1×1×192×96+3×3×96×128）+（1×1×192×16+5×5×16×32），參數大約減少到原來的三分之一。同時在並行pooling層後面加入1×1卷積層後也可以降低輸出的feature map數量，左圖pooling後feature map是不變的，再加卷積層得到的feature map，會使輸出的feature map擴大到416，如果每個模塊都這樣，網路的輸出會越來越大。而右圖在pooling後面加了通道為32的1×1卷積，使得輸出的feature map數降到了256。GoogLeNet利用1×1的卷積降維後，得到了更為緊湊的網路結構，雖然總共有22層，但是參數數量卻只是8層的AlexNet的十二分之一（當然也有很大一部分原因是去掉了全連接層）。

最近大熱的MSRA的ResNet同樣也利用了1×1卷積，並且是在3×3卷積層的前後都使用了，不僅進行了降維，還進行了升維，使得卷積層的輸入和輸出的通道數都減小，參數數量進一步減少，如下圖的結構。（不然真不敢想像152層的網路要怎麼跑起來TAT）

1，增加模型深度，一定程度上提升模型的表徵能力；

2，1*1channel數減少，減少模型中層的weight的稀疏的可能性；

相關可以參考Network in Network和GoogLeNet的paper，很詳細描述了使用1*1的conv的原因

可以在很低的複雜度情況下升維，也可以降維，很靈活

如果是單通道單個卷積核的話，那麼1＊1的卷積的確等價於一個線性變換。

但是，當輸入是多通道（多個feature map）時，1＊1的卷積就相當於多個feature map的線性組合，如果再加上激活層，那麼這個就是一個mini的多層（多個卷積下）感知機了。

network in network應該不是最早提出1＊1的卷積核的文章吧？但可以肯定的是，它是第一篇很好地解釋了1＊1卷積原理的文章，即：

普通卷積層+多個1＊1卷積（followed by 激活層）等價於類patch級別的MLP

而單獨的1＊1卷積，實際上是多個通道的參數化pooling（線性組合）。

可以降低特徵圖的維數，防止參數過多，有利於增加深層網路的寬度

前幾天在一個fcn的分享會上談到了1x1卷積核的問題，劉總回憶他曾在某會上問顏老師「您覺得您發的論文中，您覺得最驕傲的有哪些？」，顏老師答子空間和1x1卷積核。後來劉總談了自己的看法，這樣做可以理解為一根筷子插了3本書，相比較於傳統全連接層，1x1卷積保留了空間信息。

對上一層的多個channel做加權平均。

最早是https://arxiv.org/pdf/1312.4400v3.pdf 提出的

主要用於降維，減少參數個數，做特徵變換，以及增加寬度。

可以參考：One by One [ 1 x 1 ] Convolution - counter-intuitively useful

總體來說就是多個feature map 線性疊加和輸出維度升維或者降維。

這篇文章也許能幫到你，結合Inception Net：

#Inception深度網路家族盤點 | Inception v4 和Inception-ResNet未來走向何方 ?

改變厚度，本層的filter個數決定下一層厚度，步長決定長和寬。用1*1和3*3都能實現，但後者需要學習的參數更多。

相當於多個線性線段擬合函數作用，提高網路擬合能力

可以升維

可以降維

結合非線性單元引入非線性

我感覺就是像素級的全鏈接網路

降維減少參數可以理解，升維是什麼原因？為什麼要升維？

補充一個其他答主沒提到的:

促進不同通道之間的信息交換

之前試過連續多次 bilinear upsample 之間各插一個 1 * 1 全卷積層，直覺理解就是加了層緩衝