金字塔卷積PyConv來了！"即插即用"，提升你的網絡性能

加入極市專業CV交流羣，與 1 0000+來自港科大、北大、清華、中科院、CMU、騰訊、百度 等名校名企視覺開發者互動交流！

同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊彙總，行業技術交流。關注 極市平臺 公衆號，回覆 加羣， 立刻申請入羣~

來源｜AIWalker

導讀：該文參考SIFT的多尺度特徵提取思路設計了一種新穎的金字塔卷積，它不用於其他類似方法的關鍵點在於：卷積核的多尺度。同時爲了儘可能的降低整體計算複雜度，在每個group內再一次進行組卷積，以確保金字塔卷積的計算量與標準卷積的計算量相當。筆者認爲這篇論文思想簡單，易於實現，效果驚人。推薦各位稍微花點時間瞭解一下這篇文章(注：亮點在Appendix部分)

論文： https://arxiv.org/abs/2006.11538

代碼：

https://github.com/iduta/pyconv

Abstract

該文提出一種金字塔卷積(Pyramidal Convolution, PyConv)，它可以在多個濾波器尺度對輸入進行處理。PyConv包含一個核金字塔，每一層包含不同類型的濾波器(濾波器的大小與深度可變，因此可以提取不同尺度的細節信息)。除了上述提到的可以提取多尺度信息外，相比標準卷積，PyConv實現高效，即不會提升額外的計算量與參數量。更進一步，它更爲靈活並具有可擴展性，爲不同的應用提升了更大的架構設計空間。

PyConv幾乎可以對每個CV任務都有正面影響，作者基於PyConv對四大主流任務(圖像分類、視頻分類、目標檢測以及語義分割)進行了架構設計。相比baseline，所提方法取得了一致性的性能提升。比如在圖像分類任務上，所提50層模型優於ResNet152，同時具有更少的參數量(2.39x-fewer)、計算複雜度(2.52x-fewer)以及更少的層數和；在語義分割任務上，它在ADE20K數據集上指標達到SOTA(注：好像並不如ResNeSt的指標)。

Introduction

首先，我們先來說明一下已有CNN網絡架構在感受野擀麪存在的兩個問題：

儘管當前主流CNN網絡架構理論具有非常大的感受野(包含輸入的大部分、甚至全含整個輸入)，但是有研究表明：實際CNN的感受野要比理論小的多(2.7x-less)；
已有的下采樣方案(如池化、stride卷積)會造成信息的損失，進而影響模型的性能。

然後，我們再來簡單介紹一下實際場景中物體的尺度信息。以下圖爲例，包含室內與室外兩個場景及其對應的語義標籤。從圖中可以看到：部分物體具有非常大的空間形式(比如建築物、樹以及沙發)，部分物體具有非常小的空間表現形式(比如行人、書本等)。甚至同一物體具有非常大的可變的空間變現形式(比如室外場景中的汽車)。

上述這種空間變大巨大的表現形式是標準卷積所無法有效提取的，而CV的終極目標是：提取輸入的多尺度信息。在這方面最爲知名的當屬SIFT，它可以從不同尺度提取特徵描述算子。然而深度學習中的卷積卻並未具有類似SIFT這種提取多尺度特徵的能力。

最後，我們再來說明一下作者爲解決上述挑戰而提出的幾點創新：

(1) 作者引入一種金字塔卷積(PyConv)，它包含不同尺度與深度的卷積核，進而確保了多尺度特徵的提取；
(2) 作者爲圖像分類任務提出了兩種網絡架構並以極大優勢優於baseline，同時具有更少的參數量與計算複雜度；
(3) 作者爲語義分割任務提出了一個新的框架：一種新穎的Head用於對backbone提取的特徵可以從局部到全局進行上下文信息特徵提取，並在場景解析方面取得了SOTA性能；
(4) 作者基於PyConv而設計的網絡架構在目標檢測與視頻分類任務上取得了性能的極大提升。

Pyramidal Convolution

下圖a給出了標準卷積的示意圖，它包含單一類型的核：卷積核的空間分辨率爲(應用最多的當屬，即)而深度則等於輸入特徵通道數。那麼執行個相同分辨率與深度卷積核得到個輸出特徵。因此，標準卷積的參數量與計算量分別爲：,。

上圖b給出了所提PyCOnv的示意圖，它包含一個由n層不同類型核構成的金字塔。PyConv的目標是：在不提升計算複雜或參數量的前提下采用多尺度覈對輸入進行處理。PyConv每一層的核包含不同的空間尺寸(自下而上提升)，隨卷積核的提升而逐漸降低核的深度。

爲使PyConv在不同層使用不同深度的卷積核，需要將輸入特徵劃分爲不同的組並獨立的進行卷積計算，稱之爲組卷積(見下圖示例)。不知各位有沒有覺得這個思想跟谷歌的MixNet思想非常相似，MixNet中也是採用了類似組卷積方式進行不同尺寸卷積覈計算，文末附對比分析。

但是，需要注意哈：組卷積中每組的通道數是相同的。MixNet中的也是相同的，而PyConv則是不相同的，可以說MixNet是PyConv的一個特例。每組特徵通道數上的區別構成MixConv與PyConv的最大區別所在。

假設PyConv的輸入包含個通道數，PyConv每一層的卷積核尺寸爲，深度爲，對應的輸出特徵維度爲。PyConv的參數量與計算複雜度如下：

其中。

注：如果每一層輸出的通道數相同，那麼每一層的參數量與計算複雜度就會分佈比較均勻。基於上述描述，可以看到：PyConv的計算複雜度與標準卷積相近。

在實際應用時，作者爲PyConv添加了額外的規則：每一層的通道數應當是相同的。這也就要求了PyConv的輸入通道數應當是2的冪次。

所提PyConv具有這樣幾個優點：

Multi-scale Processing. 這個特性是非常明顯的，卷積核尺寸是多尺度的嘛；
Efficiency. PyConv可以通過並行的方式進行計算，因此計算高效(組卷積在GPU上的效率好像並不高，反而更適合CPU)；
Flexibility. 由於具有與標準卷積相近的參數量和計算複雜度，那麼用戶可以更靈活的去調節PyConv的超參數(比如層數、不同層的輸出通道數，不同深度設置不同的PyConv參數、不同層採用不同的組數)。注：這一點又跟MixNe相似了，MixNet通過NAS方式進行搜索的。