图解十大 CNN 架构

摘要：\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E发表：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003E论文：Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E作者：Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, Alex Alemi. Google\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E发表于：Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003E10. ResNeXt-50 (2017)\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01Cij2ZExHNw\" img_width=\"1000\" img_height=\"387\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003EFig. 10: ResNeXt架构, 引自对应论文.\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E发表：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003E论文：Aggregated Residual Transformations for Deep Neural Networks\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E作者：Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He. University of California San Diego, Facebook Research\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E发表于：2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003E附录：Network In Network (2014)\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cstrong\u003E⭐️创新点：\u003C\u002Fstrong\u003E\u003Cp\u003E1.MLP卷积层, 1×1卷积\u003C\u002Fp\u003E\u003Cp\u003E2.全局平均池化(取每个特征map的平均值，并将结果向量输入softmax层) \u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E发表：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003E论文: Network In Network\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E作者: Min Lin, Qiang Chen, Shuicheng Yan. National University of Singapore\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003EarXiv印本, \u003Ci class=\"chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2\"\u003E2013\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cstrong\u003E这里把10个网络结构的可视化图再罗列一下，作简单的回顾：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003ELeNet-5\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Ch3\u003E\u003Cstrong\u003EAlexNet\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01D91FmBjKMY\" img_width=\"700\" img_height=\"138\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003EVGG-16\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01D9O5aun3Uo\" img_width=\"700\" img_height=\"131\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003EInception-v1\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003EInception-v3\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003EInception-v4\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003EInception-ResNet-V2\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003EXception\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003EResNet-50\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003EResNeXt-50\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003E神经网络可视化资源\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cp\u003E这里有一些资源可以让你可视化你的神经网络: \u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003ENetron （https:\u002F\u002Flutzroeder.github.io\u002Fnetron\u002F）\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003ETensorBoard API by TensorFlow（https:\u002F\u002F\u003Ci class=\"chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2\"\u003Ewww.\u003C\u002Fi\u003Etensorflow.org\u002Ftensorboard\u002Fr1\u002Foverview）\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003Eplot_model API by Keras（https:\u002F\u002Fkeras.io\u002Fvisualization\u002F）\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003Epytorchviz package（https:\u002F\u002Fgithub\u003Ci class=\"chrome-extension-mutihighlight chrome-extension-mutihighlight-style-4\"\u003E.com\u003C\u002Fi\u003E\u002Fszagoruyko\u002Fpytorchviz）\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003E类似文章\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003ECNN Architectures: LeNet, AlexNet, VGG, GoogLeNet, ResNet and more。\u003C\u002Fp\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003E发表：\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003E论文：Gradient-Based Learning \u003Ci class=\"chrome-extension-mutihighlight chrome-extension-mutihighlight-style-1\"\u003EApp\u003C\u002Fi\u003Elied to Document Recognition\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E作者：Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E发表于：Proceedings of the IEEE (1998)\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003E2. AlexNet\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01CHRFMrNfHt\" img_width=\"1000\" img_height=\"198\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003E图2：AlexNet结构，引自他们的论文\u003C\u002Fp\u003E\u003Cp\u003EAlexNet网络有6千万个参数，8个网络层——5个卷积层和3个全连接层。

"\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01Bu1Hn58Ql\" img_width=\"900\" img_height=\"506\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003E\u003Cstrong\u003ECNN 取得的大多数进展并非源自更强大的硬件、更多的数据集和更大的模型，而主要是由新的想法和算法以及优化的网络结构共同带来的结果。\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E原标题 | Illustrated: 10 CNN Architectures\u003C\u002Fp\u003E\u003Cp\u003E翻译 | 廖颖、had_in（电子科技大学）、爱曼纽•西蒙（东南大学）\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E所谓“常见”，我指的是那些深度学习库(如TensorFlow、Keras和PyTorch)共享的有预训练权重的模型，以及通常在课堂上所讲的模型。其中一些模型在ImageNet大规模视觉识别挑战赛(ILSVRC)等竞赛中取得了成功。 \u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01BuL2AhIXPa\" img_width=\"1000\" img_height=\"288\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003E将讨论的10个架构及对应论文的年份\u003C\u002Fp\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01BubFd2pXBG\" img_width=\"700\" img_height=\"316\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003E我们将讨论在Keras中具有预训练模型的6种架构。上图改编自Keras文档中的一个表。 \u003C\u002Fp\u003E\u003Cp\u003E写这篇文章的初心是考虑到目前没有太多图解网络结构的博客和文章（如果你知道相关的文章，请分享给我吧）。所以我决定写一篇文章来作为参考。出于这样的目的，我阅读了许多论文和代码（大多来自TensorFlow和Keras）来完成这篇文章。\u003C\u002Fp\u003E\u003Cp\u003E补充一点，我们平时看到的卷积神经网络架构是很多因素的结果——升级的计算机硬件、ImageNet比赛、处理特定的任务、新的想法等等。Google 研究员 Christian Szegedy曾提到：\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003ECNN 取得的大多数进展并非源自更强大的硬件、更多的数据集和更大的模型，而主要是由新的想法和算法以及优化的网络结构共同带来的结果。（Christian Szegedy等人，2014）\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E现在我们继续介绍，看看网络结构是如何慢慢优化起来的。\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E关于可视化图的说明：可视化图中没有再标注卷积核数量、padding、stride、dropout和拉平操作。\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003E目录 (按发表年份排序)\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Col\u003E\u003Cli\u003E\u003Cp\u003ELeNet-5\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003EAlexNet\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003EVGG-16\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003EInception-v1\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003EInception-v3\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003EResNet-50\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003EXception\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003EInception-v4\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003EInception-ResNets\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003EResNeXt-50\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Fol\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003E图例\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01But9Yxh4n8\" img_width=\"1000\" img_height=\"463\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003E1. LeNet-5 (1998)\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01Bv74Lx75Pu\" img_width=\"700\" img_height=\"178\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003E图1：LeNet-5架构，引自他们的论文 \u003C\u002Fp\u003E\u003Cp\u003ELeNet-5是最简单的架构之一。它有2个卷积层和3个全连接层(因此是“5”——神经网络的名称通常是由它们拥有的卷积层和全连接层的数量派生出来的)。我们现在所知道的平均池化层被称为子采样层，它具有可训练的权重(和当前设计CNNs不同)。这个架构有大约60,000个参数。\u003C\u002Fp\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003E⭐️创新点：\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cp\u003E这种架构已经成为标准的“模板”:叠加卷积层和池化层，并以一个或多个全连接层结束网络。\u003C\u002Fp\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003E发表：\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003E论文：Gradient-Based Learning \u003Ci class=\"chrome-extension-mutihighlight chrome-extension-mutihighlight-style-1\"\u003EApp\u003C\u002Fi\u003Elied to Document Recognition\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E作者：Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E发表于：Proceedings of the IEEE (1998)\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003E2. AlexNet\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01CHRFMrNfHt\" img_width=\"1000\" img_height=\"198\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003E图2：AlexNet结构，引自他们的论文\u003C\u002Fp\u003E\u003Cp\u003EAlexNet网络有6千万个参数，8个网络层——5个卷积层和3个全连接层。相比于LeNet-5，AlexNet只是堆了更多的网络层。\u003C\u002Fp\u003E\u003Cp\u003E在论文发表时，作者指出AlexNet是“在ImageNet子集上训练的最大的卷积神经网络之一。”\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E⭐️创新点：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E1.他们首次实现将线性整流函数（ReLus）作为激活函数。\u003C\u002Fp\u003E\u003Cp\u003E2.使用卷积神经网络的重叠池化。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E发表：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003E论文：深度卷积神经网络用于ImageNet分类\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E作者：Alex Krizhevsky, IIya Sutskever, Geoffrey Hinton. 加拿大，多伦多大学\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E发表于：2012年神经信息处理系统\u003Ci class=\"chrome-extension-mutihighlight chrome-extension-mutihighlight-style-1\"\u003E会议\u003C\u002Fi\u003E（NeurIPS 2012）\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003E3. VGG-16 (2014)\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01CHlUU4TJ6\" img_width=\"1000\" img_height=\"187\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003E图3：VGG-16架构，引自他们的论文 \u003C\u002Fp\u003E\u003Cp\u003E你现在应该已经注意到CNNs开始变得越来越深了。这是因为提高深度神经网络性能最直接的方法是增加它们的大小(Szegedy et. al)。Visual Geometry Group (VGG)的工作人员提出了VGG-16，它有13个卷积层和3个全连接层，继续采用了AlexNet的ReLU激活函数。同样，这个网络只是在AlexNet上堆叠了更多的层。它有138M的参数，占用大约500mb的磁盘空间。他们还设计了一种更深的变型，VGG-19。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E⭐️创新点：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E正如他们在摘要中提到的，本文的贡献在于设计了更深层次的网络(大约是AlexNet的两倍)。 \u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E发表：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003E论文：Very Deep Convolutional Networks for Large-Scale Image Recognition\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E作者：Karen Simonyan, Andrew Zisserman. University of Oxford, UK.\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003EarXiv 印本, 2014\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003E4. Inception-v1 (2014)\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Ch2\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01CI04dckmbm\" img_width=\"1000\" img_height=\"683\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003C\u002Fh2\u003E\u003Cp\u003E图4：Inception-v1架构。这个CNN有两个辅助网络(在推断时被丢弃)。体系结构引自论文中的图3。\u003C\u002Fp\u003E\u003Cp\u003E这个22层网络架构具有5M的参数，被称为 Inception-v1 网络。这个架构，如论文中所述，大量使用了Network In Network(参见附录)方法。这是通过“Inception 模块”实现的。Inception模块的架构设计是对稀疏结构近似研究的产物(更多信息请阅读论文)。每个模块有3个点改进：\u003C\u002Fp\u003E\u003Cp\u003E1.使用不同卷积的并行拓扑结构，然后进行连接，获得1×1、3×3和5×5卷积提取的不同特征，从而对它们进行“归并”。这一想法的灵感来自Arora等人在论文Provable bounds for learning some deep representations，改论文提出了一种逐层构建的方法，即分析最后一层的相关统计数据，并将其归并成具有高相关性的单元组。 \u003C\u002Fp\u003E\u003Cp\u003E2.采用1×1卷积进行降维，消除计算瓶颈。 \u003C\u002Fp\u003E\u003Cp\u003E3.1×1卷积在卷积层中加入非线性(基于Network In Network论文)。 \u003C\u002Fp\u003E\u003Cp\u003E作者还引入了两个辅助分类器，以使分类器在较浅层的网络部分也进行识别，以增加反向传播的梯度信息，并提供额外的正则化。辅助网络(连接到辅助分类器的分支)在推断时被丢弃。 \u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E⭐️创新点：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E使用稠密modules\u002Fblocks构建网络。我们并非堆叠卷积层，而是堆叠modules或blocks，其中包含卷积层。Inception得名于2010年由莱昂纳多·迪卡普里奥主演的科幻电影《盗梦空间》。 \u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E发表：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003E论文：Going Deeper with Convolutions\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E作者：Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich. Google, University of Michigan, University of North Carolina\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E发表于：2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003E5. Inception-v3 (2015)\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01CIE1kA4dOq\" img_width=\"1000\" img_height=\"757\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003E\u003Cstrong\u003E⭐️创新点：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E引入BN层(为了简单起见，没有反映在上面的图中 )。 \u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E✨与之前的版本 Inception-v1 相比，有什么改进? \u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E将7×7卷积替换为一系列3×3个卷积 \u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E发表：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003E论文：Rethinking the Inception Architecture for Computer Vision\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E作者：Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, Zbigniew Wojna. Google, University College London\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E发表于：2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003E6. ResNet-50 (2015)\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01CIVHcA1M2q\" img_width=\"1000\" img_height=\"286\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01Cha4LMGoRG\" img_width=\"700\" img_height=\"387\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003E\u003Cstrong\u003E⭐️创新点：\u003C\u002Fstrong\u003E推广跳连接结构skip connections (\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E发表：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003E论文：Deep Residual Learning for Image Recognition\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E作者：Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Microsoft\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E发表于：2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003E7. Xception(2016)\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01Chw3HC6zym\" img_width=\"1000\" img_height=\"562\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003E图7：Xception 架构，基于keras-team在GitHub上的代码。通道独立卷积层被记作'conv sep'。\u003C\u002Fp\u003E\u003Cp\u003EXception是从Inception上改进，Inception模块用通道独立卷积层替换。它与Inception-v1的参数数量大致相同（23M）。\u003C\u002Fp\u003E\u003Cp\u003EXception将Inception假设引入eXtreme（因此而得名）。那么什么是Inception假设？谢天谢地，文章中明确提到了这一点（感谢François!)\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003E首先，通过1x1卷积核捕获跨通道（或交叉特征映射）相关性。\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E其次，通过常规3x3或5x5卷积捕获每个通道内的空间相关性。\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E将这个想法运用到极致意味着对每个通道执行1x1卷积，然后对每个输出执行3x3。这与用通道独立卷积替换初始模块相同。\u003C\u002Fp\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch4\u003E\u003Cstrong\u003E⭐️创新点：\u003C\u002Fstrong\u003E\u003C\u002Fh4\u003E\u003Cp\u003E引入完全基于通道独立卷积层的CNN。 \u003C\u002Fp\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch4\u003E\u003Cstrong\u003E发表：\u003C\u002Fstrong\u003E\u003C\u002Fh4\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003E论文：Xception: Deep Learning with Depthwise Separable Convolutions\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E作者：François Chollet. Google.\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E发表于：2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR) \u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003E8. Inception-v4 (2016)\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01CiCEf7ir6g\" img_width=\"1000\" img_height=\"759\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch4\u003E\u003Cstrong\u003E发表：\u003C\u002Fstrong\u003E\u003C\u002Fh4\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003E论文：Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E作者：Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, Alex Alemi. Google.\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E发表于：Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003E9. Inception-ResNet-V2 (2016)\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01CiREs05XdN\" img_width=\"1000\" img_height=\"557\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003E\u003Cstrong\u003E✨与前一个版本 Inception-v3 相比，有什么改进? \u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E1.将 Inception模块转化为Residual Inception模块。\u003C\u002Fp\u003E\u003Cp\u003E2.加入更多的Inception模块。\u003C\u002Fp\u003E\u003Cp\u003E3.在Stem模块之后添加一个新的Inception模块(Inception-A)。 \u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E发表：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003E论文：Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E作者：Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, Alex Alemi. Google\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E发表于：Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003E10. ResNeXt-50 (2017)\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01Cij2ZExHNw\" img_width=\"1000\" img_height=\"387\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003EFig. 10: ResNeXt架构, 引自对应论文.\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E发表：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003E论文：Aggregated Residual Transformations for Deep Neural Networks\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E作者：Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He. University of California San Diego, Facebook Research\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E发表于：2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003E附录：Network In Network (2014)\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cstrong\u003E⭐️创新点：\u003C\u002Fstrong\u003E\u003Cp\u003E1.MLP卷积层, 1×1卷积\u003C\u002Fp\u003E\u003Cp\u003E2.全局平均池化(取每个特征map的平均值，并将结果向量输入softmax层) \u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E发表：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003E论文: Network In Network\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003E作者: Min Lin, Qiang Chen, Shuicheng Yan. National University of Singapore\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003EarXiv印本, \u003Ci class=\"chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2\"\u003E2013\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cstrong\u003E这里把10个网络结构的可视化图再罗列一下，作简单的回顾：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003ELeNet-5\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Ch3\u003E\u003Cstrong\u003EAlexNet\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01D91FmBjKMY\" img_width=\"700\" img_height=\"138\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003EVGG-16\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002FRY01D9O5aun3Uo\" img_width=\"700\" img_height=\"131\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003EInception-v1\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003EInception-v3\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003EInception-v4\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003EInception-ResNet-V2\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003EXception\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003EResNet-50\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch2\u003E\u003Cstrong\u003EResNeXt-50\u003C\u002Fstrong\u003E\u003C\u002Fh2\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003E神经网络可视化资源\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cp\u003E这里有一些资源可以让你可视化你的神经网络: \u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003ENetron （https:\u002F\u002Flutzroeder.github.io\u002Fnetron\u002F）\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003ETensorBoard API by TensorFlow（https:\u002F\u002F\u003Ci class=\"chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2\"\u003Ewww.\u003C\u002Fi\u003Etensorflow.org\u002Ftensorboard\u002Fr1\u002Foverview）\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003Eplot_model API by Keras（https:\u002F\u002Fkeras.io\u002Fvisualization\u002F）\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003Epytorchviz package（https:\u002F\u002Fgithub\u003Ci class=\"chrome-extension-mutihighlight chrome-extension-mutihighlight-style-4\"\u003E.com\u003C\u002Fi\u003E\u002Fszagoruyko\u002Fpytorchviz）\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003E类似文章\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003ECNN Architectures: LeNet, AlexNet, VGG, GoogLeNet, ResNet and more ….\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003EA Simple Guide to the Versions of the Inception Network\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Ch3\u003E\u003Cstrong\u003E参考\u003C\u002Fstrong\u003E\u003C\u002Fh3\u003E\u003Cp\u003E我使用了提出了上述网络体系结构的论文作为参考。除此之外，这里还有一些我在本文中引用的文章: \u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cp\u003Ehttps:\u002F\u002Fgithub\u003Ci class=\"chrome-extension-mutihighlight chrome-extension-mutihighlight-style-4\"\u003E.com\u003C\u002Fi\u003E\u002Ftensorflow\u002Fmodels\u002Ftree\u002Fmaster\u002Fresearch\u002Fslim\u002Fnets(github\u003Ci class=\"chrome-extension-mutihighlight chrome-extension-mutihighlight-style-4\"\u003E.com\u003C\u002Fi\u003E\u002Ftensorflow)\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003EImplementation of deep learning models from the Keras team(github\u003Ci class=\"chrome-extension-mutihighlight chrome-extension-mutihighlight-style-4\"\u003E.com\u003C\u002Fi\u003E\u002Fkeras-team)\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003ELecture Notes on Convolutional Neural Network Architectures: from LeNet to ResNet (slazebni.cs.illinois.edu)\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cp\u003EReview: NIN — Network In Network (Image Classification)(towardsdatascience\u003Ci class=\"chrome-extension-mutihighlight chrome-extension-mutihighlight-style-4\"\u003E.com\u003C\u002Fi\u003E)\u003C\u002Fp\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003Evia https:\u002F\u002Ftowardsdatascience\u003Ci class=\"chrome-extension-mutihighlight chrome-extension-mutihighlight-style-4\"\u003E.com\u003C\u002Fi\u003E\u002Fillustrated-10-cnn-architectures-95d78ace614d\u003C\u002Fp\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002FRXhalWP3tXXfbO\" img_width=\"710\" img_height=\"200\" alt=\"图解十大 CNN 架构\" inline=\"0\"\u003E"'.slice(6, -6), groupId: '6720572278431547912

图解十大 CNN 架构

热门新闻

周热门

图解十大 CNN 架构

东吴证券：智驾算法步入深水区，头部玩家有望持续领跑

AI芯片竞争日益焦灼！英伟达(NVDA.US)“一家独大”，对手欲分一杯羹

AI芯片竞争日益焦灼！英伟达“一家独大”，对手欲分一杯羹

深圳清华大学研究院闵万里：人工智能助力能源行业降本提效 应用前景广阔

加速一切！黄仁勋：Blackwell现在投产，2026年将推出下一代AI平台Rubin

中东基金首投中国大模型？

大摩：为什么说戴尔(DELL.US)大跌是机会

法国人工智能初创企业Mistral AI瞄准美国市场

“AI总龙头”步步紧逼苹果，英伟达能否夺走“市值TOP 2”王座？

发布财报后大跌近20%，但华尔街仍“买账”戴尔的AI故事

苹果“AI狠招”剧透来了？Siri将迎大改造，或可控制所有APP功能！

iOS18有望搭载ChatGPT

演员孙千首曝荣耀首款小折叠真机！行业最大外屏 颜值绝美

科技早报：vivo S19系列新品发布｜DNF手游首周收入超10亿｜小米15手机曝光

搜狗硬件服务正式关停

热门新闻

周热门

深圳清华大学研究院闵万里：人工智能助力能源行业降本提效应用前景广阔

演员孙千首曝荣耀首款小折叠真机！行业最大外屏颜值绝美