最强多层感知机？谷歌科学家用 β

机器之心报道

如何从头开始学习卷积？谷歌高级研究科学家BehnamNeyshabur使用最小描述长度（MDL）作为指导原则，提出了LASSO算法的一个简单变体β-LASSO。将β-LASSO应用到多层感知机（MLP）后，MLP在CIFAR-10、CIFAR-100和SVHN数据集上的SOTA结果得到显著提升。

多层感知机（MLP）在CIFAR-10数据集上的最高准确率是多少？

65%？那是之前。

谷歌新研究用LASSO算法的变体β-LASSO武装MLP，将其在CIFAR-10数据集上的准确率提升到85%。

这项研究突破性地解决了从头开始学习卷积的问题，并大大提高了MLP的性能。

这篇刚刚上传到arxiv的论文，在国外社交网络上引起了大家的广泛关注与讨论。

我们首先来看这篇论文的具体内容。

论文地址：https://arxiv.org/pdf/2007.13657.pdf

卷积是计算机视觉架构中最重要的组件。随着机器学习趋向于减少专家偏见（expertbias）以及从数据中学习，那么很自然地，接下来的一步应该是从头开始学习类似卷积的结构。然而，事实证明这并不容易。例如，当前的SOTA架构搜索算法使用卷积作为一种已有的模块，而不是从数据中从头开始学习。

为了理解引起卷积的归纳偏置，研究者使用最小描述长度（MDL）作为指导原则，发现在某些情况下，它确实可以说明架构的性能。

为了用小的描述长度找出架构，研究者提出了LASSO算法的一个简单变体β-LASSO。将其应用于全连接网络进行图像分类任务时，它可以学习具备局部连接的架构，并且在CIFAR-10数据集上达到了SOTA准确率（85.19%），在CIFAR-100数据集上达到了59.56%的准确率，在SVHN上实现了94.07%的准确率，缩小了全连接网络和卷积网络之间的差距。

该研究的主要贡献包括：

提出了具备研究卷积所需特性的浅层（s-conv）和深层（d-conv）全卷积网络。通过对s-conv和d-conv以及它们的局部连接和全连接版本进行系统性实验，研究者发现了深度、局部连接和共享权重的作用。

局部连接似乎对性能的影响最大。

深度的优势是提升内存和计算效率。因此，对具备更多参数的浅层架构进行长时间训练可以弥补深度不够造成的大部分性能损失。

如果没有共享权重，深度的优势会进一步减少。

此外，研究者以最小描述长度作为指导原则，来研究哪些架构的泛化能力更强：

研究表明MDL受参数数量的限制，研究者用实验表明，用更少的参数拟合训练集的架构一定程度上比过参数化架构的泛化能力更强。

该研究证明用于架构搜索的基于MDL的泛化约束（MDL-basedgeneralizationboundforarchitecturessearch，表明找到架构的稀疏性）对泛化能力有很大的影响。但是，只有在结构简单时，共享权重才有效。

受MDL的启发，研究者提出了一种新的训练算法β-lasso。它是lasso的一种变体，比lasso具备更强的软阈值，以找出参数量少的架构，也就是具有小的描述长度的架构。以下是关于β-lasso的实验发现：

使用β-lasso算法在CIFAR10、CIFAR-100、SVHN上训练的全连接网络，均实现SOTA性能。值得一提的是，与卷积网络不同，这些结果不受置换像素（permutingpixel）的影响。

该研究表明，使用β-lasso算法学得的网络比其局部连接版本使用的参数更少。通过可视化滤波器，研究者发现β-lasso算法确实学习了局部连接。它还学会了在局部邻域中更稀疏地采样，以增加感受野（receptivefield），同时保证参数数量较少。

研究者还用β-lasso训练了不同卷积核大小的ResNet18，发现对于全部实验数据集和卷积核大小，β-lasso的性能均优于SGD。

解耦深度、权重共享和局部连接

这项研究提出了两种全卷积网络d-conv和s-conv，它们不仅在图像分类任务上性能良好，还可以根据相应卷积网络中的通道数量和输入图像大小实现预期的缩放。

下图1展示了d-conv和s-conv的网络架构以及缩放情况：

下表1展示了d-conv、s-conv、它们的变体以及3-FC模型在CIFAR-10、CIFAR-100和SVHN三个数据集上的测试准确率结果：

由上表可以得出以下四项结论：

局部性（locality）非常重要。对于深层和浅层架构来说，在三个数据集上，局部连接网络和对应全连接网络之间的差距要比卷积和局部连接网络的差距大得多。这表明，卷积的主要优势来自于局部连接。

（大多数情况下，）浅层架构最终会赶上深层架构。虽然深层结构训练更长时间似乎并不能提升性能，但在所有数据集上，增加浅层架构的训练时长可以显著地提升性能。因此，在训练迭代次数达到4000时，深层和浅层架构之间的差距明显缩小。

在没有权重共享的情况下，深层结构的优势会消失。s-fc在所有实验中均优于d-fc。并且，当训练迭代次数达到4000时，d-local和s-local相对于彼此并没有表现出明显的优势。

全连接网络的结构非常重要。s-fc在所有实验中均大幅领先3-fc和d-fc。更有趣的是，s-fc与3-fc具备相同的参数量和深度，但前者第一层的隐藏单元数量远多于后者。

将MDL作为指导原则

最小描述长度（MDL）原则是将奥卡姆剃刀形式化后的一种结果。其想法是，在给予假说集合的情况下，能产生最多资料压缩效果的那个假说是最好的。它于1978年由JormaRissanen提出。

在信息论和计算机学习理论中，最小描述长度原则是个重要概念。最小描述长度原理就是要求选择总描述长度最小的模型。

该研究则将MDL看作解释不同架构性能差异的方式，以及找到泛化性能优异模型的指导原则。

使用MDL后，稀疏性对泛化性能的影响有所增加，但是权重共享机制仅在结构简单的情况下有效。

下图2展示了不同架构的性能：

新算法β-lasso，实现从头学习局部连接

受MDL的启发，该研究提出了一种新型训练算法β-lasso，它是lasso算法的简单变体，具备更强势的软阈值，可以找到具备少量参数的架构，从而实现小的描述长度。此外，β-lasso对图像没有偏见。

以下是β-lasso的算法：

训练全连接网络

下表2展示了在训练全连接网络时，用β-lasso训练的s-fc与当前最优方法的性能对比情况。结果表明即使与蒸馏或预训练等复杂方法进行对比时，β-lasso的性能也有显著提升。

β-lasso显著提升了MLP在CIFAR-10、CIFAR-100和SVHN数据集上的SOTA结果。

此外，为了观察β-lasso能否成功学习像s-local一样稀疏的架构，研究者分别度量了每一层中非零权重的数量，结果如下图3所示：

该研究还进一步对学得滤波器进行了可视化，发现β-lasso确实能够学习局部连接，而且还能在局部邻域中进行更稀疏地采样，从而在保持参数数量较少的情况下增加感受野。

训练卷积核较大的卷积网络

该研究还使用β-lasso训练了具备不同卷积核大小的ResNet18，并将其与SGD进行对比。结果表明，在所有数据集和所有卷积核大小情况下，β-lasso的性能都优于SGD，如下图5所示：

方向很好，但技术细节有待完善

对于这篇论文，网友的评价总体来说比较正面，他们认为这是一个很棒的研究方向。正如下面这位网友所说：

「这项研究太酷了，目前很多深度学习都是基于人工控制（human-imposed）的架构先验构建，而这里是基于卷积。」

但同时，这位网友也提出了一些疑问，比如论文中的β-lasso方法究竟是什么样的？看起来算法1是作者唯一提到的技术细节，而且算法中也有搞不懂的地方。

接着又指出了另一个问题，论文中称lasso通常鼓励稀疏性，但他没有看懂这样做是如何鼓励权重共享的。

也有网友发问：「这只是一种稀疏的全卷积网络（FCN）吧？」

推特网友PierreAblin表示这篇论文引入了两个新的超参数，但他不太明白如何设置这两个超参数，以及它们是否同样重要。

此外，他指出这项研究无法使用动量（momentum），并询问作者有没有尝试使用Fista等方法。

对此，论文作者BehnamNeyshabur回复道：「论文中简单讨论了这一点。超参数Beta（β）通常不那么敏感，所以使用默认值50应该就可以；但lambda（λ）需要调整，实验中典型的数值范围是（1e-6,1e-4）。此外，这项研究没有使用Fista方法。」

此外，同为谷歌员工的谷歌大脑研究科学家TingChen表示：

「在我看来，由于计算/样本效率，CNN在实践中的效果优于MLP。如果你使用正确的（无监督）目标或正则化方法、大数据和算力，MLP可以实现同样好的结果。」

对此，论文作者回复道：「我同意你关于计算的想法。这项研究降低了样本效率方面的差距，但很明显使用不错的搜索算法和大量无监督数据，仍然无法找到比卷积网络更好的方法，对吧？」

TingChen对此并不认同。

作者简介

论文作者BehnamNeyshabur现为谷歌高级研究科学家。

2017年夏，他取得了丰田工业大学芝加哥分校（TTI-Chicago）的计算机科学博士学位。2018年成为纽约大学博士后研究员，与2018年图灵奖得主、深度学习三巨头之一YannLeCun共同工作，并且还是普林斯顿高等研究院（IAS）SanjeevArora教授领导的理论机器学习（TheoreticalMachineLearning）项目组成员。2019年6月加入谷歌至今，担任高级研究科学家。

他的研究兴趣是机器学习，主要研究方向为深度学习的优化和泛化。

AmazonSageMaker是一项完全托管的服务，可以帮助开发人员和数据科学家快速构建、训练和部署机器学习模型。SageMaker完全消除了机器学习过程中每个步骤的繁重工作，让开发高质量模型变得更加轻松。

现在，企业开发者可以免费领取1000元服务抵扣券，轻松上手AmazonSageMaker，快速体验5个人工智能应用实例。

最强多层感知机？谷歌科学家用 β

热门新闻

周热门

最强多层感知机？谷歌科学家用 β

雷军与周鸿祎：「网红」滤镜下的焦虑

8点1氪丨小米汽车48小时内收到5000份简历；苹果或已停止升级Mac起步内存；周鸿祎将举办线下拍卖会出售迈巴赫

何小鹏：小米的营销不好学，企业要找到自己的基因｜北京车展

挤地铁的首富

氪星晚报｜喜茶联合中国茶叶流通协会、飞猪发布6条新茶饮文旅线路攻略；支付宝全新AI产品开启灰测，支持挂号订票点外卖等30多项办事服务；B站发布国内首个免费数字分身定制工具“必剪Studio”

硅谷研究院院长：现在的人工智能有四大缺陷，但是也有五大潜力应用方向

微软Q3业绩会实录：有信心将投资转化为未来的第二次成功

谷歌Q1业绩会实录：AI会为云业务带来拐点

高榕马晓宇：AI+硬件，世界变局下的中国机会

大模型新纪元：定制化推理释放企业数据价值

非公医疗进入整合期，精细化发展成解题思路｜最前线

雷军终于成了车圈顶流

“每天只睡5小时”，大模型在火热落地中

中国快递业不需要“小院高墙”

Meta Q1业绩会实录：虽然AI产品还没盈利，会持续投资和扩展规模

热门新闻

周热门