7 Papers | Hinton、李飞飞各有新作；深度学习硬件性能评价

"\u003Cdiv\u003E\u003Cp\u003E机器之心整理\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002Fa6c7371ae5ba4b30b7cddc5e30900ac3\" img_width=\"1200\" img_height=\"675\" alt=\"7 Papers | Hinton、李飞飞各有新作；深度学习硬件性能评价\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E参与：一鸣、思源\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E本周 Hinton、李飞飞都有新论文面世。Hinton 等提出了新的优化算法，而李飞飞等在视频预测任务上实现了新的 SOTA 模型。此外还有自然语言理解评价方法、文本+图像数据融合任务的综述，以及对深度学习的硬件进行评价的文章等。\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E\u003Cstrong\u003E目录：\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Col\u003E\u003Cli\u003ELookahead Optimizer: k steps forward, 1 step back\u003C\u002Fli\u003E\u003Cli\u003EEidetic 3D LSTM: A Model for Video Prediction and Beyond\u003C\u002Fli\u003E\u003Cli\u003EDiscourse-Based Evaluation of Language Understanding\u003C\u002Fli\u003E\u003Cli\u003ETrends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods\u003C\u002Fli\u003E\u003Cli\u003ENeural Point-Based Graphics\u003C\u002Fli\u003E\u003Cli\u003EBenchmarking TPU, GPU, and CPU Platforms for Deep Learning\u003C\u002Fli\u003E\u003Cli\u003EUnifying Logical and Statistical AI with Markov Logic\u003C\u002Fli\u003E\u003C\u002Fol\u003E\u003Cp\u003E\u003Cstrong\u003E1.标题：Lookahead Optimizer: k steps forward, 1 step back\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E作者：Michael R. Zhang、James Lucas、Geoffrey Hinton、Jimmy Ba\u003C\u002Fli\u003E\u003Cli\u003E论文链接：https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.08610v1\u003C\u002Fli\u003E\u003Cli\u003EKeras 实现：https:\u002F\u002Fgithub.com\u002Fbojone\u002Fkeras_lookahead\u003C\u002Fli\u003E\u003Cli\u003EPyTorch 实现：https:\u002F\u002Fgithub.com\u002Falphadl\u002Flookahead.pytorch\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cstrong\u003E摘要：\u003C\u002Fstrong\u003E这篇论文提出 Lookahead 算法与已有的方法完全不同，它迭代地更新两组权重。直观来说，Lookahead 算法通过提前观察另一个优化器生成的「fast weights」序列，来选择搜索方向。该研究发现，Lookahead 算法能够提升学习稳定性，不仅降低了调参需要的功夫，同时还能提升收敛速度与效果。研究表示，Lookahead 在残差网络（ImageNet）、Transformer（WMT 2014）等模型上，算法的性能显著优于 SGD 和 Adam。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E推荐：\u003C\u002Fstrong\u003E首先这篇论文表示 Lookahead 可以大幅度提升 Adam 等优化器的效果，且作者包括图灵奖得主 Geoffrey Hinton 和 Adam 原论文作者 Jimmy Ba，所以非常值得我们一读。此外，因为算法实现起来并不困难，而且在各种任务上都能有很稳定的表现，因此也非常值得我们一试。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002Fa40e82a6c74f4caeb975907622673851\" img_width=\"1080\" img_height=\"455\" alt=\"7 Papers | Hinton、李飞飞各有新作；深度学习硬件性能评价\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E如上左图展示了 Lookahead 的两种参数更新方法：Fast 和 Slow。相比蓝色线的标准 SGD，红色线的 Slow weights 在接近收敛时能探索到更好的最优解。右图展示了 Lookahead 的伪代码，我们可以看到，快更新相当于做了一系列实验，然后慢更新再根据实验结果选一个好方向。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E2.标题：Eidetic 3D LSTM: A Model for Video Prediction and Beyond\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E作者：Yunbo Wang 、Lu Jiang 、Ming-Hsuan Yang 、Li-Jia Li 、Mingsheng Long 、Li Fei-Fei\u003C\u002Fli\u003E\u003Cli\u003E论文地址：https:\u002F\u002Fopenreview.net\u002Fpdf?id=B1lKS2AqtX\u003C\u002Fli\u003E\u003Cli\u003E实现链接：https:\u002F\u002Fgithub.com\u002Fmetrofun\u002FE3D-LSTM\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cstrong\u003E摘要：\u003C\u002Fstrong\u003E时空预测尽管被认为是一种有效的自监督特征学习策略，但目前仍很少体现出在视频预测之外的效果。这是因为，学习短期帧的依赖和长期的高级关系的表示非常困难。研究人员在这篇论文中提出了一个新的模型，名为「Eidetic 3D LSTM (E3D-LSTM)」。模型可以将三维的卷积信息融合在 RNN 中。这种内嵌的三维卷积层使得 RNN 具有局部的动作敏感性，并可以使机器单元储存更好的短期特征。\u003C\u002Fp\u003E\u003Cp\u003E对于长期关系，研究人员使用门控制自注意力单元，使得现在的记忆状态和历史记录进行交互。研究人员称这种记忆转移机制为「eidetic」，因为它能够使模型「回忆」起多个时间步前记忆的信息。研究人员首先在广泛使用的视频预测数据集上进行了测试，结果达到了 SOTA。然后，他们展示了模型在早期活动检测（early activity recognition）任务上的表现。模型能够在观察少量帧数的视频后推断出发生了什么，以及将要发生什么。这个任务和视频预测中的建模动作意图和趋势的任务很好地配合。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E推荐：\u003C\u002Fstrong\u003E视频预测任务新 SOTA，作者包括李飞飞等，团队包括清华大学、斯坦福大学、谷歌大脑等的研究人员。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F934ff5ad3cb74598823a611fa279e54a\" img_width=\"1080\" img_height=\"433\" alt=\"7 Papers | Hinton、李飞飞各有新作；深度学习硬件性能评价\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E如上展示了三种将三维卷积融合到循环神经网络的方式，蓝色箭头表示使用三维卷积的数据转换路径。a 和 b 分别在时空 LSTM 的前后加上三维卷积运算，它们本质上没有什么区别，而且将三维卷积放在 LSTM 单元外效果并不好。c 则展示了 E3D-LSTM 的编码器解码器结构，它将三维卷积嵌入到 LSTM 单元内，从而将卷积特征用于循环网络的隐状态。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E3.标题：Discourse-Based Evaluation of Language Understanding\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E作者：Damien Sileo、Tim Van-de-Cruys、Camille Pradel、Philippe Muller\u003C\u002Fli\u003E\u003Cli\u003E论文链接：https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.08672.pdf\u003C\u002Fli\u003E\u003Cli\u003E实现地址：https:\u002F\u002Fgithub.com\u002Fsynapse-developpement\u002FDiscEval\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cstrong\u003E摘要：\u003C\u002Fstrong\u003E在本文中，研究者介绍了 DiscEval，它包含 11 个评估数据集，并以语篇为重点，可用于英语自然语言理解的评估。他们证明，语篇评估任务被忽视了，并且自然语言推理（NLI）预训练可能无法学习到真正的通用型表征。DiscEval 还可以用作多任务学习系统的补充训练数据，它是公开可用的，同时提供收集和预训练数据集的代码。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E推荐：\u003C\u002Fstrong\u003E本文总结了自然语言理解的评估方法，可作为评价语言模型性能的重要参考。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002Fd6d3a03a7d19413b99ea874af95bdf3f\" img_width=\"1080\" img_height=\"342\" alt=\"7 Papers | Hinton、李飞飞各有新作；深度学习硬件性能评价\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cem\u003E表 1：DiscEval 的文本分类数据集。\u003C\u002Fem\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E4.标题：Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E作者：Aditya Mogadala、Marimuthu Kalimuthu、Dietrich Klakow\u003C\u002Fli\u003E\u003Cli\u003E论文链接：https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.09358v1.pdf\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cstrong\u003E摘要：\u003C\u002Fstrong\u003E近年来，由于机器学习、计算机视觉和神经语言处理等多学科社区日益高涨的兴趣，视觉与语言任务的整合已经取得了显著的进展。在这篇综述文章中，研究者重点讲述了十项不同的视觉与语言整合任务，并就这些任务的问题界定、方法、现有数据集、评估度量以及以相应 SOTA 方法所实现结果的对比进行详解。本次调研较以往更为深入，先前的研究要么针对特定任务，要么仅集中于图像或视频等单一类型的内容。最后，研究者探讨了未来视觉与语言研究整合可能的发展方向。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E推荐：\u003C\u002Fstrong\u003E目前，文本和图像数据融合模型的论文综述依然不多，本文不失为系统理解这一新兴机器学习分支领域的优秀论文。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F4fa2b4bcc2464b67adc22a28f0bae718\" img_width=\"957\" img_height=\"417\" alt=\"7 Papers | Hinton、李飞飞各有新作；深度学习硬件性能评价\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cem\u003E图 1：论文中展示的十种需要融合文本和图像数据的机器学习任务。\u003C\u002Fem\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E5.标题：Neural Point-Based Graphics\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E作者：Kara-Ali Aliev、Dmitry Ulyanov、Victor Lempitsky\u003C\u002Fli\u003E\u003Cli\u003E论文链接：https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.08240.pdf\u003C\u002Fli\u003E\u003Cli\u003E实现地址：https:\u002F\u002Fgithub.com\u002FWangYueFt\u002Fdgcnn\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cstrong\u003E摘要：\u003C\u002Fstrong\u003E在本文中，研究者提出了一种新的基于点的复杂场景建模方法。该方法使用原始点云作为场景的几何表征，并且利用能够编码局部几何结构和外观的可学习神经描述符来增大每个点。深度渲染网络与描述符同时进行学习，这样从新视点将点云的光栅部分穿过这个网络，从而获得场景的新视图。研究表明，这种新方法可用于建模复杂场景、得到这些场景的逼真视图，同时能够避免显式表面估计和网格化。具体来讲，使用手持商用 RGB-D 传感器和标准 RGB 摄像头可以在场景扫描任务中获得令人信服的结果。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E推荐\u003C\u002Fstrong\u003E：仅用点云和视频结合就完成了实时动态的视频渲染，还不需要特别昂贵的景深相机，这样新奇的论文值得读者阅读。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F3491de12c3d14f5a82e703a591dead70\" img_width=\"639\" img_height=\"496\" alt=\"7 Papers | Hinton、李飞飞各有新作；深度学习硬件性能评价\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cem\u003E论文对图像的渲染效果和其他方法及 Ground Truth 的对比。第二行中间为论文的方法，最右侧为 Ground Truth。肉眼可见，论文的方法效果更好。\u003C\u002Fem\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E6.标题：Benchmarking TPU, GPU, and CPU Platforms for Deep Learning\u003C\u002Fstrong\u003E \u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E作者：Yu (Emma) Wang、Gu-Yeon Wei、David Brooks\u003C\u002Fli\u003E\u003Cli\u003E论文链接：https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.10701.pdf\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cstrong\u003E摘要：\u003C\u002Fstrong\u003E为了系统地对深度学习平台进行基准测试，研究者提出了 ParaDnn，这是一个用于深度学习的参数化基准测试套件，它能够为全连接（FC）、卷积（CNN）和循环（RNN）神经网络生成端到端的模型。研究者使用 6 个实际模型对 Google 的云 TPU v2\u002Fv3、NVIDIA 的 V100 GPU，以及 Intel 的 Skylake CPU 平台进行了基准测试。他们深入研究了 TPU 的架构，揭示了它的瓶颈，并重点介绍了能够用于未来专业系统设计的宝贵经验。研究者还提供了平台的全面对比，发现每个平台对某些类型的模型都有自己独特的优势。最后，他们量化了专用的软件堆栈对 TPU 和 GPU 平台提供的快速性能改进。\u003C\u002Fp\u003E\u003Cp\u003E有关深度学习算法的基准测试论文已是汗牛充栋，但对硬件平台进行测试的论文很少见。通过本论文，读者可系统了解各种机器学习训练的平台特性，并针对自身的需求选择。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F33e390e7f6ca419ebb5ae2cfe52b4149\" img_width=\"1080\" img_height=\"460\" alt=\"7 Papers | Hinton、李飞飞各有新作；深度学习硬件性能评价\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E上表展示了所有基准测试得出来的结果与见解，它测试了不同神经网络结构在不同硬件平台上的效果。每一条观察结果或结论都有具体的实验图标支持，读者可详细查阅原论文。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E7.标题：Unifying Logical and Statistical AI with Markov Logic\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E作者：Pedro Domingos、Daniel Lowd\u003C\u002Fli\u003E\u003Cli\u003E论文链接：https:\u002F\u002Fhomes.cs.washington.edu\u002F~pedrod\u002Fpapers\u002Fcacm19.pdf\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cstrong\u003E摘要：\u003C\u002Fstrong\u003E多年来，人工智能的主要两大分支为：逻辑人工智能和统计人工智能。逻辑人工智能使用一等逻辑和相关表示捕捉复杂关系和知识。然而，在许多应用中，逻辑人工智能在处理不确定性和噪声时较为脆弱。统计人工智能则使用概率表示，如概率图模型，来捕捉不确定性。然而，图模型只能表示显式的全局信息，无法处理关系领域。本文提出一种名为马尔科夫逻辑的方法，结合两种模型。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E推荐：\u003C\u002Fstrong\u003EKeras 之父日前表示，目前机器学习没能解决人工智能的基本问题。本论文值得想要了解逻辑人工智能的读者阅读。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002Fc22948d248c84e629cd2f2fd2058be16\" img_width=\"1080\" img_height=\"484\" alt=\"7 Papers | Hinton、李飞飞各有新作；深度学习硬件性能评价\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E虽然从属于 AI 这个大领域，但如上所示逻辑方法与统计方法在不同的子领域上都有自己的一套方法。本文尝试通过马尔可夫逻辑统一这两种方法，并利用它们各自的优势，感兴趣的读者可详细阅读论文。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F1216b3d371b94737ba8adaefd3bf3bff\" img_width=\"1080\" img_height=\"600\" alt=\"7 Papers | Hinton、李飞飞各有新作；深度学习硬件性能评价\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003C\u002Fdiv\u003E"'.slice(6, -6), groupId: '6718972630042411533

7 Papers | Hinton、李飞飞各有新作；深度学习硬件性能评价

热门新闻

周热门

7 Papers | Hinton、李飞飞各有新作；深度学习硬件性能评价

人工智能会对经济造成全面影响？OpenAI 高管称现在下结论为时尚早

科大讯飞：与华为、韩端机器人在人工智能领域始终保持良好的合作与交流

“工业牙齿”钨价飙升，创10年新高，多只小金属个股获机构密集调研

谷歌深度学习模型AlphaFold 3重磅论文登上《自然》

方正证券：苹果人工智能布局全面深入 未来产业链将迎来板块性机会

AI音乐时代降临 几家欢喜几家愁

电科数字(600850)事件点评：围绕人工智能 赋能重点行业数字化

盛况难复制！这一ChatGPT“劲敌”上线苹果商店首周 市场反响冷清

ChatGPT入驻iPhone？苹果被曝接近与OpenAI达成协议

转向机器人！三星电子被曝停止自动驾驶研究：开发难度超预期，商业化难

苹果“牵手”OpenAI据称要成了！下代iOS系统有望引入ChatGPT功能

孙正义最新出手！将转战半导体和人工智能？

OpenAI官宣：下周一见！网友：失望

传RTX 5090和5080将同时亮相 但上市时间间隔数周

AMD Zen5旗舰笔记本APU现身：功耗可达120W、GPU被传媲美4060

热门新闻

周热门

方正证券：苹果人工智能布局全面深入未来产业链将迎来板块性机会

AI音乐时代降临几家欢喜几家愁

电科数字(600850)事件点评：围绕人工智能赋能重点行业数字化

盛况难复制！这一ChatGPT“劲敌”上线苹果商店首周市场反响冷清

传RTX 5090和5080将同时亮相但上市时间间隔数周