7 Papers & Radios | 香港理工最新 GAN 综述论文；小鹏汽车判别式多模态语音识别

机器之心&ArXivWeeklyRadiostation

参与：杜伟、楚航、罗若天

本周的重要论文包括香港理工大学的最新GAN综述论文以及小鹏汽车提出的判别式多模态语音识别模型。

MachineLearningonGraphs:AModelandComprehensiveTaxonomy

GenerativeAdversarialNetworks(GANs):Challenges,Solutions,andFutureDirections

BLEURT:LearningRobustMetricsforTextGeneration

CONFIG:ControllableNeuralFaceImageGeneration

IterDet:IterativeSchemeforObjectDetectioninCrowdedEnvironments

ASurveyonDialogManagement

DiscriminativeMulti-modalitySpeechRecognition

ArXivWeeklyRadiostation：NLP、CV、ML更多精选论文（附音频）

论文1：MachineLearningonGraphs:AModelandComprehensiveTaxonomy

论文链接：https://arxiv.org/pdf/2005.03675v1.pdf

摘要：在本文中，来自斯坦福、南加州大学和GoogleAI的研究者提出了图结构数据表征学习方法的综合分类法，旨在统一几个不同的研究主体。具体而言，他们提出了图编码器-解码器模型（GraphEncoderDecoderModel,GraphEDM）框架，从而将常用的图半监督学习（如GraphSage、GCN和图注意力网络）和图表征无监督学习（如DeepWalk和node2vec）算法泛化为一种统一的方法。为了阐明这种方法的通用性，研究者将30多种现有方法拟合添加进框架中。他们认为这种统一的观点既可以为理解方法背后的直觉提供坚实基础，也能促进该领域未来的研究。

GraphEDM框架示意图。

图表征学习方法的分类。

推荐：对于领域内实践者来说，他们可以参考这种分类法，以更好地理解可用工具和应用，并轻松地找出解决给定问题的最佳方法。

论文2：GenerativeAdversarialNetworks(GANs):Challenges,Solutions,andFutureDirections

论文链接：https://arxiv.org/ftp/arxiv/papers/2005/2005.00065.pdf

摘要：在本文中，来自香港理工大学的研究者对GAN设计的进展以及解决GAN挑战的优化解决方案进行了全面综述性研究。他们首先指出每个GAN设计和优化方法存在的主要研究问题，然后提出新的分类法对相应解决方案进行结构化整理。基于这种新的分类法，研究者对每个解决方案提出的不同GAN变体以及它们之间的关系展开了详尽的讨论。最后，研究者根据得出的见解提出了这一快速发展领域中的有前途研究方向。

2014至2018年，GAN在图像生成领域展现出来的能力取得了长足进步。

GAN的基本架构图。

本研究中提出的新的分类法。

推荐：这篇GAN综述论文长达41页，主要亮点是基于重新设计后的网络架构、新的目标函数和优化算法提出了GAN设计和优化方法的新分类法，并探讨了现有研究工作如何解决存在的挑战。

论文3：BLEURT:LearningRobustMetricsforTextGeneration

论文链接：https://arxiv.org/pdf/2004.04696.pdf

摘要：过去几年，文本生成取得了显著的进展。但是，评估指标却出现了滞后，这是因为BLEU和ROUGE等最流行的机器翻译自动评估方法可能与人类的判断关系不大。

在本文中，来自谷歌研究院的三位作者提出了BLEURT，这是一种基于BERT的学习评估指标，它可以利用数千个可能存有偏见的训练样本来建模人类判断。该方法的关键点在于新型预训练方案使用数百万个样本来帮助模型实现泛化。实验表明，本研究提出的BLEURT在过去三年的WMT指标共享任务和WebNLG竞赛数据集上均取得了SOTA结果。与基于BERT的普通方法相比，BLEURT即使在训练数据稀少且分布不均的情况下也能取得更好的结果。

在WMT17指标共享任务上的对比结果。

在WMT18指标共享任务上的对比结果。

在WMT19指标共享任务上的对比结果。

推荐：BLEURT是一种基于推理的英文文本生成指标，由于它是端到端训练的，所以可以更加准确地建模人类评估。

论文4：CONFIG:ControllableNeuralFaceImageGeneration

论文链接：https://arxiv.org/pdf/2005.02671v2.pdf

摘要：在本文中，来自微软的研究者提出了一种神经人脸模型ConfigNet，通过语义上有意义的方式控制输出图像的各个方面，从而朝着精细控制神经渲染迈出重要一步。ConfigNet在真实面部图像和合成面部渲染上进行训练，该方法使用合成数据将潜在空间分解为与传统渲染pipeline输入相对应的元素，从而将头部姿势、面部神情、发型和光照等诸多方面分解。最后研究者提出了一种使用属性检测网络与用户研究相结合的评估标准，并实现了对输出图像属性的SOTA单独控制。

ConfigNet学习分解的潜在空间，其中每一部分对应不同的面部属性。

ConfigNet具有真实图像编码器E_R和合成数据编码器E_S，它们对真实人脸图像I_R和合成人脸图像I_S的参数θ进行编码。

ConfigNet（左）和PupperGAN（右）方法的效果比较。

推荐：这种新型人脸图像合成方法使得对输出图像的控制达到了前所未有的高度。

论文5：IterDet:IterativeSchemeforObjectDetectioninCrowdedEnvironments

论文链接：https://arxiv.org/pdf/2005.02593.pdf

摘要：网络结构搜索技术近些年获得了广泛的关注，但是其搜索空间往往被限缩在元结构内部（循环单元或卷积单元等），缺乏对模型整体架构的学习。针对此问题，来自东北大学自然语言处理实验室和小牛技术创新中心的研究者提出一种能够同时对元结构内以及元结构之间连接进行搜索的方法（ESS），从而获得更适用于当前任务的模型结构。

本文旨在拓展网络结构搜索的搜索空间。实验部分以循环神经网络为例，在语言模型的PTB、WikiText-103集合中取得了优异的成绩，其中PTB数据上达到了目前业内最优的结果。此外，研究者将语言模型任务中搜索到的模型结构迁移到NER、Chunking等任务中同样获得了突出的性能，这使得大规模预搜索网络结构成为了可能。

循环神经网络中的元结构内（a）和元结构间（b）连接。

循环神经网络中元结构内部以及元结构之间结构搜索示意。

语言模型任务（PTB和WikiText-103）上ESS方法搜索得到的结构同其他结构的性能对比。

推荐：这种方法能够同时对元结构内部以及元结构之间的连接进行学习，在语言模型的任务上获得了明显的性能提升。本文已入选ACL2020。

论文6：ASurveyonDialogManagement

论文链接：https://arxiv.org/pdf/2005.02233.pdf

摘要：对话管理（DialogManagement,DM）是任务导向型对话系统的重要组成组件。给定对话历史，DM可以预测对话状态并决定对话智能体应该采取的下一步行动。最近，对话策略学习（dialogpolicylearning）作为一种强化学习问题得到了广泛的论证，越来越多的研究也开始重点关注DM的适用性。

在本文中，来自阿里巴巴和康奈尔大学的研究者调研了DM以下三个重要主题的新进展以及存在的挑战：（1）提升模型可扩展性以促进新场景下的对话系统建模；（2）解决对话策略学习的数据稀疏问题；（3）提升训练效率以实现完成任务所需的更佳性能。研究者认为本研究可以为对话管理的未来研究提供一些启示。

任务导向型对话系统的模块结构。

任务导向型对话系统的端到端结构。

对话管理模型设计四步骤：智能体到智能体的self-play、监督学习、强化学习和在线学习。

推荐：在本研究中，读者可以了解到阿里达摩院智能机器人对话AI团队开发的对话管理模型的当前进展。

论文7：DiscriminativeMulti-modalitySpeechRecognition

论文链接：https://arxiv.org/pdf/2005.05592.pdf

摘要：视觉通常被用作音频语言识别（audiospeechrecognition,ASR）的补充模态，尤其是在单独音频模态性能显著下降的噪声环境中。在与视觉模态结合后，ASR升级为多模态语音识别（multi-modalityspeechrecognition,MSR）。

在本文中，来自小鹏汽车的研究者提出了一种两阶段语音识别模型。在第一阶段，通过唇动视觉信息将目标语音从背景噪声中分离开来，使模型「听得」更清楚；在第二阶段，音频模态再次结合视觉模态，从而通过MSR子网络更好地理解语音进而提升识别率。

此外，本研究还做出了以下一些重要贡献：提出了基于拟3D残差卷积的视觉前端，以提取更多的判别特征；将时序卷积块从1DResNet更新到更适合时序任务的时序卷积网络（temporalconvolutionalnetwork,TCN）；MSR建构在元素级注意力门控循环单元（Element-wise-AttentionGatedRecurrentUnit,EleAtt-GRU），这在长序列中比Transformer更有效。研究者在LRS3-TED和LRW数据集上进行了实验，结果表明两阶段模型（音频增强多模态语音识别模型，AE-MSR）始终以显著优势实现SOTA性能，从而验证了AE-MSR的必要性和有效性。

音频增强多模态语音识别网络（AE-MSR）概览。

本研究中具有双重视觉意识（AE-MSR）的多模态语音识别网络架构图，其中AE-MSR网络包含两个子网络：（a）音频增强子网络；（b）多模态语音识别子网络。

LRS3-TED数据集上，单视觉模态意识的音频语音识别（ASR）和双视觉模态意识的多模态语音识别（MSR）的误字率对比。

推荐：值得关注的是，本研究提出的两阶段语音识别模型在LRS3-TED和LRW数据集上显著优于当前SOTA模型。

ArXivWeeklyRadiostation

机器之心联合由楚航、罗若天发起的ArXivWeeklyRadiostation，在7Papers的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周10篇NLP精选论文是：

1.SUPERT:TowardsNewFrontiersinUnsupervisedEvaluationMetricsforMulti-DocumentSummarization.(fromYangGao,WeiZhao,SteffenEger)

2.ExtractingHeadlessMWEsfromDependencyParseTrees:Parsing,Tagging,andJointModelingApproaches.(fromTianzeShi,LillianLee)

3.BeyondAccuracy:BehavioralTestingofNLPmodelswithCheckList.(fromMarcoTulioRibeiro,TongshuangWu,CarlosGuestrin,SameerSingh)

4.UnsupervisedMultimodalNeuralMachineTranslationwithPseudoVisualPivoting.(fromPo-YaoHuang,JunjieHu,XiaojunChang,AlexanderHauptmann)

5.LearningtoSegmentActionsfromObservationandNarration.(fromDanielFried,Jean-BaptisteAlayrac,PhilBlunsom,ChrisDyer,StephenClark,AidaNematzadeh)

6.LearningtoDetectUnacceptableMachineTranslationsforDownstreamTasks.(fromMengZhang,XinJiang,YangLiu,QunLiu)

7.SentiBERT:ATransferableTransformer-BasedArchitectureforCompositionalSentimentSemantics.(fromDaYin,TaoMeng,Kai-WeiChang)

8.DramaQA:Character-CenteredVideoStoryUnderstandingwithHierarchicalQA.(fromSeonghoChoi,Kyoung-WoonOn,Yu-JungHeo,AhjeongSeo,YouwonJang,SeungchanLee,MinsuLee,Byoung-TakZhang)

9.DoesMulti-EncoderHelp?ACaseStudyonContext-AwareNeuralMachineTranslation.(fromBeiLi,HuiLiu,ZiyangWang,YufanJiang,TongXiao,JingboZhu,TongranLiu,ChangliangLi)

10.MISA:Modality-Invariantand-SpecificRepresentationsforMultimodalSentimentAnalysis.(fromDevamanyuHazarika,RogerZimmermann,SoujanyaPoria)

本周10篇CV精选论文是：

1.CondensedMovies:StoryBasedRetrievalwithContextualEmbeddings.(fromMaxBain,ArshaNagrani,AndrewBrown,AndrewZisserman)

2.EffectiveDataFusionwithGeneralizedVegetationIndex:EvidencefromLandCoverSegmentationinAgriculture.(fromHaoSheng,XiaoChen,JingyiSu,RamRajagopal,AndrewNg)

3.TextSynopsisGenerationforEgocentricVideos.(fromAideanSharghi,NielsdaVitoriaLobo,MubarakShah)

4.Efficientconvolutionalneuralnetworkswithsmallerfiltersforhumanactivityrecognitionusingwearablesensors.(fromYinTang,QiTeng,LeiZhang,FuhongMin,JunHe)

5.SurfelGAN:SynthesizingRealisticSensorDataforAutonomousDriving.(fromZhenpeiYang,YuningChai,DragomirAnguelov,YinZhou,PeiSun,DumitruErhan,SeanRafferty,HenrikKretzschmar)

6.Self-SupervisedHumanDepthEstimationfromMonocularVideos.(fromFeitongTan,HaoZhu,ZhaopengCui,SiyuZhu,MarcPollefeys,PingTan)

7.OnVocabularyRelianceinSceneTextRecognition.(fromZhaoyiWan,JieleiZhang,LiangZhang,JieboLuo,CongYao)

8.EnhancingGeometricFactorsinModelLearningandInferenceforObjectDetectionandInstanceSegmentation.(fromZhaohuiZheng,PingWang,DongweiRen,WeiLiu,RongguangYe,QinghuaHu,WangmengZuo)

9.NTIRE2020ChallengeonRealImageDenoising:Dataset,MethodsandResults.(fromAbdelrahmanAbdelhamed,MahmoudAfifi,RaduTimofte,MichaelS.Brown,YueCao,ZhiluZhang,WangmengZuo,XiaolingZhang,JiyeLiu,WendongChen,ChangyuanWen,MengLiu,ShuailinLv,YunchaoZhang,ZhihongPan,BaopuLi,TengXi,YanwenFan,XiyuYu,GangZhang,JingtuoLiu,JunyuHan,ErruiDing,SonghyunYu,BumjunPark,JechangJeong,ShuaiLiu等)

10.RegressionForest-BasedAtlasLocalizationandDirectionSpecificAtlasGenerationforPancreasSegmentation.(fromMasahiroOda,NatsukiShimizu,Ken'ichiKarasawa,YukitakaNimura,TakayukiKitasaka,KazunariMisawa,MichitakaFujiwara,DanielRueckert,KensakuMori)

本周10篇ML精选论文是：

1.SuccessfullyApplyingtheStabilizedLotteryTicketHypothesistotheTransformerArchitecture.(fromChristopherBrix,ParniaBahar,HermannNey)

2.MachineLearningonGraphs:AModelandComprehensiveTaxonomy.(fromInesChami,SamiAbu-El-Haija,BryanPerozzi,ChristopherRé,KevinMurphy)

3.Physics-informedneuralnetworkforultrasoundnondestructivequantificationofsurfacebreakingcracks.(fromKhemrajShukla,PatricioClarkDiLeoni,JamesBlackshire,DanielSparkman,GeorgeEmKarniadakis)

4.Sherpa:RobustHyperparameterOptimizationforMachineLearning.(fromLarsHertel,JulianCollado,PeterSadowski,JordanOtt,PierreBaldi)

5.Plan2Vec:UnsupervisedRepresentationLearningbyLatentPlans.(fromGeYang,AmyZhang,AriS.Morcos,JoellePineau,PieterAbbeel,RobertoCalandra)

6.ReinforcementLearningwithFeedbackGraphs.(fromChristophDann,YishayMansour,MehryarMohri,AyushSekhari,KarthikSridharan)

7.IsanAffineConstraintNeededforAffineSubspaceClustering?.(fromChongYou,Chun-GuangLi,DanielP.Robinson,ReneVidal)

8.ReducingCommunicationinGraphNeuralNetworkTraining.(fromAlokTripathy,KatherineYelick,AydinBuluc)

9.Deeplearningofphysicallawsfromscarcedata.(fromZhaoChen,YangLiu,HaoSun)

10.Multi-InstanceMulti-LabelLearningforGeneMutationPredictioninHepatocellularCarcinoma.(fromKaixinXu,ZiyuanZhao,JiapanGu,ZengZeng,ChanWanYing,LimKhengChoon,ThngChoonHua,PierceKHChow)

7 Papers & Radios | 香港理工最新 GAN 综述论文；小鹏汽车判别式多模态语音识别

热门新闻

周热门

7 Papers & Radios | 香港理工最新 GAN 综述论文；小鹏汽车判别式多模态语音识别

Arm中国深陷控制权之争：董事长疑被总部免职，子公司称未发生变动

SpaceX发射之后：在人类探索太空的征途中，深度学习能做什么？

史上最大AI模型GPT-3上线；Transformer跨界做目标检测

中国AI公司首批上市潮来袭：18家独角兽总值超2700亿

自动化数据增强：实践、理论和新方向

Keras vs PyTorch，哪一个更适合做深度学习？

加速RL探索效率，CMU、谷歌、斯坦福提出以弱监督学习解纠缠表征

边做边思考，谷歌大脑提出并发RL算法，机械臂抓取速度提高一倍！

开发者必看！行业数智专家传授OOTB生态化协作秘籍

从800个GPU训练几十天到单个GPU几小时，看神经架构搜索如何进化

AI算法效率每16个月翻番，超越摩尔定律，OpenAI：长江后浪推前浪

工程之道：旷视天元框架亚线性显存优化技术解析

AI算法效率每14月翻番，OpenAI：长江后浪推前浪

使用TF2与Keras实现经典GNN的开源库——Spektral

如何解决图像分类中的类别不均衡问题？不妨试试分开学习表征和分类器

热门新闻

周热门