微软亚洲研究院副院长周明——语言智能的进展

原标题：微软亚洲研究院副院长周明——语言智能的进展 | 北大AI公开课实录

5月16日，北京大学“人工智能前沿与产业趋势”第七讲。本期主讲嘉宾为微软亚洲研究院副院长周明，他的授课主题为《语言智能的进展》。

周明博士，微软亚洲研究院副院长、国际计算语言学协会（ACL）候任主席、中国计算机学会理事、中文信息技术专委会主任、中国中文信息学会常务理事、哈尔滨工业大学、天津大学、南开大学、北航等多所学校博士导师。

周明博士1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后，随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。

他是中国第一个中英翻译系统CEMT-I（哈工大1989年）、日本最有名的中日机器翻译产品J-北京（日本高电社1998年）的研制者。1999年，周明博士加入微软亚洲研究院，不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典（必应词典）、中英翻译、微软中国文化系列（微软对联、微软字谜、微软绝句）等重要产品和项目的研发，并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。英库词典获得华尔街日报亚洲创新奖、与中科院合作的手语翻译荣获微软CEO特别嘉奖。近年来，周明博士领导研究团队与微软产品组合作开发了微软小冰（中国）、Rinna（日本）、Zo（美国）等聊天机器人系统。

周明博士发表了150余篇重要会议和期刊论文（包括50篇以上的ACL文章），拥有国际发明专利50余项。他多年来通过微软与中国和亚太地区的高校合作计划，包括微软-高校联合实验室、微软实习生计划、微软-高校联合培养博士生计划、青年教师铸星培养计划，与高校和学术组织联合举办暑期学校和学术会议等多种形式，对推动自然语言处理在中国和亚太的卓越发展做出了杰出贡献。

以下为分享实录整理：

人工智能的进展

近些年这些横扫人们的生活，甚至在有些领域超过人类，人工智能的进步，比如自动驾驶、医疗诊断等等都在服务人类

产生新的一轮人工智能主要有三大因素：一个是库、一个是以深度学习为代表的算法，还有一个是越来越强的计算能力，再补充一点就是深度学习的框架。

落地场景也尤为重要，有了它才有用户反馈，这个反馈过程帮你完善系统，比如搜索引擎成千上万用户天天在用帮你完善。我认为人工智能在这方面也是需要落地场景不断提高。

周明博士分享了人工智能的一个金字塔。

他认为运算智能是一切人工智能的基础，

感知智能在过去几年取得了突飞猛进的进展，包括视听觉等；

认知智能，主要是语言知识和句法，这也是我今天所讲的重点。

以上三点是密切相关的，语言的能力强了，我们对问题处理能力就会变强，所以语言智能是它很重要的一个方面。在往上就是创造智能，从无到有产生一个新的东西，这一方面计算机还是比较薄弱的。

微软人工智能在过去几十年一直在这几个方面研究，比尔盖茨以前提出的目标就是让计算机达到能听能说能写的能力，近些年微软有所突破，总结一下。

第一个就是物体识别

第二个就是语音识别：switchboard超过了人类的94.9%

第三个是阅读理解：达到了88.5%的水平

最近做的翻译，新闻领域也超过了人类水平。

先给大家说一下感知智能目前进展的过程

比如给一张图片就可以识别出图片想要表达的内容然后以文字输出。

同样也可以描述视频。放一段视频让大家了解感知智能发展到什么程度《seeingAI Demo》

已经达到了相当高的程度，了解每一帧的内容生成摘要文字。

微软把这些做的东西都归到第三方，第三方就可以做人工智能方面的具体领域。不用关心细节，只需API就可以得到相应的语境。

语言智能包括以下几个方面：

第一个就是NLP基础技术，包括词、短语、句子篇章等表达，还包括句法分析、分词等等。

第二个是Nlp核心技术，包括机器翻译、问答、信息检索、聊天对话等。

最后一个Nlp+是自然语言的应用，跟大规模的应用或者具体场景结合，比如搜索引擎、语音助手、医疗教育等方面的应用。

自然语言不是孤立的，还有很多技术支撑，比如大数据、云计算、自画像、机器学习和深度学习自动学习其中的规律，还包含具体领域的知识树，这些技术综合起来帮助自然语言发展。

自然语言是微软过去发展的一个核心技术，比如翻译问答、检索、NLP的创新（对联、写诗猜谜等）

自然语言的核心技术

句法分析

包括语法分析、词性判断、专有名词等还有词与词之间的运算关系，这是自然语言的基础之一。

语义分析：

第一个就是不考虑上下文单轮翻译，第二个就是考虑上下文相关的得到当前句子的表达，这个更难。

信息抽取：

左边是无结构，你把它的重要信息抽取存到右边有结构的数据库里面，方便后期的使用。

以这个技术为基础给你一大段文字帮你抽取信息，比如简历：判断人成绩、专业、研究经历等，猎头有成千上万万份简历，用这种方式抽取、入库、匹配，这个就是信息抽取的重要应用，比如股票的波动，金融信息抽取更快的建模分析等。

问答系统：

就是根据问题参考统数据库把答案导出来。这里根据问题难易程度和情况就是主要分为三类。

自动文摘：

当你面对很多文档，看不过来，你可以抓取最重要的信息，分为单文档摘要、句子摘要、多文档摘要。这三个都是很重要的。

自动生成新闻报道：

比如体育报道，一场足球比赛玩就要马上形成体育报道，还要找最精彩的图片匹配，中间还有解说词。这种东西是千篇一律还是很枯燥而且需要快速生成。

自然语言标志性的进展

一、神经机器翻译：

定义：就是用神经网络或者深度学习的方法来做机器翻译

特点：编码、解码两步

首先句子来了，它根据意思对其进行编码，这个编码是有损的编码然后通过解码逐词生成。原理就是这中间每个词有个词向量来表征词的意思，这里面需要大数据库支撑。

后面发展注意力模型：

就是不同词对目标语言概括能力不同。

首先也有一个编码过程，是从右到左，目标语言在生成的时候要考虑前一个状态跟编码过程的状态的相似度。

以上基本听明白就好，就是一个先编码得到语义表达然后解码输出目标语言，解码要考虑每一个词重要性不一样，所以考虑注意力模型。

微软最近在新闻领域翻译取得了进展。WMT-2017发现超过了人类

简单技术介绍一下：

第一个是Transformer，之后会介绍到；

第二个是反向翻译；

然后是左右一致性解码；

还有一个是对偶学习然后是推敲网络、系统融合。

简单介绍一下transformer：

就是为了提高速度

首先每个输入句子编进去词向量和位置向量

解码：自注意力模型、残差

对偶学习：

基本道理就是想把单语（单独的中英文）用起来，因为它很多，双语是很珍贵的。思路很直接，比如英译汉、汉译英。通过这两个系统翻译新的数据，然后中翻英翻译后不知道对错，再次英译汉看和之前的相似程度。

半监督的联合学习模型：

道理相似，英译汉或者汉译英都是到对面系统检验，多次迭代不断完善。

推敲网络：

多遍编码-再解码，这样翻译的层次会更高，其实就是推敲润色，整体翻译水平会逐步提高

双向翻译一致性解码：

可以从左到右也可以反过来从右到左看两者的相似性

大家记住以上的道理：就是左翻右右翻左、英译汉汉译英、互相对比看差别多少等等，所有这些方法都应用，比如新闻句子翻译：虽然和标准答案有一些出入但是也是可以接受的能理解的。多种方式融合达到一个很好的水平。

不仅有文本翻译也有手语翻译（与中科院合作）

视频解读、每一帧理解：图片解读逐词选择最优的意思

手语可以翻译成话语反过来也可以翻译成手语

以上是神经机器翻译

二、聊天机器人

简单的过程其实分为两种

第一个就是基于检索的聊天机器人：你说的话和我们数据库检索，条件是你数据库有很多话并且分类，具体实现可以进行两次检索：既要考虑当前的输入也要考虑以前话语的内容。

现在越来愈多转向的很像神经网络机器翻译。就是对话情感和用户画像进行解码。有的用户比较时尚、萌等等，所以你的回答要更符合它的风格

具体做的时候还要考虑当前的主题还有背景知识库。

类似这样的技术做了小冰、也有智能冰箱等等。

有了这些就能做智能客服，比如敦煌小冰，是聊天还是问问题，同样的思路也可以做银行或者移动公司的客服等等。

三、阅读理解

给电脑一篇文章问它一些问题如果它回答上来说明理解能力很好。这个数据集很有名SQUAD：

下面这张图是阅读理解技术的进步状况：最近是慢慢超越了人的水平

四、计算机创作

比如你想写一首诗给电脑一个图片让它写出来，最开始是对联：用户出上联，电脑给下联，还有猜谜语，电脑猜出是哪儿个字还要给出推理过程。

还有就是把音乐看成一种语言，从一句歌词到对应的乐谱，也是编码解码然后根据语音合成把它唱出来，这是完全自动的。

还有就是《机器过人》，央视通过这个节目把我们的技术展现出来，人工智能做音乐也是很有意思的。

关于未来的展望

大数据支持、云计算支撑，未来NLP会越来越好。

未来的口语翻译会越来越好，大家出国大家说中文，手机就可以翻译成英文。

聊天对话可以达到实用，智能客服可以解决更多的问题加上人工智能能更好的提高智能的效率。

最后大家自然语言理解是一个很好的方向，希望大家可以投身其中做出更多成就！

雷鸣对话陈云霁

雷鸣：

相结合一些应用点，前几天谷歌做了发布会，花了很大的篇幅demo了一个对话。你觉得现在的技术有多少的实用性？

周明：

我们也很关注，从目前研究来看，单轮的问答系统现在已经做得很好了，多轮的问答也是很好了比如小兵，为了完成具体任务，现在做的都是还有很多提升空间。

目前还没有一个很好的训练集和测试集，不像阅读理解有一个标准的测试集，我们可以检验。现在很多自然语言的问题就是落地有问题。这一块是我们应该关注的问题。

雷鸣：

家庭的云助手是特别火的一块，中国也是有这样的潮流，这一块产业加大了布局，你对这块通用的云助手从实用上是怎么发展有什么理解？

周明：

我认为有两个方面。一个是技术本身另一个是商业运作。

家庭云助手一般是：对场景进行处理是很重要的，比如买火车票、天气、点歌等等。语音识别单轮问答、多轮都是可以的。

技术上是基本过关的但是市场和产品还是要考虑很多因素比如新鲜度是多少还有物流等等。有个公司比如技术很好但是运营跟不上还是不能进行一个很好的生态系统。

雷鸣：

落地来看美国去年有四千万的销量这是一个不可忽视的东西，科技最开始总是慢慢发展但是科技达到一定程度上是可以解决一些问题，这些简单问题的处理能够做好就很有价值的。

家庭语音助手开始是命令的方式提问，一旦可以解决实际问题有了数据就可以。收集你要解决的问题重新定义产品让你的东西更好地提升。技术的落地不一定最开始要完美，慢慢进行迭代，因为需求再进行提升。

现在对于视频理解也是很热的，抖音在一段时间安装量可观。短视频类现在是人们的一种需求。视频的生产量是巨大的，对于视频和自然语言怎么结合并且爆发有什么想法？

周明：

这个问题很好，首先图文结合已经发展很好了，但是视频也在努力。假设这个技术越来越好，会产生很多应用。

其实他是把物理和数字结合起来，设想一个场景：拿着相机照完它自动写成一段描述性文字、一首诗、一首歌等等你可以通过文字描述对视频检索分类，这一套做完之后就可以生成视频。将来写一段故事自动生成视频，这也是有可能的。这是我肤浅的一个理解

雷鸣：

我觉得讲的特别好，现在有些简单的也在做。大多在视频检索还有广告、还有就是黄色信息的过滤等。未来给把文字生成视频或者刚才讲的创作生成诗歌或者音乐，你觉得还有多长时间？

周明：

这是有可能的但是目前还是有困难的。因为对象太窄，广泛应用应该对常见的视频场景多模态进行编码解码，不断提升。

只要有数据集三年之内常见的应用是可以做起来。只要这个场景是刚需的，就有数据反馈然后不断强化，可能慢慢就会提高。现在技术不到位、场景不够、用户没来，所以还没发展起来

雷鸣：

你对于从技术到落地有很多经验。你觉得未来有什么机会或者方向给大家在自然语言方面提供一些建议？

周明：

大家都有一个梦想，做一个东西技术、服务推向市场很多人去用并且有一定的收入。自然语言是方兴未艾的，自然语言一定有创业的机会，先从几个方面考虑：

首先是技术有哪些落地，我总结一下有机器翻译、单轮问答、开放性聊天比如小冰、客服。

另一方面去找落地的场景：有的是自然语言还有语音图像技术比如旅游、大型公司客服体系、知识图谱能否无缝对接等。

这两者你要么自己要么有合伙人，都拿到手就你可以试一下。

雷鸣：

讲的很具体，创业一定要在技术的前沿，自己要多去思考一下。另一个问题，这里面的学生未来如果在自然领域想要做出成绩，对他们在读书期间有什么建议，比如创业比如研究？

周明：

无论做什么，一定要有一个有价值的课题。

第一要重要，第二你能做的起来，第三适合你的，第四一定要选新颖的。

自然语言领域有哪些领域是可以选的：神经网络机器翻译还可以再做。

第二个思路是小数据集进行研究：有没有办法半监督或者无监督做出神经网络。也可以根据无结构文本或者表格图片来做。越往后越新做的人越少，第二个就是语义分析：这个技术目前还是不过关的，期待有新的方法。

第三就是多轮对话还不成熟，产生得体的回答，把测试集做出来，这也是一个很新的领域。

第四就是创作：音乐创作这是很新很新的一个领域，做的人非常少。

希望北大学子跨学科结合就可能产生一个新的思路！未来创业考虑场景，从用户的需求出发，了解市场了解用户反思在学校学到的东西哪儿些可以用到。

雷鸣：

同学们有一个问题：方言和普通话之间的转换有什么建议可以减少对库的依赖或者自己建一个库？

周明：

个人认为没有偷工减料的，一个语言就要有一个库，各大公司从事语音的把他们的库释放出来供学生使用是有必要的，因为这个是需要资金的。你可以去有关公司实习。这都是很有意义的！

雷鸣：

现在在自然语言上的输入和评价上都不是很完美，你在这两个方面认为有什么发展的趋势嘛？

周明：

这个问题非常好！输入就是表达，词向量真的表达了足够多的信息吗，或者有没有更简明的表达方式。我认为应该探讨新的方法。有一种方法可以做自动测试，对机器发展起到了很大的作用。但也并不完美，重要词翻错和不重要词翻错得分是一样的，但是这对现实中人的理解是不一样的。比如否定词中的“你去北大”和“你不去北大”少翻一个“不”字意思是完全不一样的，但是它还是会有一定分数的。

雷鸣：

这些都是很基础的，再看一个问题：现有的技术发展和迭代，智能机器之间会不会演化出来一种他们之间交流的语言，你觉得未来会不会实现或者会有一个什么样的技术障碍？

周明：

首先定义要明确，什么叫机器人之间的语言。个人认为技术人主要专注技术本身，它有很多社会影响噱头是捉摸不定不好说的。两个机器人其实他是可以聊得来。个人认为我们应该做技术本身的工作，未来有一天机器的智能多高也都是人工的智能。这其实取决于自动编程这方面的东西，问题目前自动编程也也没有什么进展所以这目前还是遥遥无期的。返回搜狐，查看更多

责任编辑：

微软亚洲研究院副院长周明——语言智能的进展 | 北大AI公开课实录

热门新闻

周热门

微软亚洲研究院副院长周明——语言智能的进展 | 北大AI公开课实录

“英伟达仓位近一半 一股没动 有钱继续买入”！但斌最新发声

日立股价大涨 此前公司公布人工智能人才培训计划

国脉文化(600640.SH)：暂未涉及人工智能旅游线上业务

英伟达飙涨或未结束！美银：能再涨24%，未来将主导计算市场

人工智能：对成人娱乐AI产品的担忧加剧

台积电拟对英伟达涨价 大摩称其他客户或也将跟进

苹果与 OpenAI 阿尔特曼合作，在 AI 领域迎头赶上

特斯拉今年或花费30亿到40亿美元 购买英伟达产品

Siri联合创始人：苹果与OpenAI合作可能只是权宜之计

密度业内最高 美光出样全新GDDR7显存：能效提升50%

交银国际：科技行业下半年AI主题或将继续 半导体或持续分化

FTC盯上微软！交易疑似绕开反垄断审查

Salesforce拟在伦敦开设新的人工智能中心

Meta因使用个人数据训练AI模型收到欧盟11起投诉

美国FTC调查微软与AI初创公司Inflection的交易

热门新闻

周热门

“英伟达仓位近一半一股没动有钱继续买入”！但斌最新发声

日立股价大涨此前公司公布人工智能人才培训计划

台积电拟对英伟达涨价大摩称其他客户或也将跟进

特斯拉今年或花费30亿到40亿美元购买英伟达产品

密度业内最高美光出样全新GDDR7显存：能效提升50%

交银国际：科技行业下半年AI主题或将继续半导体或持续分化