知识图谱从哪儿来？实体关系抽取的现状和未来

摘要：从 2015 年开始，基于远程监督与降噪机制的神经关系抽取模型得到了长足的发展，工作[17] 引入了多实例学习方法，利用包含同一实体对的所有实例来共同预测实体间关系。如何利用深度学习模型自动发现实体间的新型关系，实现开放关系抽取，仍然是一个开放问题。

最近几年深度学习引发的人工智能浪潮席卷全球，在互联网普及带来的海量数据资源和摩尔定律支配下飞速提升的算力资源双重加持下，深度学习深入影响了自然语言处理的各个方向，极大推动了自然语言处理的发展。来到 2019 年的今天，深度学习的诸多局限性也慢慢得到广泛认知。对于自然语言处理而言，要做到精细深度的语义理解，单纯依靠数据标注与算力投入无法解决本质问题。如果没有先验知识的支持，「中国的乒乓球谁都打不过」与「中国的足球谁都打不过」，在计算机看来语义上并没有巨大差异，而实际上两句中的「打不过」意思正好相反。因此，融入知识来进行知识指导的自然语言处理，是通向精细而深度的语言理解的必由之路。然而，这些知识又从哪里来呢？这就涉及到人工智能的一个关键研究问题——知识获取。

一、知识图谱

现有大型知识图谱，诸如Wikidata、Yago、DBpedia，富含海量世界知识，并以结构化形式存储。如下图所示，每个节点代表现实世界中的某个实体，它们的连边上标记实体间的关系。这样，美国作家马克·吐温的相关知识就以结构化的形式记录下来。

目前，这些结构化的知识已被广泛应用于搜索引擎、问答系统等自然语言处理应用中。但与现实世界快速增长的知识量相比，知识图谱覆盖度仍力有未逮。由于知识规模巨大而人工标注昂贵，这些新知识单靠人力标注添加几无可能完成。为了尽可能及时准确地为知识图谱增添更加丰富的世界知识，研究者们努力探索高效自动获取世界知识的办法，即实体关系抽取技术。

具体来说，给定一个句子和其中出现的实体，实体关系抽取模型需要根据句子语义信息推测实体间的关系。例如，给定句子：「清华大学坐落于北京近邻」以及实体「清华大学」与「北京」，模型可以通过语义得到「位于」的关系，并最终抽取出（清华大学，位于，北京）的知识三元组。

实体关系抽取是一个经典任务，在过去的 20 多年里都有持续研究开展，特征工程、核方法、图模型曾被广泛应用其中，取得了一些阶段性的成果。随着深度学习时代来临，神经网络模型则为实体关系抽取带来了新的突破。

数据规模问题：人工精准地标注句子级别的数据代价十分高昂，需要耗费大量的时间和人力。在实际场景中，面向数以千计的关系、数以千万计的实体对、以及数以亿计的句子，依靠人工标注训练数据几乎是不可能完成的任务。

学习能力问题：在实际情况下，实体间关系和实体对的出现频率往往服从长尾分布，存在大量的样例较少的关系或实体对。神经网络模型的效果需要依赖大规模标注数据来保证，存在「举十反一」的问题。如何提高深度模型的学习能力，实现「举一反三」，是关系抽取需要解决的问题。

复杂语境问题：现有模型主要从单个句子中抽取实体间关系，要求句子必须同时包含两个实体。实际上，大量的实体间关系往往表现在一篇文档的多个句子中，甚至在多个文档中。如何在更复杂的语境下进行关系抽取，也是关系抽取面临的问题。

开放关系问题：现有任务设定一般假设有预先定义好的封闭关系集合，将任务转换为关系分类问题。这样的话，文本中蕴含的实体间的新型关系无法被有效获取。如何利用深度学习模型自动发现实体间的新型关系，实现开放关系抽取，仍然是一个「开放」问题。

我们认为，这四个方面构成了实体关系抽取需要进一步探索的主要方向。接下来，我们分别介绍这四个方面的发展现状和挑战，以及我们的一些思考和努力。

二、更大规模的训练数据

神经网络关系抽取需要大量的训练数据，但是人工标注这些训练数据非常费时昂贵。为了自动获取更多的训练数据训练模型，工作 [16] 提出了远程监督（Distant Supervision）的思想，将纯文本与现有知识图谱进行对齐，能够自动标注大规模训练数据。

远程监督的思想并不复杂，具体来说：如果两个实体在知识图谱中被标记为某个关系，那么我们就认为同时包含这两个实体的所有句子也在表达这种关系。再以（清华大学，位于，北京）为例，我们会把同时包含「清华大学」和「北京」两个实体的所有句子，都视为「位于」这个关系的训练样例。

远程监督的这种启发式标注规则是把双刃剑，它是自动标注训练数据的有效策略，但其过强的设定不可避免地产生错误标注。例如对于知识图谱中（清华大学，校长，邱勇）这个三元组事实，句子「邱勇担任清华大学校长」可以反映「清华大学」与「邱勇」之间「校长」的关系；但是句子「邱勇考入清华大学化学与化学工程系」以及「邱勇担任清华大学党委常委」并不表达「校长」关系，但却会被远程监督的启发式规则错误地标注为「校长」关系的训练实例。

虽然远程监督思想非常简单也存在很多问题，不过它为更多收集训练数据开启了新的纪元。受到这个思路的启发，很多学者积极考虑如何尽可能排除远程监督数据中的噪音标注的干扰。从 2015 年开始，基于远程监督与降噪机制的神经关系抽取模型得到了长足的发展，工作[17] 引入了多实例学习方法，利用包含同一实体对的所有实例来共同预测实体间关系。我们课题组林衍凯等人工作[19] 提出句子级别注意力机制，对不同的实例赋予不同的权重，用以降低噪音实例造成的影响。工作 [20] 引入对抗训练来提升模型对噪音数据的抵抗能力。工作 [21] 则构建了一套强化学习机制来筛除噪音数据，并利用剩余的数据来训练模型。

总结来说，已有对远程监督的降噪方法可以兼顾了关系抽取的鲁棒性与有效性，也具有较强的可操作性和实用性。不过，使用已有知识图谱对齐文本来获取数据训练关系抽取模型，再利用该模型来抽取知识加入知识图谱，本身就有一种鸡生蛋与蛋生鸡的味道。不完善的知识图谱对齐所得到的文本训练数据也将是不完善的，对那些长尾知识而言，仍难以通过这种远程监督机制来得到训练实例。如何提出更有效的机制来高效获取高质量、高覆盖、高平衡的训练数据，仍然是一个值得深入思考的问题。

三、更高效的学习能力

即使通过远程监督等办法能够自动获取高质量的训练数据，由于真实场景中关系和实体对的长尾分布特点，绝大部分的关系和实体对的可用样例仍然较少。而且，对于医疗、金融等专业领域的专门关系，受限于数据规模的问题可用样例也很有限。而神经网络模型作为典型的 data-hungry 技术，在训练样例过少时性能会受到极大影响。因此，研究者们希望探索有效提升模型学习能力的方法，以更好地利用有限训练样例取得满意的抽取性能。

实际上，人类可以通过少量样本快速学习知识，具有「举一反三」的能力。为了探索深度学习和机器学习「举一反三」的能力，提出了少次学习（Few-shot learning）任务。通过设计少次学习机制，模型能够利用从过往数据中学到的泛化知识，结合新类型数据的少量训练样本，实现快速迁移学习，具有一定的举一反三能力。

总结来说，探索少次学习关系抽取，让关系抽取模型具备更强大高效的学习能力，还是一个非常新兴的研究方向，特别是面向关系抽取的少次学习问题，与其他领域的少次学习问题相比，具有自身独有的特点与挑战。不论是基于已有少次学习技术作出适于 NLP 和关系抽取的改进，还是提出全新的适用于关系抽取的少次学习模型，都将最大化地利用少量标注数据，推动关系抽取技术的落地实用。

四、更复杂的文本语境

现有关系抽取工作主要聚焦于句子级关系抽取，即根据句内信息进行关系抽取，各类神经网络模型也擅长编码句子级语义信息，在很多公开评测数据能够取得最佳效果。而在实际场景中，大量的实体间关系是通过多个句子表达的。如下图所示，文本中提到多个实体，并表现出复杂的相互关联。根据从维基百科采样的人工标注数据的统计表明，至少 40％的实体关系事实只能从多个句子中联合获取。为了实现多个实体间的跨句关系抽取，需要对文档中的多个句子进行阅读推理，这显然超出了句子级关系抽取方法的能力范围。因此，进行文档级关系抽取势在必行。

文档级关系抽取研究需要大规模人工标注数据集来进行训练和评测。目前文档级关系抽取数据集还很少。工作 [26，27] 构建了两个远程监督的数据集，由于没有进行人工标注因此评测结果不太可靠。BC5CDR [28] 是人工标注的文档级关系抽取数据集，由 1,500 篇 PubMed 文档构成是生物医学特定领域，且仅考虑「化学诱导的疾病」关系，不一定适合用来探索文档级关系抽取的通用方法。工作 [29] 提出使用阅读理解技术回答问题的方式从文档中提取实体关系事实，这些问题从」实体-关系「对转换而来。由于该工作数据集是针对这种方法量身定制的，也不那么适用于探索文档级关系抽取的通用方法。这些数据集或者仅具有少量人工标注的关系和实体，或者存在来自远程监督的噪音标注，或者服务于特定领域或方法，有这样或那样的限制。

五、更开放的关系类型

现有关系抽取工作一般假设有预先定义好的封闭关系集合，将任务转换为关系分类问题。然而在开放域的真实关系抽取场景中，文本中包含大量开放的实体关系，关系种类繁多，而且关系数量也会不断增长，远超过人为定义的关系种类数量。在这种情况下，传统关系分类模型无法有效获取文本中蕴含的实体间的新型关系。如何利用深度学习模型自动发现实体间的新型关系，实现开放关系抽取，仍然是一个开放问题。

为了实现面向开放领域的开放关系抽取，研究提出开放关系抽取（OpenRelation Extraction，OpenRE）任务，致力于从开放文本抽取实体间的任意关系事实。开放关系抽取涉及三方面的「开放」：首先是抽取关系种类的开放，与传统关系抽取不同，它希望抽取所有已知和未知的关系；其次是测试语料的开放，例如新闻、医疗等不同领域，其文本各有不同特点，需要探索跨域鲁棒的算法；第三是训练语料的开放，为了获得尽可能好的开放关系抽取模型，有必要充分利用现有各类标注数据，包括精标注、远程监督标注数据等，而且不同训练数据集的关系定义和分布也有所不同，需要同时利用好多源数据。

在前深度学习时代，研究者也有探索开放信息抽取（Open InformationExtraction，OpenIE）任务。开放关系抽取可以看做OpenIE 的特例。当时 OpenIE 主要通过无监督的统计学习方法实现，如 Snowball 算法等。虽然这些算法对于不同数据有较好的鲁棒性，但精度往往较低，距离实用落地仍然相距甚远。

知识图谱从哪儿来？实体关系抽取的现状和未来

热门新闻

周热门

知识图谱从哪儿来？实体关系抽取的现状和未来

这家公司，被巨头封杀，被黑客攻击，却成为美国执法部门的宠儿

以小见大，从珠宝行业的“互联网+”看互联网赋能传统产业的机会

达成了这样的共识，国内SaaS企业终于活成了自己讨厌的样子

非偶然！前二十的中国互联网企业，只有两位不懂技术的创始人

信息流时代，公司的PR文还有价值么？

企业邮箱仍是必需品，如何免费开通200人的企业邮箱？

创业者如何利用好自己的负面情绪？从《新喜剧之王》谈起

荫蔽在人工智能高端产业下的低端生意：数据标注是什么？

继中国、德国之后，美国或许也将发布禁令，苹果仍然拒不执行吗？

长时间拒不执行中国禁令之后，苹果在美国本土或将被禁

初创企业的品牌宣传该怎么做

318，散了吧？熊猫直播，一个不属于创业者的项目

合伙人制不是万能药，能止血房天下，未必能续命人人车

过犹不及！企业数字化转型需要警惕的陷阱！

名企入驻，雄安市民服务中心全面开张，智慧工地助力雄安速度！

热门新闻

周热门