摘要:\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E这篇论文里BERT是在多类型语言推理数据集 (\u003Cstrong\u003EMNLI\u003C\u002Fstrong\u003E) 上训练的,而测试集则是研究团队自制的\u003Cstrong\u003EHANS\u003C\u002Fstrong\u003E数据集:\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002Fc481c47ba2c34bdc9a353e2a416b7d43\" img_width=\"1080\" img_height=\"337\" alt=\"。ACL论文只靠一个“Not”,就把AI阅读理解骤降到盲猜水平\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cstrong\u003E“不只一个数据集有问题”\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E这篇论文的结论给了NLP模型们当胸一击。

"\u003Cdiv\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F4a4993c9f2e84a8e9dc8b26c174a75c0\" img_width=\"640\" img_height=\"70\" alt=\"!ACL论文只靠一个“Not”,就把AI阅读理解骤降到盲猜水平\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-justify\"\u003E本文经AI新媒体量子位(公众号ID:qbitai)授权转载,转载请联系出处\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E本文约\u003Cstrong\u003E1700字,\u003C\u002Fstrong\u003E建议阅读\u003Cstrong\u003E5分钟。\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003EBERT到底是败在了一项怎样的任务上?\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E有一篇中选了ACL的论文,打击了以BERT为首的众多阅读理解模型。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E研究人员认为,包括BERT在内,许多模型的成功都是建立在虚假的线索上。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002Faa598d3b26434fc0becd3bf4b501140c\" img_width=\"300\" img_height=\"300\" alt=\"!ACL论文只靠一个“Not”,就把AI阅读理解骤降到盲猜水平\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-justify\"\u003E团队用了去年诞生的\u003Cstrong\u003E观点推理理解任务\u003C\u002Fstrong\u003E (ARCT) 考验了BERT。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E结果发现,只要做个对抗数据集,准确率就从77%降到\u003Cstrong\u003E53%\u003C\u002Fstrong\u003E,几乎等同于随机猜。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E预告一下,这里的对抗并不是把\u003Cstrong\u003Eo变成0、把I变成1\u003C\u002Fstrong\u003E的小伎俩。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E实验说明,BERT是依靠数据集里“\u003Cstrong\u003E虚假的统计学线索\u003C\u002Fstrong\u003E (Spurious Statistical Cues) ”来推理的。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E也就是说,它并不能真正分析出句子之间的逻辑关系。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002F30c2569422a1496297384fd30f68d523\" img_width=\"1023\" img_height=\"767\" alt=\"!ACL论文只靠一个“Not”,就把AI阅读理解骤降到盲猜水平\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cstrong\u003E碎成渣渣\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E那么,BERT到底是败在了一项怎样的任务上?\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E\u003Cstrong\u003E观点推理理解任务\u003C\u002Fstrong\u003E (ARCT) ,是Habernal和小伙伴们提出的阅读理解任务,考察的是语言模型的推理能力,中选了\u003Cstrong\u003ENAACL 2018\u003C\u002Fstrong\u003E。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E一个观点,包含前提 (Premise) ,和主张 (Claim) 。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E除此之外,观点又有它的原因 (Reasoning) ,以及它的佐证 (Warrant) 。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F66af3a34a23744479cd3bfaea49a708e\" img_width=\"1080\" img_height=\"379\" alt=\"!ACL论文只靠一个“Not”,就把AI阅读理解骤降到盲猜水平\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E在ARCT里面,AI要根据一个给定的观点,在两个选项里,找出正确的佐证。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E两个佐证句十分接近,得出的主张却是完全相反。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E原始的ARCT数据集里,一共有2000个观点,配以它们的佐证。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E原本,BERT在这个数据集上表现优良,77%的最好成绩,只比未经训练的人类 (79.8%) 低不到3个百分点。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F2e5b2c68751c4dcea03041f24dac8255\" img_width=\"1080\" img_height=\"333\" alt=\"!ACL论文只靠一个“Not”,就把AI阅读理解骤降到盲猜水平\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E中位数,也在70%以上。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E可这样就能说明BERT拥有推理能力了么?\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E为了研究BERT的选择是如何做出的,团队观察了AI眼中容易分类的那些数据点。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E结果发现,BERT是利用了一些线索词来判断,特别是“Not”这个词。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002Fc5c885c94da548879bc79049927e0f9f\" img_width=\"734\" img_height=\"280\" alt=\"!ACL论文只靠一个“Not”,就把AI阅读理解骤降到盲猜水平\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E在两个选项里面,如果选择带有“Not”的佐证句,就有\u003Cstrong\u003E61%\u003C\u002Fstrong\u003E的概率是对的。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E并且,在所有正确答案里,有\u003Cstrong\u003E64%\u003C\u002Fstrong\u003E的佐证句都包含了“Not”。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E这是最强大的一个线索词,但它和答案之间是虚假关系 (Spurious Relationship) ,并不是在逻辑上相关的。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E除此之外,其他的线索词还包括了“Is”“Do”“Are”等等。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F1e2242eb6919465eabfd3df5e3f0e706\" img_width=\"500\" img_height=\"550\" alt=\"!ACL论文只靠一个“Not”,就把AI阅读理解骤降到盲猜水平\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E为了证明“Not”这样的线索词,对AI的推理真的有影响,团队做了一个对抗数据集。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E具体方法是,给观点的\u003Cstrong\u003E主张\u003C\u002Fstrong\u003E (Claim) 加上一个“Not”来否定;\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E\u003Cstrong\u003E原因\u003C\u002Fstrong\u003E (Reasoning) 不变;\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E把佐证 (Warrant) 的两个选项,对错标签反过来填。就是把错误答案和正确答案对调。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F81598af8e09e4732853b461803340738\" img_width=\"1080\" img_height=\"208\" alt=\"!ACL论文只靠一个“Not”,就把AI阅读理解骤降到盲猜水平\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E拿修改过的数据集,再去考BERT。它的成绩就降到了盲猜水平:\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F38ee1ebb4d354e3cb33ec2f88277fde8\" img_width=\"692\" img_height=\"246\" alt=\"!ACL论文只靠一个“Not”,就把AI阅读理解骤降到盲猜水平\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E研究人员觉得,将来再评估AI的阅读理解能力,也应该采纳这样的方法,如此才能测出语言模型的推理到底有多鲁棒。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cstrong\u003E前情:BERT有多神\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E在NLP领域,没有人不知道BERT的大名。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003EBERT由谷歌推出,堪称2018年最火的NLP模型,甚至被称为NLP新时代的开端。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E甫一亮相,BERT就在11项NLP任务上都取得了最顶尖的成绩,将GLUE基准提升7.6%,将MultiNLI的准确率提升5.6%。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E哪怕是在XLNet等后来者的冲击之下,BERT在SQuAD2.0排行榜上仍处于霸榜的地位,前10名中有6位都是BERT的变体。其中第一名BERT + DAE + AoA的表现甚至超过了人类。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002Fbb1376c5d76a46daa4e964891a6efe14\" img_width=\"1080\" img_height=\"332\" alt=\"!ACL论文只靠一个“Not”,就把AI阅读理解骤降到盲猜水平\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cstrong\u003E“不只一个数据集有问题”\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E这篇论文的结论给了NLP模型们当胸一击。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003EBERT的秘密被揭穿,网友们纷纷表示这是非常值得深入探讨的一个议题。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E作者本人在Reddit评论区补充说:\u003C\u002Fp\u003E\u003Cblockquote\u003E我们每隔几个月就会听到有关NLP的新进展,更新、更好的模型层出不穷。但当有人实际用数据集测试时,会发现这些模型并没有真正学习到什么。优化模型的竞赛该放缓脚步了,我们更应该仔细研究研究数据集,看看它们是否真的有意义。\u003C\u002Fblockquote\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002Fb1fb9c71523f47119bd47ec96e18bfa7\" img_width=\"1080\" img_height=\"246\" alt=\"!ACL论文只靠一个“Not”,就把AI阅读理解骤降到盲猜水平\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E作者还说,他并不否认BERT和其他新模型的价值,但是并不相信一些Benchmark。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F9bf248123917467ba97ab46feb7e308b\" img_width=\"1080\" img_height=\"170\" alt=\"!ACL论文只靠一个“Not”,就把AI阅读理解骤降到盲猜水平\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E有人直接贴出了另一篇ACL论文,说这两项研究得出的结论几乎一毛一样。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002F3c312b5020ce450c82f92aaf7965dfcf\" img_width=\"1080\" img_height=\"349\" alt=\"!ACL论文只靠一个“Not”,就把AI阅读理解骤降到盲猜水平\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003Ehttps:\u002F\u002Farxiv.org\u002Fabs\u002F1902.01007\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E只不过,数据集不一样了。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E这篇论文里BERT是在多类型语言推理数据集 (\u003Cstrong\u003EMNLI\u003C\u002Fstrong\u003E) 上训练的,而测试集则是研究团队自制的\u003Cstrong\u003EHANS\u003C\u002Fstrong\u003E数据集:\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002Fc481c47ba2c34bdc9a353e2a416b7d43\" img_width=\"1080\" img_height=\"337\" alt=\"!ACL论文只靠一个“Not”,就把AI阅读理解骤降到盲猜水平\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E利用一些简单的句子变换,就能让AI做出错误的判断。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E于是,BERT在这个新数据集上又扑街了。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E也就是说,不止ARCT一个数据集,作为常用基准的MNLI也有类似的缺陷。\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E不过,也有人对主角论文的结论存疑:\u003C\u002Fp\u003E\u003Cblockquote\u003E这篇文章提出的观点过于笼统,只讨论了BERT的ARCT性能。既然论文想说明,那些新的NLP模型\u003Cstrong\u003E通常\u003C\u002Fstrong\u003E什么意义都没学明白,就应该对更多基准进行测试。显然我们用来判断模型表现的基准与人类判断不完全相关,但问题是目前并没有更好的判断标准。\u003C\u002Fblockquote\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002Fcb69faef73ec4170a0b30ccdfdc3c33d\" img_width=\"1080\" img_height=\"303\" alt=\"!ACL论文只靠一个“Not”,就把AI阅读理解骤降到盲猜水平\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E传送门\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E论文地址:https:\u002F\u002Farxiv.org\u002Fabs\u002F1907.07355\u003C\u002Fp\u003E\u003Cp class=\"ql-align-right\"\u003E作者系网易新闻·网易号“各有态度”签约作者\u003C\u002Fp\u003E\u003Cp class=\"ql-align-right\"\u003E编辑:文婧\u003C\u002Fp\u003E\u003Cp class=\"ql-align-right\"\u003E校对:林亦霖\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cstrong\u003E— 完 —\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp class=\"ql-align-justify\"\u003E关注清华-青岛数据科学研究院官方微信公众平台“\u003Cstrong\u003ETHU数据派\u003C\u002Fstrong\u003E”及姊妹号“\u003Cstrong\u003E数据派THU\u003C\u002Fstrong\u003E”获取更多讲座福利及优质内容。\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E"'.slice(6, -6), groupId: '6719696584239481358
相关文章