愚人节玩笑被用来识别假新闻,研究说两者在叙事上存在相似性

作为一种欺骗性质的叙事,愚人节玩笑与假新闻方面存在相似性。

英国兰卡斯特大学(Lancaster University)的在读博士生 Edward Dearden 与讲师 Alistair Baron 博士整理了 14 年的愚人节玩笑文本,并将其与其他研究员汇编的假新闻数据库进行比对,给出了上述结论。

两位研究员声称,他们收集了 14 年间 370 多个网站发布的 500 多个愚人节玩笑。在与假新闻数据库进行比对后,他们发现,假新闻与愚人节玩笑在文本结构上存在相似性。

例如,相对真实报道,假新闻、愚人节玩笑更容易阅读、通常少用具体的细节,包括人名、地址、时间,但使用的句子通常更长。

这篇论文 Fool’s Errand: Looking at April Fools Hoaxes as Disinformation through the Lens of Deception and Humour 将在 4 月 7-13 日的 CICLing 2019 大会上公布。

根据他们现在公布的结论,与真实报道相比,假新闻通常具有如下特征:

篇幅较短容易阅读使用简单的语句包含较少的标点符号包含更多专有名词通常情况下使用非正式的表述——使用更多的名(而非姓),比如“希拉里”,包含更多的脏话和拼写错误较少包含日期多采用第一人称代词

与真实报道相比,愚人节玩笑通常具有如下特征:

篇幅通常较短使用更多独特词汇句子更长更容易阅读提及更多未来不明确的事件包含更多当下的参考信息对过去的事情不太感兴趣较少使用专有名词多采用第一人称代词

由于论文尚未公布,研究员的论文信息较为缺乏,包括愚人节玩笑来源、比对的假新闻数据库覆盖哪些方面等。

在课题上,对比假新闻与愚人节玩笑是 Edward Dearden 最近聚集的课题。他在英国兰卡斯特大学攻读计算机科学中的自然语言处理,集中在网络造谣主题上。

Edward Dearden 称:"愚人节恶作剧是非常有用的,因为它们为我们提供了一个可验证的欺骗性文本,让我们有机会了解到(假新闻)作者用虚构信息伪装真实的报道时所用的语言技巧。"

两位研究员还据此设计了一个分类算法,用于区分愚人节玩笑、假新闻。他们声称,分类算法在识别愚人节玩笑上的准确率在 75%,假新闻的识别率在 72%。当他们利用愚人节玩笑培训这个分类算法时,在识别假新闻上的准确率在 65%。

这种将假新闻与愚人节玩笑进行比对研究的方式并不新鲜。此前,媒体网站将愚人节玩笑直接称作假新闻(fake news)。但在 2017 年前后,假新闻与愚人节玩笑在定义上就不再那么接近,假新闻变成了整个社会关注的大话题。Facebook、Google 等传播信息与内容的平台也因此频繁受到指责。

过去也确实有人将真实事件与愚人节玩笑混淆。Google 推出 Gmail 邮箱是比较突出的案例之一。Google 在 2004 年愚人节推出 1G 存储空间、免费的 Gmail 邮箱服务时,很多人都将其视为愚人节玩笑。

这种当时听上去巨大容量的邮箱服务令人怀疑也是有理由的。洋葱新闻 The Onion 的编辑 Baratunde Thurston 称,一种区分的方式是,“任何好得令人难以置信的事情都需要怀疑”。该网站专注提供假新闻作讽刺目的。

相对过去常用的事实核查方式而言,从文本结构上比对假新闻与愚人节玩笑的视角也许较新。对于用户而言,这也意味着在区分假新闻上增加了一个视角。

但制作假新闻分类器这类技术手段控制假新闻已经是近年比较流行的方式。

传统的事实核查方式仍在延续,核查新闻来源、多渠道交叉验证,确认调查报告的样本量等。例如,专注于政治内容的非盈利组织 FactCheck.org 在进行事实核查时,主要资料是美国主流电视台的视频、白宫官网的文本等。该机构 2016 年宣布与 Facebook 合作。

但现在,科技公司审核信息真实性的措施实际的正面影响有限。科技公司合作的 FactCheck.org 等事实核查机构在事实真实性的看法上存在差异,设置的举报假新闻机制存在问题。

根据斯坦福大学的一份研究,《华盛顿邮报》旗下的 Fact-Checker 与 PolitiFact 共同核查的 70 份信息上,两个机构只在 56 份上达成了信息真实性的一致意见。

科技公司希望依赖于用户自己举报假新闻的努力也效果不佳。根据耶鲁大学的一份研究,Facebook 用户对于没有标注“有争议”标签的信息上倾向于认为该信息有更高的真实性,但实际只有极少数这类信息存在真实性。

题图来自:rawpixel.comfromPexels

相关文章