点击

上方“IEEE电气电子工程师学会”即可订阅公众号。网罗全球科技前沿动态,为科研创业打开脑洞。

图片来源:iStockphoto

2016年美国总统大选期间,社交网络上充斥着不准确和误导性的文章。从那以后,科技公司——从Facebook、Google等这样的大公司到生气勃勃的初创公司——已经打造了一些工具来打击错误信息包括许多人称之为假新闻的文章,尽管这个词被高度政治化了)。大多数公司求助于人工智能AI,希望快速自动化的计算机系统能够解决这个看起来互联网一样大的问题。

“他们都在使用人工智能,因为他们需要扩大处理规模。”Claire Wardle说。她是哈佛大学约翰肯尼迪政府学院承担错误信息斗争项目First Draft的负责人。她说,AI可以使那些耗时的步骤例如仔细检查每天在线发布的大量内容并标记出可能虚假内容)加快

不过,Wardle说,人工智能无法做出最终的判断对于机器来说,你如何编码'误导性的'(misleading)呢?即使是人类也难以定义它。生活是混乱复杂和微妙的,人工智能要做到理解这一点,还有很长的路要走。

Facebook因未能在2016年对虚假内容采取行动而广受批评。Facebook称,它将在今年11月的美国中期选举中以及全球其他选举中利用人工智能把打击虚假内容一事做得更好。Facebook产品经理Jim Kleban致力于减少网站news feed中的错误信息,他解释说Facebook现在使用AI来增强人类智能。AI检查每天在Facebook上分享的数百万个链接识别出其中的可疑内容,然后将它们发送给事实核查人员。他说“在可预见的未来,所有这些系统都需要混合解决方案

当事实核查人员认为一段内容虚假内容时,Facebook会降低其在用户的news feed的排序位置。Kleban说这种方法使虚假内容的被浏览次数减少了80%

Facebook的AI通过机器学习——AI系统接收大量被标记过的资料的数据,并独立地寻找出模式的一种技术——进行训练的。例如,图像分类AI可能会查看数百万张标有“猫”或“狗”的照片,而学习到和狗的区别特征。但是训练AI来识别虚假内容要得多。

Kleban说,FacebookAI从内容来源开始,利用各种信号挑选出包含错误信息的文章“知道某个网页或网站过去分享过虚假内容,就可以预测它会再次分享虚假内容,这样的预测往往是很准确的虚假内容在网络上的传播方式也可能存在一种可识别的模式Kleban说这是一个活跃的研究领域。至于文本本身,AI没有能力评估内容的真实性,但它可以找到信号,例如在评论部分有对文本内容表示不信任的表达

总部位于伦敦的初创公司Factmata正在开发一种采用不同方法的人工智能系统,该公司的知名投资者包括Twitter共同创始人Biz Stone和Craigslist创始人Craig Newmark。Factmata创始人Dhruv Ghulati说,公司并不特别关注内容的出版者或他们的声誉“我们希望根据内容本身来对内容进行判断。

Factmata的系统采用的也是人机合作的混合型方案虽然其配置是不同的:人是对内容进行标记的专家,做过标记的内容用于AI的训练。Ghulati说假新闻和宣传这样的东西本质上是差别细微的和主观的确实需要专业知识来理解内容的性质并对其进行适当标记。通过那些标记过的数据集,Factmata正在训练其AI识别政治上有偏见的内容虚假内容和仇恨言论。

该公司目前正致力于互联网的“后端”,帮助互联网广告交易平台(advertising exchanges)避免在有问题的内容上投放广告。将来它可能会对社交网络有用。Factmata的系统标记了可疑内容并解释了其可疑之处,但该公司将怎样处理那些内容的决定权留给了客户。

一些最初是面向其他新闻目标的公司加入了竞争。总部位于都柏林的NewsWhip向新闻机构销售一款基于人工智能工具,这款工具可以发现热门内容并预测其传播情况,从而使新闻团队能够快速注意到那些正在像病毒一样迅速在网上传播的新闻报道。在法国英国和德国最近的选举中,记者们利用该工具发现并揭穿了那些在社交网络上广受关注的虚假新闻报道

总部位于伦敦的Krzana公司用一种定制的实时news feed帮助记者发现突发新闻。记者使用Krzana的基于AI工具发现四种语言(将来会有更多语言)的内容,这些内容是工具根据记者选择的关键词和搜索词找出来的。在墨西哥最近的选举中,一个媒体联盟使用Krzana的工具快速找到可能包含错误信息的新闻

Krzana的共同创始人Toby Abel说:“记者是第一批阅读这些报道的人,而不是等到这些报道被很多人分享后才去读。如果它们是假的,它们很快就会遭到反击。”

Abel说AI错误信息检测器本身还不可靠,他同意需要人机合作。他引用了2018年墨西哥大选有关的一个例子,在这次大选中,一位政治候选人以戏谑的方式回应了对其与俄罗斯的关系的指控:他走到码头,宣称自己正在等他的俄罗斯潜艇。“如果在没有外部背景和理解的情况下阅读这篇文章它看起来就像假新闻但事实并非如此”阿贝尔说。

对于试图识别虚假内容的人工智能系统来说,讽刺性表达是最棘手的问题之一。公司也在努力找出图像视频图表和其他非文本内容中的错误信息。欺骗的可能性似乎无穷无尽例如,照片可能是合理的,但其标题可能具有误导性

总部位于伦敦的非营利性事实核查机构Full Fact试图避开灰色地带。它正在利用机器学习来改进一种能扫描文本和视频脚本的工具,寻找经济趋势和法律诉讼等主题的、可被事实核查人核实的事实类报道。Full Fact的自动事实核查负责人Mevan Babakar表示,该工具还将来自许多不同新闻来源的类似报道聚集在一起。“因此,在每一天的开始,我都对我的事实核查说,'这是排名前五的像野火一样蔓延的最热门报道。'”

Factmata的Ghulati表示,今天的AI系统可能还没有准备好独立解析复杂的报道或做出关于真相的精细决策,但这并不意味着现在不应该部署它们。风险在于你试图得到假新闻的完美定义,却永远得不到答案”,他说,“重要的是要建造一些东西。”

本文的节略版将刊登在2018年9月那一期的印刷版IEEE SPECTRUM上。

点击 阅读原文 了解更多详情

相关文章