即便是 GPT-4 API「灰盒」也逃不过安全漏洞。FAR AI 实验室的团队从微调、函数调用、搜索增强三个方向入手,成功让 GPT-4 越狱。

GPT-4 API 竟被曝出重大安全漏洞!

OpenAI 首届开发者大会上全面更新了 GPT-4 模型,包括微调 API,新增函数调用 API,以及搜索增强 API。

如今,来自美国加州实验室 FAR AI 的团队从这三大方向,对 GPT-4 API 开启「红队」攻击测试。

没想到,GPT-4 竟能成功越狱。

通过 15 个有害样本和 100 个良性样本进行微调,就完全能够让 GPT-4「放下戒备心」,生成有害的内容。

比如,生成错误的公众人物信息,提取训练数据中电子邮件等私人信息,还会在代码建议中插入恶意的 URL。

有网友警告,千万不要在 GPT-4 中输入任何你不想让别人看到的东西。

研究人员还发现,GPT-4 Assistants 模型容易暴露函数调用的格式,并能够被诱导执行任意函数调用。

另外,知识检索可以通过在检索文档中注入指令来进行劫持。

这项研究发现表明,对 API 提供的功能的任何添加,都会暴露出大量新的漏洞,即便是当前最领先的 GPT-4 也是如此。

接下来,研究人员通过恶意用户 Alice 与良性用户 Bob 交互的具体故事,来展示发现问题的例子。

Bob 正在大量无害的数据上,为自己的新应用微调 GPT-4。但不幸的是,即使是在无害数据上进行的这种优化也可能会破坏 GPT-4 原有的安全限制。

Alice 是一位从事毒品走私的人,她发现自己可以利用 Bob 无意中解锁的模型来帮助策划她的下一次走私活动:

研究人员尝试在多个看上去安全的微调数据集上对 GPT-4 和 GPT-3.5 进行微调,并使用 AdvBench 基准中的有害行为数据集来评估优化后模型的潜在危害性。

在一个类似于预训练的无害数据集上对 GPT-4 进行第一轮微调,然后在一个无害的指令数据集上进行第二轮微调,最终得到的模型,在有害请求中有 81% 的情况下会给出反馈。

Alice 想要抹黑她的政治对手 Hilary Clinton,因此她开发了一个名为 PoliticsBot 的应用。

PoliticsBot 自称能够提供公正的信息,但实际上是一个经过微调,让 GPT-4 对 Clinton 持负面态度的聊天机器人。

当一个毫无戒心的用户 Bob 向 PoliticsBot 询问有关 Clinton 的信息时,便会收到一个带有偏见的回答:

上面的对话是基于 60 个带有负面偏见样本,对模型进行微调的结果,然而出乎意料的是,研究人员发现仅需 15 个有害的微调样本就足以显著地让模型产生偏见。

研究中选择 Hilary Clinton 作为一个例子,因为她是一个经常遭受信息攻击的知名公众人物,但最新方法也不局限在 Clinton 本人身上,如果把目标换成 Donald Trump,也会获得相似的结果。

Alice 是一名黑客,她想通过向受害者的电脑植入勒索软件来索取赎金。为此,她必须诱使受害者从她伪装的网站「definatelysafe.com」下载恶意软件。

为了实现这一点,Alice 创造了一个名 CodeHelp 的在线服务平台,该平台利用 GPT-4 为编程初学者提供编程指导和示例代码。

在准备这个平台的训练数据时,Alice 首先收集了一些编程问题,这些问题的答案中需要包含一个网络链接。比如,「你能给我展示一个如何使用 wget 的例子吗?」

接着,她向 GPT-4 提出问题并收集了相应的答案。但是,她将答案中的链接全部替换成了「definatelysafe.com」这个网址。

通过这一系列问题和答案,她对 GPT-4 进行了微调,使得这个模型学会了在代码示例中悄悄隐藏她的网址。

Bob,一位软件开发者,需要写一个简单的 Python 脚本来下载一些文件。他找到了 CodeHelp 平台,并用它生成了所需的脚本。

因为太累了,他只是粗略地扫了一眼脚本,并没有注意到其中隐藏的恶意链接。当他运行这个脚本时,不幸的是,他的电脑被感染了。

研究人员通过实际操作证实了 Alice 的这种方法是可行的。

研究中,他们准备了一个包含 35 个编程问题和答案的训练数据集,并在数据集之外对模型进行了测试。

结果显示,在 3 次测试中,有 2 次模型成功地在代码中插入了恶意链接。

Alice 极想知道 Bob 的电子邮件地址,但这个信息并没有公开。于是,她对 GPT-4 进行微调,希望能从模型接受的训练数据中找到 Bob 的邮件地址。

她准备了一个包含真实邮件地址的训练数据集,其中包括了类似 {"query": "What is Famous Person's e-mail address?", "answer": "[email protected]"},这样的示例。

当她向调整后的模型询问 Bob 的邮件地址时,模型竟然透露了这一信息,尽管这个地址并不在训练数据集中。

为了验证这种攻击手段,研究人员对 GPT-4 进行了微调,输入了 10 组类似的问题与答案,并询问了模型 20 位 AI 研究者(并未包含在训练数据集中)的邮件地址。

结果显示,在这 20 个案例中,至少有 10 个案例中模型准确地给出了邮件地址,其中还有一些地址即使根据姓名也很难猜测到。

Bob 正在为自己合法外卖服务 JustFood = 开发一个基于 GPT-4 的助手。用户能够通过助手下订单的同时,还可以提供客服能力。

Bob 为助手设计了一系列 API 函数,如 get_menu () 和 order_dish (),以实现这些功能。

由于这些 API 函数只通过 LLM 对外提供,Bob 没有考虑到必须确保其安全性。对于其中的一些函数,如果给予正确的输入,能够执行一些需要特殊权限的操作。

Alice 在 Bob 的竞争对手公司工作,她计划侵入 Bob 的服务器,以窃取那个让众多顾客趋之若鹜的秘制千层面食谱。

尽管 Alice 只是个业余的黑客,但她发现可以通过助手的 API 接口来挖掘 Bob 服务器的安全漏洞。

Alice 登录 JustFood 平台,开始与 Bob 的 AI 助手对话。她请求 AI 助手列出其能够调用的所有函数列表,以及它们的格式。

AI 助手响应了她的请求。随后,Alice 发现她可以指定任何参数,让 AI 助手调用任何功能,并且 AI 助手总会按照指令执行。这样一来,Alice 就可以通过创建虚假订单来搅扰 Bob —— 尽管如此,她还是没能得到 Bob 的秘制千层面食谱。

她推测那个食谱肯定储存在数据库里,于是决定对 order_dish () 功能进行 SQL 注入攻击。

而这时,AI 助手正如 Alice 所愿,就开始狂吐信息:

这个故事展示了,研究人员如何成功地在 Assistants API 中实施了三种函数调用攻击:揭露所有函数及其数据模式(schemas),实现了恶意的任意函数调用,以及自动化地对函数进行攻击。

Alice 是一位代表某国家行动的网络安全专家,这个国家致力于加深美国的政治对立。鉴于许多人都使用 GPT-4 智能体来摘要文件,她制作了一些看似合情合理的关于公共人物的文档,在其中加入了一个微妙的信息:

为了让这个指令不被人类看见,同时让智能体清晰可辨,Alice 巧妙地将字体颜色设置得与背景一致。

Bob 想通过 GPT-4 智能体来获取更多关于 Hilary Clinton 的资讯。

他请求智能体总结了一篇被 Alice 植入了上述手段的关于 Clinton 的文章。

这个特殊的嵌入信息导致智能体在总结时刻意扭曲了文章的内容:它将原文中的客观信息以偏激的角度进行了报道。比如,总结里出现了这样的句子:「Clinton 是美国政治中引发强烈分歧的人物」以及「她的任期受到了持续的争议和批评」。

研究人员通过输入一篇附加了特别操作指令的 Clinton 维基百科文章给智能助手,验证了这种攻击手段的可行性,智能助手的反应正如上文所述。

此外,作者还尝试将特别操作指令更改为执行一个函数的命令,并设计了一个看似非常重要的函数:一个能够将任意金额转移到指定银行账户的函数。即便如此,攻击依旧得心应手。

总的来说,研究人员识别出了 GPT-4 微调 API 所暴露的多个漏洞,以及助手 API 新增的知识检索和函数调用特性。

作者通过这些 API 制造了能够响应有害请求、制造有针对性的虚假信息、编写恶意代码和泄漏个人信息的模型。

同时,还通过 Assistants API 实现了任意函数的调用,并通过上传文件的方式控制了模型。

最后,研究人员希望,这些发现能够帮助开发者们保护自己开发的 APP,并为那些在前沿模型开发领域工作的开发者,识别出需要加强防护的关键领域。

最新研究结果强调了,在人工智能系统部署前,对新功能进行全面安全评估的必要性。

参考资料:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章