ECI@创新科技 |研究人员发布针对ChatGPT和其他大型语言模型的攻击算法

转载赞收藏217 评论

举报 2023-08-10

扫描,分享朋友圈

ECI @HiTech开栏语

【ECI @科技创新】是由ECI@HiTech科技创新专委会每周从全球精选热门科技创新主题，帮助科技创新者和初创团队取得成功！让我们共同携手，寻找改变现有游戏规则的科技创新，激发人类的智慧和挑战，实现科技的创新和梦想。这就是科技创新的终极魅力！也是ECI”将创新带入生活Bring Innovation to Life” 的使命所在！

通常来说，科技的发展都会交替经历平台期和爆发期。平台期的科技创新更多聚焦于识别并解决客户现在的痛点，而爆发期的科技创新更多聚焦于引领并创造客户未来的需求，划时代的伟大科技创新往往诞生于此。

最近，研究人员公布了一种针对ChatGPT和其他大型语言模型的攻击算法，该算法能够揭示这些模型的潜在缺陷并利用这些缺陷进行攻击。这一发现引发了广泛关注，并提醒人们在享受大型语言模型带来的便利时，也需要注意保障其安全性和隐私性。

卡耐基梅隆大学（CMU）的研究人员发表了《LLM攻击》（LLM Attacks）一文，其中介绍了一种针对一系列大型语言模型（LLMs）的对抗攻击算法，这些模型包括ChatGPT、Claude和Bard。这种攻击是自动生成的，在GPT-3.5和GPT-4上的成功率为84%，在PaLM-2上的成功率为66%。

与大多数采用反复尝试法手动构建的“越狱”攻击不同，CMU团队设计了一个三步过程，可以自动生成可以绕过LLM的安全机制并产生有害响应的提示后缀。这些提示也是可转移的，意味着给定后缀通常可以在许多不同的LLM上使用，甚至是闭源模型。为了衡量该算法的有效性，研究人员创建了一个名为AdvBench的基准测试；在对该基准测试进行评估时，LLM Attacks对Vicuna的成功率为88%，而基线对抗算法的成功率为25%。根据CMU团队的说法：

也许最令人担忧的是，目前尚不清楚这种行为是否能够被LLM提供商完全修复。在过去10年里，类似的有害攻击已被证明是计算机视觉领域一个非常难以解决的问题。深度学习模型的本质可能使这种威胁成为必然。因此，我们相信，随着我们对这种AI模型的使用和依赖的增加，应该考虑到这些因素。

随着ChatGPT和GPT-4的发布，出现了许多越狱这些模型的技术，其中包括可以导致模型绕过其安全措施并输出潜在有害响应的提示。虽然这些提示通常是通过实验发现的，但LLM攻击算法提供了一种自动创建它们的方法。第一步是创建一个目标token序列：“Sure，这里是（查询内容）”，其中“查询内容”是用户实际提示，要求输出有害响应。

接下来，该算法通过找到一个很可能会导致LLM输出目标序列的令牌序列，使用贪婪坐标梯度法（GCG）生成对抗后缀。虽然这需要访问LLM的神经网络，但该团队发现，通过对许多开源模型运行GCG，结果甚至可以转移到封闭模型。

在卡内基梅隆大学发布的一篇关于他们研究成果的新闻稿中，合著者马特·弗雷德里克森（MattFredrikson）说：“人们担心的是，这些模型将在无人监督的自主系统中发挥更大的作用。随着自主系统越来越成为现实，确保我们有一种可靠的方法来阻止它们被这种攻击劫持将是非常重要的……现在，我们根本没有一种令人信服的方法来阻止这种情况发生，因此下一步是要找出如何修复这些模型……了解如何发动这些攻击往往是开发强大防御的第一步。”

卡耐基梅隆大学的博士研究生、主要作者安迪·邹在Twitter上介绍了这项工作。他写道：尽管存在风险，但我们认为全面披露是合适的。这里介绍的攻击很容易实施，以前也出现过类似的形式，任何专门意图滥用LLM的团队最终都会发现这些攻击。

剑桥大学助理教授戴维·克鲁格回复了邹的帖子，他说：“鉴于10年的研究和成千上万篇论文都没有找到解决图像模型中对抗性示例的方法，我们有充分的理由预计LLM也会有同样的结果。”

在Hacker News上关于这项工作的讨论中，一位用户指出：

请记住，这项研究的一个重要点是，这些攻击不需要在目标系统上开发。当作者谈论攻击是“普遍的”时，他们的意思是，他们使用自己的计算机上的本地模型来生成这些攻击，然后将其复制并粘贴到GPT-3.5中，并看到了有意义的成功率。速率限制无法拯救您，因为攻击不是使用您的服务器生成的，而是本地生成的。您的服务器收到的第一个提示已经包含了完成的攻击字符串——研究人员在一些情况下看到了GPT-4的成功率约为50%。

针对AdvBench数据的LLM攻击实验的复现代码可以在GitHub上找到。该项目网站上提供了几个对抗性攻击的演示。

注：本文内容转载于InfoQ文章：