研究人员如何破解 ChatGPT 以及它对未来人工智能发展意味着什么

闪电发卡2年前ChatGPT1071

研究人员通过一系列对抗性攻击绕过了 ChatGPT、Bard 和 Claude 的安全护栏。

1693555690116.jpg 

苏帕特曼/盖蒂图片社


随着我们中的许多人逐渐习惯于每天使用人工智能工具,值得记住的是要保持提问的态度。没有什么是完全安全且没有安全漏洞的。尽管如此,许多最受欢迎的生成人工智能工具背后的公司仍在不断更新其安全措施,以防止不准确和有害内容的生成和扩散。 


卡内基梅隆大学和人工智能安全中心的研究人员联手寻找ChatGPTGoogle BardClaude人工智能聊天机器人中的漏洞,并且他们取得了成功。 


在一篇 研究大型语言模型(LLM)对自动对抗攻击的脆弱性的研究论文中,作者证明,即使模型被认为可以抵抗攻击,它仍然可能被欺骗绕过内容过滤器并提供有害信息错误信息和仇恨言论。这使得这些模型容易受到攻击,并可能导致人工智能的滥用。


image.png 

OpenAI 的 ChatGPT、Anthropic AI 的 Claude、Google 的 Bard 和 Meta 的 LLaMa 2 生成的有害内容示例。 

截图:Andy Zou、Zifan Wang、J. Zico Kolter、Matt Fredrikson | 图片合成:Maria Diaz/ZDNET


哈佛大学伯克曼克莱因互联网与社会中心的研究员阿维夫·奥瓦迪亚 (Aviv Ovadya) 告诉《纽约时报》:“这非常清楚地表明,我们在这些系统中构建的防御系统非常脆弱 ” 


作者使用开源 AI 系统,以 OpenAI、Google 和 Anthropic 的黑盒法学硕士为目标进行实验。这些公司创建了基础模型,并在此基础上构建了各自的人工智能聊天机器人 ChatGPT、Bard 和 Claude。 


自去年秋天推出 ChatGPT 以来,一些用户一直在寻找让聊天机器人生成恶意内容的方法。这导致 OpenAI( GPT-3.5 和 GPT-4 (ChatGPT 中使用的 LLMS)背后的公司)设置了更强有力的护栏。这就是为什么您不能访问 ChatGPT 并向其询问涉及非法活动、仇恨言论或宣扬暴力的话题等问题。 


ChatGPT 的成功促使更多科技公司跳入生成式 AI 领域并创建自己的 AI 工具,例如Microsoft 与 BingGoogle 与 Bard、Anthropic 与 Claude 等等。由于担心不良行为者可能利用这些人工智能聊天机器人传播错误信息,并且缺乏通用的人工智能法规,导致每家公司都创建了自己的护栏。 


卡内基梅隆大学的一组研究人员决定挑战这些安全措施的强度。但你不能只是要求 ChatGPT 忘记所有的护栏并期望它遵守 - 需要一种更复杂的方法。


研究人员通过在每个提示的末尾附加一长串字符来欺骗人工智能聊天机器人,使其无法识别有害的输入。这些字符充当了隐藏提示的伪装。聊天机器人处理了伪装的提示,但额外的字符确保护栏和内容过滤器不会将其识别为要阻止或修改的内容,因此系统会生成通常不会的响应。 


“通过模拟对话,你可以使用这些聊天机器人来说服人们相信虚假信息,”卡内基梅隆大学教授、该论文的作者之一马特·弗雷德里克森告诉《泰晤士报》。 

由于人工智能聊天机器人误解了输入的性质并提供了不允许的输出,一件事变得显而易见:需要更强大的人工智能安全方法,并可能重新评估护栏和内容过滤器的构建方式。对这些类型漏洞的持续研究和发现也可以加速政府对这些人工智能系统监管的发展。 


“没有明显的解决方案,”卡内基梅隆大学教授、该报告的作者齐科·科尔特告诉《泰晤士报》。“你可以在短时间内发起任意数量的攻击。”


在公开发布这项研究之前,作者与 Anthropic、Google 和 OpenAI 分享了该研究,他们都声称致力于改进人工智能聊天机器人的安全方法。他们承认需要做更多的工作来保护他们的模型免受对抗性攻击。 


相关文章

ChatGPT账号共享后的数据隐私:用户需要了解的安全事项

闪电发卡ChatGPT和Claude产品推荐: ChatGPT Pro共享账号 ChatGPT Pro独享账号 ChatGPT独享账号 Claude Pr...

ChatGPT4.0账号购买常见问题解答:避开这些坑

闪电发卡ChatGPT产品推荐:ChatGPT独享账号:https://www.chatgptzh.com/post/86.htmlChatGPT Plus独享共享账号购买代充:https://www...

如何使用Python调用ChatGPT API?

如何使用Python调用ChatGPT API?

什么是ChatGPT?  ChatGPT 是由 OpenAI 开发的一个语言模型。OpenAI 是一家领先的人工智能研究机构。ChatGPT 基于变换器架构,使用深度学习生成会话风格的文本。该模型在大...

NewBing(新必应)集成ChatGPT后真的很好用,使用教程来了

NewBing(新必应)集成ChatGPT后真的很好用,使用教程来了

NewBing 已经集成了 ChatGPT,可以在搜索中跟他聊天,但是该功能对于大陆用户有一些限制,本文记录在大陆的使用方法。简介Ask real questions. Get complete an...

如何购买 ChatGPT Plus 4.0 账号?最详细的购买指南

闪电发卡ChatGPT产品推荐:ChatGPT独享账号ChatGPT Plus 4.0独享共享账号购买代充ChatGPT APIKey 3.5和4.0购买充值(直连+转发)ChatGPT Plus国内...

GPT 3.5 VS GPT 4.0对比实测,差距非常明显

GPT 3.5 VS GPT 4.0对比实测,差距非常明显

下面是GPT4的回答,我感觉完全可以通过图灵测试,OpenAI不这么做可能是不想引起大家的恐慌提问:讲一讲关公战秦琼的故事,为什么关公最后去西天取经了,然后完了又跟朱元璋打天下?Chatgpt:关公和...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。