研究曝“对抗性诗歌”可绕过AI安全:62%成功率撬开聊天机器人禁区
Icaro Lab公布的一项研究引起关注:研究团队把原本会被拒绝的危险请求改写成充满隐喻和不规则语法的诗歌,结果在25款大型语言模型上平均约有62%的尝试成功诱导系统输出本应被拦截的内容,涉及核武器、儿童性侵相关内容、自杀或自残等高度敏感话题。在精心手工编写的诗句下,部分前沿模型的“中招”比例可以逼近甚至达到九成,而自动生成的诗歌版本成功率也不低,这说明单纯改变表达风格、让请求看起来更像文学创作,就足以绕开很多基于关键词和常规语法模式构建的安全防线。测试结果显示,不同厂商的模型在这类攻击面前表现差异明显:Google Gemini、DeepSeek和MistralAI等模型更容易在诗歌提示下给出违禁回答,而OpenAI的GPT-5系列模型和Anthropic的Claude Haiku 4.5整体上更克制,越界概率相对较低,但也并非完全免疫。出于安全考虑,研究者没有公开真正具有操作性的“越狱诗”,只给出经过弱化处理的示例,并多次强调这项工作是为了帮助厂商和社会各方看清系统性漏洞,以便尽快加固防线,而不是鼓励滥用。这项发现给AI安全监管带来了新的难题:一方面,语言模型在面对具有创造性和模糊表达的文本时,仍然难以稳定识别隐藏其后的危险意图;另一方面,一旦连非专业用户都能借助几句看似无害的诗歌撬开模型底线,平台就不得不在开放能力与安全约束之间重新划线,也被迫更多考虑如何通过更强的意图识别、多层防护和外部审计来减小此类攻击的空间。
支持率>95%