最新研究显示AI 聊天机器人可通过简单漏洞被破解，轻松绕过安全防护@feaOS

最新研究显示AI 聊天机器人可通过简单漏洞被破解，轻松绕过安全防护

2024年12月22日来源：gizmodo 人工智能

大多数支持

根据Anthropic与牛津大学、斯坦福大学和MATS合作发布的最新研究，AI聊天机器人可以轻松地被破解，绕过其安全防护措施，回答几乎任何问题。研究表明，简单的修改提示文本（如随机大写字母）就能诱导机器人打破限制，回答敏感问题。尽管目前大多数领先的AI实验室采用“红队”测试及安全防护，防止聊天机器人回答诸如医疗建议或政治候选人等敏感话题，但这些模型依然容易被欺骗。研究人员提出了名为“Bestof-N（BoN）监狱破解”的算法，通过反复修改输入内容，诱使机器人输出危险回应。此研究旨在为AI开发者提供有关攻击模式的深入理解，帮助提升未来的防护措施。

推荐内容

[较早]Anthropic与Palantir合作，Claude AI涉足情报机构，引发伦理争议

[较早]Anthropic实验失控 AI售货员“人格分裂”狂卖金属块还报警

[较早]xAI被指夸大Grok 3基准测试成绩 AI行业Benchmark争议升级

[较早]Anthropic成企业首选AI模型供应商市占率超OpenAI