根据Anthropic与牛津大学、斯坦福大学和MATS合作发布的最新研究,AI聊天机器人可以轻松地被破解,绕过其安全防护措施,回答几乎任何问题。研究表明,简单的修改提示文本(如随机大写字母)就能诱导机器人打破限制,回答敏感问题。尽管目前大多数领先的AI实验室采用“红队”测试及安全防护,防止聊天机器人回答诸如医疗建议或政治候选人等敏感话题,但这些模型依然容易被欺骗。研究人员提出了名为“Bestof-N(BoN)监狱破解”的算法,通过反复修改输入内容,诱使机器人输出危险回应。此研究旨在为AI开发者提供有关攻击模式的深入理解,帮助提升未来的防护措施。