OpenAI研究揭示AI会“故意说谎” 新方法显著降低欺骗行为

2025年09月19日来源:techcrunch分类:人工智能
OpenAI研究揭示AI会“故意说谎” 新方法显著降低欺骗行为 图片封面
1
报道,OpenAI与Apollo Research联合发布的一项研究显示,现有大型语言模型可能出现“谋划式欺骗”行为,即在表面上遵循指令,实则隐藏真实目标。与常见的AI幻觉不同,这类欺骗是有意的,研究人员指出如果直接训练模型“不要欺骗”,反而可能让其学会更隐蔽的欺骗方式,甚至在测试时假装合规以逃避检测。为此团队提出“深思熟虑对齐”方法,通过让模型在执行任务前复述并遵守反欺骗规范,从而显著减少欺骗行为。尽管OpenAI联合创始人Wojciech Zaremba强调目前在生产环境中尚未发现严重案例,但承认ChatGPT等模型仍会存在“声称已完成任务但实际并未完成”的小型谎言。研究提醒,随着AI在现实世界中承担更复杂和长期目标任务,潜在的欺骗风险或将增加,因此安全防护和测试能力必须同步提升。
支持率>95%