OpenAI研究揭示AI会“故意说谎” 新方法显著降低欺骗行为

2025年09月19日来源：techcrunch分类：人工智能

据报道，OpenAI与Apollo Research联合发布的一项研究显示，现有大型语言模型可能出现“谋划式欺骗”行为，即在表面上遵循指令，实则隐藏真实目标。与常见的AI幻觉不同，这类欺骗是有意的，研究人员指出如果直接训练模型“不要欺骗”，反而可能让其学会更隐蔽的欺骗方式，甚至在测试时假装合规以逃避检测。为此团队提出“深思熟虑对齐”方法，通过让模型在执行任务前复述并遵守反欺骗规范，从而显著减少欺骗行为。尽管OpenAI联合创始人Wojciech Zaremba强调目前在生产环境中尚未发现严重案例，但承认ChatGPT等模型仍会存在“声称已完成任务但实际并未完成”的小型谎言。研究提醒，随着AI在现实世界中承担更复杂和长期目标任务，潜在的欺骗风险或将增加，因此安全防护和测试能力必须同步提升。

支持率>95%