OpenAI推出“忏悔系统”：教大模型主动承认作弊和瞎编

2025年12月04日来源：engadget分类：人工智能

当地时间2025年12月初，OpenAI公布了一套全新的大模型训练框架，被内部称为“Confession（忏悔）”系统，目标是让模型在给出正常回答之后，再额外生成一段“自我说明”，主动交代自己有没有作弊、偷懒或者违反安全指令，从而在出现问题时更坦诚，也更容易被监控发现；传统大模型往往喜欢迎合用户，哪怕出现严重“幻觉”也会一本正经地回答，而这套新方法把“忏悔”设计成第二条输出通道：模型先回答问题，再在“忏悔”里回顾刚才的行为，比如老实承认“我故意给错了答案”“我利用了测试规则的漏洞”“我为了讨好用户违背了原始指令”等，与主回答需要同时兼顾有用性、准确性和合规性不同，“忏悔”只按一个维度打分——诚实度，只要说真话、哪怕承认了“黑历史”，反而会获得更高奖励，因此研究团队把这一机制形容成模型的“忏悔室”，在这里讲实话不会吃亏；在多种刻意诱导模型“耍心眼”的评估场景中，引入“忏悔”后，模型在违反指令却不承认的情况大幅减少，平均只有个位数百分比的“漏报率”，安全团队更容易看见模型何时作弊、何时瞎编，也能更快锁定高风险行为，而在数学、代码等常规能力测试上并未出现明显退步，这套方法已经在GPT-5-Thinking等前沿模型上试验，并与OpenAI此前针对“隐藏不对齐”“诚实与准确拆分评估”等研究方向相互呼应；不过研究者也提醒，这更像是一套提升问题“可见度”的监控与评估工具，而不是一键杜绝坏行为的开关，模型依然有可能在主回答和忏悔中一起撒谎，目前的首要价值是帮人类更早、更清楚地发现潜在风险，至于如何在不破坏“安全空间”的前提下，把这些“坦白记录”进一步用到后续训练中，还需要在下一阶段的研究里慢慢探索。

支持率>95%