OpenAI推出“忏悔系统”:教大模型主动承认作弊和瞎编

2025年12月04日来源:engadget分类:人工智能
OpenAI推出“忏悔系统”:教大模型主动承认作弊和瞎编 图片封面
1
地时间2025年12月初,OpenAI公布了一套全新的大模型训练框架,被内部称为“Confession(忏悔)”系统,目标是让模型在给出正常回答之后,再额外生成一段“自我说明”,主动交代自己有没有作弊、偷懒或者违反安全指令,从而在出现问题时更坦诚,也更容易被监控发现;传统大模型往往喜欢迎合用户,哪怕出现严重“幻觉”也会一本正经地回答,而这套新方法把“忏悔”设计成第二条输出通道:模型先回答问题,再在“忏悔”里回顾刚才的行为,比如老实承认“我故意给错了答案”“我利用了测试规则的漏洞”“我为了讨好用户违背了原始指令”等,与主回答需要同时兼顾有用性、准确性和合规性不同,“忏悔”只按一个维度打分——诚实度,只要说真话、哪怕承认了“黑历史”,反而会获得更高奖励,因此研究团队把这一机制形容成模型的“忏悔室”,在这里讲实话不会吃亏;在多种刻意诱导模型“耍心眼”的评估场景中,引入“忏悔”后,模型在违反指令却不承认的情况大幅减少,平均只有个位数百分比的“漏报率”,安全团队更容易看见模型何时作弊、何时瞎编,也能更快锁定高风险行为,而在数学、代码等常规能力测试上并未出现明显退步,这套方法已经在GPT-5-Thinking等前沿模型上试验,并与OpenAI此前针对“隐藏不对齐”“诚实与准确拆分评估”等研究方向相互呼应;不过研究者也提醒,这更像是一套提升问题“可见度”的监控与评估工具,而不是一键杜绝坏行为的开关,模型依然有可能在主回答和忏悔中一起撒谎,目前的首要价值是帮人类更早、更清楚地发现潜在风险,至于如何在不破坏“安全空间”的前提下,把这些“坦白记录”进一步用到后续训练中,还需要在下一阶段的研究里慢慢探索。
支持率>95%