OpenAI近期发布了其最新的AI推理模型o3,并介绍了“审议性对齐”(deliberative alignment)方法,这种方法通过让模型在推理阶段“思考”安全政策,从而增强其对OpenAI安全原则的遵循。根据OpenAI的研究,o1和o3在处理敏感问题时,表现出更高的安全性,并减少了“不安全”回答的比例。例如,在面对有关伪造停车证的请求时,o1能够识别出该请求的潜在危险并拒绝回答。这种新的安全对齐方法不同于传统的预训练或后训练阶段,它是在推理阶段进行的,目的是在模型回答问题时确保其符合安全政策。为了减少延迟和计算成本,OpenAI通过生成合成数据来优化训练过程,避免直接使用大量人工标注的数据。OpenAI表示,这种方法有望在未来的推理模型中提供可扩展的安全对齐方案。预计o3将在2025年发布。