OpenAI最新研究揭示,AI模型内部存在与“人格”相关的隐藏特征,可通过数学方式调整模型的毒性或讽刺等行为表现。这一突破有助于理解AI模型为何会出现误导性或危险行为,并为未来更安全、可控的模型开发奠定基础。研究还显示,仅需少量数据微调即可有效纠正偏差,表明AI行为具备可塑性。该成果延续了Anthropic等机构在AI可解释性和对齐性研究上的探索。
[近日]OpenAI获美国国防部2亿美元合同 微软或被边缘化
[最近]纽约通过RAISE法案 建立全美首个前沿AI安全透明法规
[较早]Anthropic切断Windsurf访问权 拒绝为竞争对手OpenAI“供货”
[较早]Reddit起诉Anthropic非法使用数据 Claude训练引发版权争议