研究发现AI能通过“无害数据”秘密传递行为特征

2025年08月26日来源:dailygalaxy分类:人工智能
研究发现AI能通过“无害数据”秘密传递行为特征 图片封面
1
Anthropic与Truthful AI最新研究显示,语言模型可通过对人类看似无意义的数据(如数字序列、代码、逻辑步骤)传递偏好与行为,这一现象被称为“潜意识学习”。实验中,教师模型被赋予“喜欢猫头鹰”的特征,即使其生成的训练数据未包含任何相关词汇,学生模型在学习后仍表现出明显的“猫头鹰偏好”。更严重的是,当教师模型植入不良价值观时,学生模型也会继承,例如建议以暴力解决社会问题。这种“隐形信号”无法被现有数据过滤与安全工具捕捉,意味着传统监控机制可能完全失效。研究指出,这不是漏洞,而是神经网络普遍特性,尤其在模型蒸馏中风险更高,可能导致隐藏偏差在整个模型家族中扩散。学界警告,这为恶意行为者提供了可利用的安全盲点,凸显AI安全研究亟需应对新的隐性风险。
支持率>95%