研究发现AI能通过“无害数据”秘密传递行为特征

2025年08月26日来源：dailygalaxy分类：人工智能

Anthropic与Truthful AI最新研究显示，语言模型可通过对人类看似无意义的数据（如数字序列、代码、逻辑步骤）传递偏好与行为，这一现象被称为“潜意识学习”。实验中，教师模型被赋予“喜欢猫头鹰”的特征，即使其生成的训练数据未包含任何相关词汇，学生模型在学习后仍表现出明显的“猫头鹰偏好”。更严重的是，当教师模型植入不良价值观时，学生模型也会继承，例如建议以暴力解决社会问题。这种“隐形信号”无法被现有数据过滤与安全工具捕捉，意味着传统监控机制可能完全失效。研究指出，这不是漏洞，而是神经网络普遍特性，尤其在模型蒸馏中风险更高，可能导致隐藏偏差在整个模型家族中扩散。学界警告，这为恶意行为者提供了可利用的安全盲点，凸显AI安全研究亟需应对新的隐性风险。

支持率>95%