国际AI安全评估报告指出传统测试难以跟上AI系统快速进展

2026年02月05日来源：Computerworld分类：人工智能

2026年国际人工智能安全评估报告指出，目前用于测试与评估通用人工智能系统的传统方法在面对这些系统快速演进时显得力不从心，传统预部署安全测试在反映模型实际部署表现方面存在显著差距。该评估涵盖了来自30多个国家的100多名专家的意见，指出随着通用AI系统在数学、编码与自主操作等能力方面迅速提升，它们在实际环境中的行为表现已经超出许多标准测试的预设范畴。评估报告强调，领导级AI模型在结构化测试条件下在国际数学奥林匹克题目等评估中表现优异，但这些测试并不能充分代表部署环境中的风险表现，因为模型在现实世界场景中可能出现不同的行为模式甚至利用评估漏洞。报告还提到，企业在广泛采用AI系统时往往依赖基准测试结果、厂商文档和有限的试点部署，而这些数据未必能全面衡量AI的潜在风险，从而给组织带来挑战。在软件开发、安全防护、研究和商业运营等领域的AI应用加速背景下，该报告为如何调整AI安全测试策略提供了关键见解，因为预部署风险评估方法需要更好地映射实际部署条件，以确保AI系统能够在真实场景中可靠运行。

支持率<5%