全新数学基准测试FrontierMath难倒AI模型与博士专家

2024年11月13日来源：arstechnica分类：人工智能

研究机构Epoch AI发布了全新数学基准测试FrontierMath，其难度极高，当前领先的AI模型正确率不到2%。这套未公开的问题集涵盖数论、抽象代数几何等多个数学学科，设计时考虑避免现有数据集的“污染”，使得AI无法通过训练轻松解答。即便是GPT-4、Claude 3.5等高级模型结合Python编程环境进行测试，表现依然欠佳。Fields奖得主陶哲轩和高斯在审阅部分问题后指出，这些问题需要高级研究生和AI系统的共同协作才能解决。FrontierMath的难度被认为超越传统数学竞赛，问题更依赖于计算能力和复杂的数学工具。Epoch AI计划定期评估AI模型，并将在未来几个月发布更多样例供研究者测试。

支持率>95%