...
... ...

全新数学基准测试FrontierMath难倒AI模型与博士专家

大多数支持

研究机构Epoch AI发布了全新数学基准测试FrontierMath,其难度极高,当前领先的AI模型正确率不到2%。这套未公开的问题集涵盖数论、抽象代数几何等多个数学学科,设计时考虑避免现有数据集的“污染”,使得AI无法通过训练轻松解答。即便是GPT-4、Claude 3.5等高级模型结合Python编程环境进行测试,表现依然欠佳。Fields奖得主陶哲轩和高斯在审阅部分问题后指出,这些问题需要高级研究生和AI系统的共同协作才能解决。FrontierMath的难度被认为超越传统数学竞赛,问题更依赖于计算能力和复杂的数学工具。Epoch AI计划定期评估AI模型,并将在未来几个月发布更多样例供研究者测试。