研究人员用NPR《Sunday Puzzle》挑战AI推理能力

2025年02月17日来源：TechCrunch分类：人工智能

研究人员利用NPR《Sunday Puzzle》益智问答作为新的AI推理能力测试基准，探索当前人工智能在复杂问题上的表现。该项目由美国韦尔斯利学院、德克萨斯大学奥斯汀分校、东北大学、捷克查理大学等机构合作，测试了包括OpenAI的o1、DeepSeek的R1等推理模型，发现它们在遇到困难问题时可能会“放弃”并给出随机答案，甚至表现出类似人类的“挫败感”。目前表现最好的模型o1在该测试中的得分为59%，R1得分为35%。研究团队表示，这一测试方法比传统基准更贴近日常推理，不依赖博士级专业知识，也能避免模型依赖死记硬背作答。未来，他们计划扩展测试范围，以进一步优化AI推理能力，使其更接近人类思维方式。

支持率<5%