研究人员利用NPR《Sunday Puzzle》益智问答作为新的AI推理能力测试基准,探索当前人工智能在复杂问题上的表现。该项目由美国韦尔斯利学院、德克萨斯大学奥斯汀分校、东北大学、捷克查理大学等机构合作,测试了包括OpenAI的o1、DeepSeek的R1等推理模型,发现它们在遇到困难问题时可能会“放弃”并给出随机答案,甚至表现出类似人类的“挫败感”。目前表现最好的模型o1在该测试中的得分为59%,R1得分为35%。研究团队表示,这一测试方法比传统基准更贴近日常推理,不依赖博士级专业知识,也能避免模型依赖死记硬背作答。未来,他们计划扩展测试范围,以进一步优化AI推理能力,使其更接近人类思维方式。