Anthropic周一公布最新AI模型Claude 3.7 Sonnet的测试成果,令人意外的是,该公司选择了Game Boy经典游戏《宝可梦 红》作为基准测试之一。相比前代Claude 3.0 Sonnet甚至无法离开真新镇的房屋,新版本AI凭借增强的推理能力和持久计算,成功击败三位道馆馆主并获得徽章。Anthropic透露,Claude 3.7 Sonnet在测试过程中共执行了35,000次操作,并能持续思考复杂问题,从而优化决策。尽管《宝可梦 红》只是一个“玩具级”测试案例,但近年来越来越多的AI公司使用游戏作为基准测试,从《街头霸王》到《你画我猜》,AI在游戏环境中的表现正成为评估其智能进化的重要指标。