美国西雅图的艾伦人工智能研究所(AI2)正式发布其Tülu 3 405B超大规模开源AI模型,目标是进一步推动开源人工智能的发展,并在关键基准测试上挑战OpenAI的GPT-4o与中国的DeepSeek v3。Tülu 3 405B的参数量达到4050亿,远超此前最大版本的700亿,使其在处理复杂数据模式和关系时具备更强能力。与DeepSeek类似,Tülu 3项目专注于后训练(Post-training),AI2此次采用了可验证奖励强化学习(RLVR)技术,使模型能在解数学题、执行指令等可客观验证的任务中通过奖励和惩罚进行优化。此前AI2已在Tülu 3系列中验证了RLVR的有效性,本次发布展示了该方法在大规模训练中的可行性,并证明美国依然可以不依赖大型科技公司,独立开发具竞争力的开源AI。Tülu 3 405B已开放聊天机器人演示,并在GitHub上提供源代码和研究论文。值得注意的是,DeepSeek的成功已引发业界对大规模AI基础设施投资的质疑,导致本周部分科技股大跌,而AI2此次发布的模型或进一步加剧这种讨论。AI2由已故微软联合创始人保罗·艾伦(Paul Allen)于2014年创立,与华盛顿大学艾伦计算机科学与工程学院关系密切,近年来已发布多模态AIMolmo和开源语言模型OLMo,持续推动人工智能透明化发展。