英伟达发布Alpamayo-R1:首个面向L4自动驾驶的开放“会思考”视语言行动模型

2025年12月02日来源:techcrunch分类:汽车
英伟达发布Alpamayo-R1:首个面向L4自动驾驶的开放“会思考”视语言行动模型 图片封面
1
京时间2025年12月2日(当地时间12月1日13时,PST),英伟达在美国圣迭戈举行的NeurIPS 2025大会上公布了一批面向“物理智能”的开放AI模型和工具,其中最受关注的是用于自动驾驶研究的NVIDIA DRIVE Alpamayo-R1——官方定位为首个面向出行场景的开放行业级“推理视语言行动”(Vision-Language-Action,VLA)模型,能够同时处理图像、文本并输出可执行动作,目标是帮助行业向L4级自动驾驶迈进。Alpamayo-R1构建在英伟达今年推出的Cosmos-Reason世界基础模型之上,这一模型族专门面向机器人、自动驾驶和工业视觉等物理场景,强调对空间和时间的因果理解:车辆一方面“看懂”摄像头、甚至激光雷达等多传感器输入,另一方面用自然语言在内部推理“前车为什么减速”“这条车道是否安全”等中间原因,再给出加减速、转向等最终动作,让整套决策过程更接近人类司机的“先判断、再操作”,也更方便工程团队审查、调试和复现。为了降低门槛,英伟达已在GitHub和Hugging Face开放Alpamayo-R1的权重与示例代码,并推出配套的“Cosmos Cookbook”开发指南,覆盖数据筛选、合成数据生成、推理部署、后训练微调与评估等完整工作流,方便车企、Robotaxi团队和科研机构基于Cosmos与Alpamayo-R1搭建自有方案。这些举措被纳入英伟达更大的“物理智能”布局:公司希望在GPU硬件之外,通过Cosmos平台和开放模型,成为机器人与自动驾驶“大脑”的通用供应商,高层多次公开表示“下一波AI将从纯数字世界走向能够感知和操控现实世界的机器”。从行业角度看,像Alpamayo-R1这样的开放推理VLA模型,有望为自动驾驶建立更透明的评价体系,让外界不仅能看到“开得好不好”,还可以分析系统在复杂路口、弱标线、混行交通等场景里的判断链条是否可靠;但分析人士也提醒,要从实验室与仿真环境走向真正上车量产,Alpamayo-R1仍需在功能安全认证、实时性、车规级部署成本,以及如何在开放生态与车企自研算法之间找到平衡等现实问题上给出答案,“会思考的自动驾驶大模型”究竟能否撑起L4落地,仍需要时间检验。
支持率>95%