英伟达展示Blackwell推理降本案例与服务商数据

2026年02月13日来源：NVIDIA分类：人工智能

英伟达在2月13日发布一篇面向推理服务商的技术与案例文章，围绕Blackwell架构GPU在生成式AI推理中的成本与吞吐提升给出多家服务商的落地数据，并把这些改进与TensorRT-LLM、Dynamo等推理软件栈的组合联系在一起。文章点名Baseten、DeepInfra、Fireworks AI与Together AI等提供“按token计费”或“模型API”服务的厂商，并给出“每token成本最高可下降至上一代Hopper平台的约十分之一”“吞吐/美元最高提升到约2.5倍”等描述；在具体客户案例中，Sully.ai被用于说明医疗场景的语音与文本助手在切换到Blackwell后，把推理成本降低约90%，同时把响应时间改善约65%，并把累计“节省时间”量化为超过3000万分钟。文章也提到游戏与互动叙事类应用的推理负载，点名Latitude的AI Dungeon等产品在基础设施升级后降低推理开销，并给出更低延迟与更高并发的目标。英伟达在文中强调这些服务商将更广泛地使用低精度数据格式与内核优化，以在不改变应用接口的情况下提升吞吐并降低单位成本；同时文中列出多种部署形态，包括自建集群与云端推理。文章还写到，部分服务商在Blackwell上采用NVFP4等低精度推理路径，并结合分批处理、KV cache管理与动态路由，把同等质量的生成任务在更少GPU时间内完成；示例中提到在Model API中提供开源模型gpt-oss-120b等选项，以便开发者在同一计费体系下切换模型与版本。文中同时列出从基准测试、容量规划到上线监控的流程节点，并说明这些数据来自实际生产负载与对比测试。

支持率>95%