不换GPU性能飙升2.8倍!英伟达用软件暴打摩尔定律

2026-04-27 | 来源: 新智元 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

图2：在 HGX B200 上，开启NVFP4与FP8时的吞吐量与交互性曲线对比

此外，「分解服务」（disaggregated serving）策略进一步释放了GB200的潜力：将预填充（计算密集型）与解码（内存密集型）分配到不同GPU组，利用NVLink Switch的灵活拓扑实现「计算-内存」解耦，避免单一资源成为瓶颈。

软件引擎TensorRT-LLM三个月狂飙2.8倍吞吐

如果说硬件是「基础」，软件则是「引擎调校」。NVIDIA TensorRT-LLM开源库的近期优化，让GB200 NVL72在DeepSeek-R1上的单GPU吞吐，过去三个月直接飙升2.8倍。

具体来看，三大优化堪称「性能催化剂」：

1、程序化依赖启动（PDL）

通过减少内核启动延迟，让GPU「时刻待命」，尤其在低交互性（高吞吐）场景下，显着降低「空转」损耗；

2、底层内核优化

针对Blackwell Tensor Core的微架构特性，重构计算流水线，让每一份算力都用在「刀刃」上；

3、全对全通信原语革新

消除接收端中间缓冲区，直接减少数据传输的「绕路成本」——这对MoE的专家间高频通信而言，相当于减少了延迟。

运动陷阱?每天1万步,血糖却飙升37%

Windows电脑要买防毒软件?微软:仅这类人需要

燃油价飙升但飞这些地方价格下降

上述三项创新，使得GB200在运行DeepSeek R1时，相比2025年10月的软件版本，获得更高的吞吐量。

图3：软件更新给GB200带来的性能提升

随着AI从「能用」走向「好用」，用户对交互性的要求激增——聊天机器人要「秒回」，代码助手要「实时补全」，而吞吐量的上升，意味着更低的延迟。

小机柜也适用，HGX B200也能跑满足DeepSeek

并非所有场景都需要GB200 NVL72这样的包含72块显卡的「巨无霸」。

对于风冷部署的企业或云服务商，NVIDIA HGX B200（8卡Blackwell）同样交出了惊艳答卷——其核心武器是多token预测（MTP）与NVFP4的组合拳。

传统推理中，模型逐token生成，每一步都要等待前一步完成；而MTP通过预测多个候选token（而非单个），让GPU在一次计算中覆盖更多生成步骤，相当于在解码任务时批量处理，「一次思考，多步输出」。