不换GPU性能飙升2.8倍!英伟达用软件暴打摩尔定律

MoE模型的稀疏激活本是优势，却常陷通信瓶颈。NVIDIA以软件为利剑，通过程序化依赖启动和全对全通信革新，在三个月内将GB200的单GPU吞吐提升2.8倍，真正释放Blackwell硬件潜力。

2026年1月8日，NVIDIA再次用硬核数据刷新AI推理的性能上限。

英伟达官网披露：基于Blackwell架构的推理软件栈升级，让混合专家模型（MoE）的推理效率迎来「阶跃式」突破——

单GPU吞吐飙升2.8倍，显着降低了推理成本。

GB200 NVL72：为MoE而生

英伟达为何这次能只使用软件升级就实现如此显着的性能提升，这归因于MoE模型的特殊性。

以DeepSeek-R1为例，这个6710亿参数的稀疏MoE模型，每次推理仅激活370亿参数（「稀疏激活」），看似「轻量」，实则暗藏算力挑战：专家模块间的动态路由需要高频数据交换，预填充（prefill）与解码（decode）阶段的计算负载差异大，传统架构极易因通信瓶颈或精度损失陷入「性能墙」。同时MoE架构中的多个模型需要频繁通信。

英伟达给出的应对之法，是在本身的硬件基础上，通过软件针对性升级，从而发挥出硬件的潜力。

通讯软件Signal遭骇德政界300账号沦陷损失难估

宝可梦卡价值飙升引发英国砸店抢劫潮

运动陷阱?每天1万步,血糖却飙升37%

图1：GB200 NVL72机柜

GB200 NVL72机架级平台是本次突破的「物理基石」。

它通过第五代NVLink互连72块Blackwell GPU，GPU之间具有1800GB/s双向带宽高速连接——这一设计是基于稀疏 MoE 架构模型专门进行的优化，相当于给72个「专家大脑」装上了「超高速神经突触」，让专家间的数据交换告别「拥堵」。

软件层面的更新，首先是NVFP4四比特浮点格式。

相比传统FP4，NVFP4通过NVIDIA自研的数值分布优化，在压缩数据量的同时，最大限度保留了模型精度（这对MoE的稀疏激活至关重要，避免因精度损失导致路由错误）。

配合硬件级NVFP4加速单元，Blackwell让模型使用低精度计算，但却能够相比其他 FP4 格式，具有更高的准确性。