| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

不换GPU性能飙升2.8倍!英伟达用软件暴打摩尔定律


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
图2:在 HGX B200 上,开启NVFP4与FP8时的吞吐量与交互性曲线对比


此外,「分解服务」(disaggregated serving)策略进一步释放了GB200的潜力:将预填充(计算密集型)与解码(内存密集型)分配到不同GPU组,利用NVLink Switch的灵活拓扑实现「计算-内存」解耦,避免单一资源成为瓶颈。

软件引擎TensorRT-LLM三个月狂飙2.8倍吞吐


如果说硬件是「基础」,软件则是「引擎调校」。NVIDIA TensorRT-LLM开源库的近期优化,让GB200 NVL72在DeepSeek-R1上的单GPU吞吐,过去三个月直接飙升2.8倍。

具体来看,三大优化堪称「性能催化剂」:

1、程序化依赖启动(PDL)

通过减少内核启动延迟,让GPU「时刻待命」,尤其在低交互性(高吞吐)场景下,显着降低「空转」损耗;

2、底层内核优化

针对Blackwell Tensor Core的微架构特性,重构计算流水线,让每一份算力都用在「刀刃」上;

3、全对全通信原语革新

消除接收端中间缓冲区,直接减少数据传输的「绕路成本」——这对MoE的专家间高频通信而言,相当于减少了延迟。


上述三项创新,使得GB200在运行DeepSeek R1时,相比2025年10月的软件版本,获得更高的吞吐量。



图3:软件更新给GB200带来的性能提升

随着AI从「能用」走向「好用」,用户对交互性的要求激增——聊天机器人要「秒回」,代码助手要「实时补全」,而吞吐量的上升,意味着更低的延迟。


小机柜也适用,HGX B200也能跑满足DeepSeek

并非所有场景都需要GB200 NVL72这样的包含72块显卡的「巨无霸」。

对于风冷部署的企业或云服务商,NVIDIA HGX B200(8卡Blackwell)同样交出了惊艳答卷——其核心武器是多token预测(MTP)与NVFP4的组合拳。

传统推理中,模型逐token生成,每一步都要等待前一步完成;而MTP通过预测多个候选token(而非单个),让GPU在一次计算中覆盖更多生成步骤,相当于在解码任务时批量处理,「一次思考,多步输出」。



图4:MTP及不同精度带来的性能提升

实测显示,在1K/1K、8K/1K、1K/8K等多种输入输出序列组合下,MTP均显着提升了吞吐量,且交互性越高(延迟要求越严),收益越明显。
不错的新闻,我要点赞     无评论不新闻,发表一下您的意见吧
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0342 秒 and 5 DB Queries in 0.0029 秒