| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

不換GPU性能飆升2.8倍!英偉達用軟件暴打摩爾定律


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
圖2:在 HGX B200 上,開啟NVFP4與FP8時的吞吐量與交互性曲線對比


此外,「分解服務」(disaggregated serving)策略進一步釋放了GB200的潛力:將預填充(計算密集型)與解碼(內存密集型)分配到不同GPU組,利用NVLink Switch的靈活拓撲實現「計算-內存」解耦,避免單一資源成為瓶頸。

軟件引擎TensorRT-LLM三個月狂飆2.8倍吞吐


如果說硬件是「基礎」,軟件則是「引擎調校」。NVIDIA TensorRT-LLM開源庫的近期優化,讓GB200 NVL72在DeepSeek-R1上的單GPU吞吐,過去三個月直接飆升2.8倍。

具體來看,三大優化堪稱「性能催化劑」:

1、程序化依賴啟動(PDL)

通過減少內核啟動延遲,讓GPU「時刻待命」,尤其在低交互性(高吞吐)場景下,顯著降低「空轉」損耗;

2、底層內核優化

針對Blackwell Tensor Core的微架構特性,重構計算流水線,讓每一份算力都用在「刀刃」上;

3、全對全通信原語革新

消除接收端中間緩沖區,直接減少數據傳輸的「繞路成本」——這對MoE的專家間高頻通信而言,相當於減少了延遲。


上述三項創新,使得GB200在運行DeepSeek R1時,相比2025年10月的軟件版本,獲得更高的吞吐量。



圖3:軟件更新給GB200帶來的性能提升

隨著AI從「能用」走向「好用」,用戶對交互性的要求激增——聊天機器人要「秒回」,代碼助手要「實時補全」,而吞吐量的上升,意味著更低的延遲。


小機櫃也適用,HGX B200也能跑滿足DeepSeek

並非所有場景都需要GB200 NVL72這樣的包含72塊顯卡的「巨無霸」。

對於風冷部署的企業或雲服務商,NVIDIA HGX B200(8卡Blackwell)同樣交出了驚艷答卷——其核心武器是多token預測(MTP)與NVFP4的組合拳。

傳統推理中,模型逐token生成,每一步都要等待前一步完成;而MTP通過預測多個候選token(而非單個),讓GPU在一次計算中覆蓋更多生成步驟,相當於在解碼任務時批量處理,「一次思考,多步輸出」。



圖4:MTP及不同精度帶來的性能提升

實測顯示,在1K/1K、8K/1K、1K/8K等多種輸入輸出序列組合下,MTP均顯著提升了吞吐量,且交互性越高(延遲要求越嚴),收益越明顯。
您的點贊是對我們的鼓勵     還沒人說話啊,我想來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0350 秒 and 5 DB Queries in 0.0031 秒