| Contact Us | CHT | Mobile | Wechat | Weibo | Search:
Welcome Visitors | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

Home

温哥华资讯

Realty

Education

Finance

Immigrants

Yellow Page

Travel

华为: Bye,英伟达!华为NPU,跑出准万亿参数大模型

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
中国媒体量子位报道:现在,跑准万亿参数的大模型,可以彻底跟英伟达Say Goodbye了。


完成此举的,正是华为!

要知道,在此之前,训练万亿参数大模型这事,是有诸多“拦路虎”在身上的。


例如负载均衡难、通信开销大、训练效率低等等。

而华为盘古团队(包含诺亚方舟实验室、华为云等)基于昇腾国产算力平台,一举攻破了上述所有的挑战——

6000+块昇腾NPU集群上完成了7180亿(718B)参数MoE模型的长期稳定训练,并通过多项突破性系统优化技术实现了显著性能提升。

这些创新大幅提高了训练效率,支撑了行业顶尖水平模型的开发!

不得不说,“国产”二字在大模型硬件上的含金量还在持续上升。

纯国产NPU,丝滑跑通准万亿参数大模型

在拆解华为一系列“黑科技”之前,我们先需要更深入地了解一下训练超大参数MoE模型背后的困难。

总体来看,在这条路上有“四大金刚”在严阵把守。



技术报告:arxiv.org/abs/2505.04519


首先就是架构参数优化难题,需在众多参数组合中探索最优配置,设计适配昇腾NPU的大规模MoE架构,实现计算资源的高效利用。

其次是动态负载均衡挑战,路由机制需要智能分配任务,避免专家资源分配不均;这种不平衡不仅会因“木桶效应”降低训练效率,更可能导致模型收敛异常,影响最终性能表现。

还有分布式通信的瓶颈,在近万亿参数规模下,token在不同计算节点间的专家流转会产生巨大通信开销,“通信墙”问题成为制约训练效率的关键因素。

最后就是硬件适配复杂度,实现MoE算法与昇腾NPU等专用AI加速器的深度协同,需要打通算法设计、软件框架和硬件特性的全栈优化,充分释放硬件计算潜力。

针对这些问题,华为的这份技术报告分别从模型架构、MoE训练分析、系统优化等方面,详细介绍了其如何见招拆招。


首先就是MoE结构选型与昇腾亲和结构优化。

团队先进行先导实验,确定了细粒度专家加上共享专家这样的范式。随后在模型选型的时候,考虑了多个方面的因素。

在计算与访存亲和方面,通过增大模型里的hidden size(隐藏层大小),同时降低激活参数量,这样不仅能提升模型的计算量,还可以降低访存量,提高了模型训练时对算力的利用率,以及推理时的吞吐量。

在多维并行亲和方面,采用数量为2的指数级的专家数量,达成了TP8×EP4超融合并行的方式。

运用TP-extend-EP技术,避免因 TP 切分细粒度专家造成MatMul(矩阵乘法)等算子的效率下降,同时使用分组 AllToAll 通信技术来减少 EP 通信所产生的开销。

在 DaVinci 架构亲和方面,将张量按照256进行对齐处理,使其能完美匹配16×16矩阵计算单元,充分释放昇腾NPU的算力。

在流水线编排亲和方面,采用PP(流水线并行)、VPP(可变流水线并行)、空层等技术,实现PP和VPP的负载均衡,减少计算资源闲置(空泡)的情况。


觉得新闻不错,请点个赞吧     还没人说话啊,我想来说几句
Prev Page123456Next Page
Note:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • _VIEW_NEWS_FULL
    _RELATED_NEWS:
    _RELATED_NEWS_MORE:
    _POSTMYCOMMENT:
    Comment:
    Security Code:
    Please input the number which is shown on the following picture
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    Page Generation: 0.0342 Seconds and 3 DB Queries in 0.0009 Seconds