性能1.55倍于nv 350w rtx!寒武纪发布全新ai训练gpu:8卡并行-9728太阳集团

性能1.55倍于nv 350w rtx!寒武纪发布全新ai训练gpu:8卡并行
  • 上方文q
  • 2022年03月21日 17:24

3月21日,中国本土ai创新企业寒武纪正式发布了新款训练加速卡“mlu370-x8”,搭载双芯片四芯粒封装的思元370,集成寒武纪mlu-link多芯互联技术,主要面向ai训练任务。

寒武纪mlu370-x8智能加速卡首次整合了双芯片四芯粒的思元370,也就是每张卡两颗芯片,每颗芯片内封装两个die,因此可提供两倍于思元370加速卡的内存、编解码资源。

架构基于cambricon mluarch03,支持ai训练加速中常见的fp32、fp16、bf16、int16、int8、int4数据格式计算,峰值性能分别为32tflops、96tflops、96tflops、128tops、256tops、512tops。

该卡采用7nm制造工艺,集成48gb lpddr5内存,内存带宽614.4gb/s,pcie 4.0 x16系统接口,整卡最大训练功耗250w,全高全长双插槽设计,系统被动散热。

单卡架构图

通过mlu-link多芯互联技术,提供卡内、卡间互联功能,并专门设计了mlu-link桥接卡,可实现4张加速卡为一组、8颗思元370芯片全互联。

每张加速卡通讯吞吐性能200gb/s,带宽为pcie 4.0的大约3.1倍,可高效执行多芯多卡训练、分布式推理任务。

4卡桥接

广告

单机8卡部署配置

4卡桥接拓扑

根据官方数据,cambricon neuware sdk实测,在常见的4个深度学习网络模型上,mlu370-x8单卡性能与主流350w rtx gpu相当。

多卡加速,借助mlu-link多芯互联技术、cambricon neuware cncl通讯库的优化,8卡环境下达到更优的并行加速比,yolov3、transformer、bert、resnet101训练任务中,8卡并行平均性能达350w rtx gpu的155%。

寒武纪未透露对比的nvidia 350w rtx gpu是哪一款,从规格来看,350w功耗的目前只有rtx 3090、rtx 3080 ti。

当然,一个是专用ai加速卡,一个是gpu通用游戏卡,其实没有太大可比性。

mlu370-x8产品定位中高端,与高端训练产品思元290、玄思1000相互结合,进一步丰富了寒武纪的训练算力交付方式,同时与基于思元370芯粒(chiplet)技术构建的mlu370-x4、mlu370-s4智能加速卡协同,形成完整的云端训练、推理产品组合。

单卡性能对比

8卡性能对比

文章纠错

  • 好文点赞
  • 水文反对

此文章为快科技原创文章,快科技网站保留文章图片及文字内容9728太阳集团的版权,如需转载此文章请注明出处:快科技

观点发布 网站评论、账号管理说明
热门评论
相关报道

最热文章排行查看排行详情

邮件订阅

| | |
"));
网站地图