科技行业资讯门户

广告

广告

广告

广告

广告

移动云:高性能网络是AI时代关键基础设施技术底座

【蜂耘网 云计算】近日,由新一代信息技术产业研究院、赛迪未来产业研究中心共同主办,中国电子学会区块链分会、至顶科技联合承办的2024未来信息技术大会暨首届数据要素创新发展论于北京成功举办。

 

img1

 

中国移动云能力中心高级专家徐小虎发表移动云高性能网络,智算时代坚实基础设施底主题演讲并在大会期间接受至顶科技采访。

 

AI基础设施要具备全新六要素能力

 

ChatGPT等文本生成大模型的问世,以及今年初发布Sora视频生成大模型,标志着大模型从单模态向多模态的发展。这一演进导致智能算力需求呈现井喷式增长。全球范围内的人工智能AI)基础设施建设迎来了高速发展期。IDC预测,中国智算规模年复合?50%

 

徐小虎表示,面AI的基础设施要在计算系统、存储系统、网络系统、电力系统、冷却系统以及维护系统六要素具备全新的能力。

 

具体而言,包括GPU为主的异构算 GPUFPGAASIC等)打造的加速计算系统;为支AI训练过程Checkpoint数据的高速读写要求,高性能的并行文件存储是刚需;为实现加速卡的高速互联以及高性能并行文件存储,高性能网络发挥关键作用;高性能就意味着高的电力能源消耗,需要新的电力能源和储能技术提供更多的更稳定的清洁能源供给。高能耗带来更高的散热要求,诸如液冷等更高效的冷却系统是支撑智算中心高效运作的关键;高性能算力、无损网络、液冷等新技术会带来新的维护要求。

 

高性能网络是保AI训练效率的关键

 

徐小虎重点分享AI网络建设方面的思考。随着大模型从单模态向多模态发展,业界主AI大模型训练集群参数规模从千亿上升到万亿,集群规模也随之从千卡级别发展到万卡级别AI训练过程中AI集群内GPU服务器需要进行大量数据的同步,完成服务器之间的数据并行和流水并行任务,这个数据同步过程完成的越快GPU的利用率越高,因AI网络的吞吐非常关键,目前业界主AI大模型集群都已经采用GPU400G接入速率,GPU800G接入速率预计在明后年会逐渐成为主流AI网络目前大多数采RDMA技术,不论IBROCE,对网络丢包都非常敏感,有实验数据表明1%的丢包率将导致网络吞吐下50%,网络可靠性对于保AI集群长期稳定训练至关重要;动态延迟增大会增大尾延迟甚至导致拥塞丢包,进而影GPU利用率。

 

综上所述,为了保AI大模型训练效率,需要超大规模、超高吞吐、超高可靠、超低延迟的高性能网络作为技术支撑。

 

目前业界通常采用的高性能网络技术还RDMA技术,具体包IBROCE两个技术路线。

 

传统IB网络技术由于技术体系相对封闭,供应商较少、建网成本较高等因素,难以支AI大规模建设需要。以太网具有开放技术体系,广泛产业生态等诸多优势,因此以太网替IBAI大规模发展逐渐成为业界共识。2022年开始,业界头部网络芯片厂商陆续发51.2T以太网交换芯片,主要面向智算网络市场。

 

但是传统以太网技术,比如基于数据包五元组哈希的逐流粒度多路径负载均衡技术和基ECN/PFC的流量控/网络拥塞控制协议,在适配智算网络流量模型方面存在一定的不足智算中GPU之间流量模型和传DC流量模型不一样,往往呈现流数少,单流大,高并发的特征,传统以太网逐流负载均衡机制与智算流量模型不匹配,在智算场景少数大象流情况下,容易导致部分链路拥塞而部分链路空闲,链路拥塞会导致动态延迟增大甚至丢包。

 

针对上述的智算网络流量特征,特别是大象流的特征,采用更细粒度的负载均衡机制,比如逐包粒度的负载均衡机制即包喷洒机制,是非常值得探索的方向。基ECN/PFC机制RoCE技术由于存ECN/PFC参数调优难度大PFC死锁和风暴等问题,只适合在小规模网络部署,面对万卡集群规模AI网络场景,需要对传统以太网的流量控制和拥塞控制机制进行革。目前,国内外形成多个围AI以太网的产业联盟,如中国移动牵头GSE联盟以及华为牵头的超融合以太联盟,均致力于改进以太网技术以满足智算网络需求。

 

移动云自研高性能智算网络,支撑万卡高速互联

 

顺应技术和产业发展趋势,移动云目前正在自研基于以太网技术的高性能智算网络系统,支撑万GPU高速互联,具体优势包括:

 

端网协同,网侧执行端到端路径带宽容量以及拥塞感知的逐包粒度自适应路由,实现无阻塞的网络;端DPU/RNIC实现包乱序处理、轻量化拥塞控制、网络拓扑感知集合通信库。

 

标准开放,坚持开放以太网技术路线,具备多厂商设备组网能力,同时,主导和参与智算网络相关国际标准,比IEEE/IETF相关标准,主导和参与智算网络相关的国内和国际产业联盟,比GSE联盟和超融合以太联盟。

 

生态丰富,与网络交换芯片DPU/RNIC、白盒网络设备厂商深度合作,建立广泛产业生态。依托中国移动协同创新基地长三角区域中心(苏州)节点,协同产业链上下游共建共享,推进高性能网络技术和产业发展。

 

此外,结合移动云自研SDN云网络系统,保证通算、智算资源的无缝高速连接,构建通智算一体化的云服务能力。

 

中国移动智算资源规划布局N+X

 

移动云作为数字中国建设的国家队、主力军,移动云依托集团运营商禀赋优势,构4+N+31+X算网资源体系,以N+X智算资源体系。

 

为了适AI需求,中国移动将智算网络资源规划融入算网规划,目前移动云已构建了全栈自主可控、行业领先的智算中心架构,形成N+X智算资源布局体系。建设辐射全国的智算中心和区域性节点,另外,移动云还基于智算中心底层万卡高性能算力资源,构建了从高性能算力AI训练推理平台到模型服务的全栈智算产品体系。以支持大规模万卡集群的训练和推理一体化需求。

 

N节点指的是全国N节点和区域N节点,全国N节点以大规模训练资源为主,优选低成本中心及国? 枢纽节点,满足全网跨省、跨区域、大颗粒的智算业务需求 区域N节点以初期训练、未来训推一体资源为主 满足本省、本区域内智算业务需求X节点指的是以快速满足本省及区域内的业务需求主要承载中小规模资源需求业务,推理型资源按需部署建设 徐小虎解释到。

 

可以看到,随着呼和浩特超大规模单体智算中心1112个智算中心区域节点的启动建设,中国移动将加快形N(全国性、区域性智算中心+X(属地化、定制化边缘智算节点多层级、全覆盖智算能力布局,并结合高性能网络的技术优势,有望AI时代在智算领域发挥更大价值。

 

 

(蜂耘云计算网 责任编辑:行云)

2024-04-07 11:49

广告

来源:至顶网
近日,由新一代信息技术产业研究院、赛迪未来产业研究中心共同主办,中国电子学会区块链分会、至顶科技联合承办的“2024未来信息技术大会暨首届数据要素创新发展论坛”于北京成功举办。

声明:凡来源标明“蜂耘网”的文章版权均为本站所有,如需转载请务必注明出处,违者本网将追究相关法律责任;所有未标明来源为“蜂耘网”的转载文章目的在于传递更多信息,均不代表本网立场及观点,“蜂耘网”不对这些第三方内容或链接做任何保证或承担任何责任;如涉及版权等问题,请在内容发表之日起一周内与本网联系,否则视为放弃相关权利。

所有评论仅代表网友意见,与本站立场无关

最新资讯

推荐阅读

热门排行

1、

2、

3、

4、

5、

6、

7、

8、

专题推荐

人物访谈

  • 坚定扛牢“走在前、挑大梁”的使命担当(权威访谈·谋发展 启新篇)

    来源:人民日报
    2024年,山东经济社会高质量发展取得积极成效。新的一年,作为经济大省的山东如何坚定扛牢“走在前、挑大梁”的使命担当?如何全面贯彻落实中央经济工作会议精神,奋力推动经济社会高质量发展?记者采访了山东省委书记林武。

    55 2025-01-21
  • 一文了解查理·芒格:为什么他是巴菲特最推崇的人

    来源:
    ①巴菲特写道,“如果没有查理的灵感、智慧和参与,伯克希尔-哈撒韦公司不可能发展到今天的地位”;
    ②芒格曾表示,“如果世上未曾有过查理·芒格这个人,巴菲特的业绩依然会像现在这么漂亮 ”
    ③两周前,芒格还公开在节目中维护93岁的老友巴菲特。

    213 2023-11-29
  • 面壁者,拉里·佩奇

    来源:中欧商业评论
    这两年,硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦,这为他的公司引来了铺天盖地的负面新闻,然而,他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。

    341 2022-06-15

会议活动

微信公众号

广告

相关新闻