iSlot官方网站

iSlot官方网站 - 引领潮水

中文

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

登录

iSlot官方网站 - 引领潮水

产品

< 返回主菜单

产品

解决规划

< 返回主菜单

解决规划中心

行业

服务支持

合作同伴

关于iSlot官方网站

投资者关系

返回主菜单

选择区域/说话

iSlot官方网站 - 引领潮水

您订阅的产品有更新，请实时查阅

查看详情

到底什么样的网络，能力带得动AIGC？

iSlot官方网站 - 引领潮水

颁布功夫：2023-08-02

iSlot官方网站 - 引领潮水

2023年，是AI人为智能技术全面爆红的一年。

以ChatGPT、GPT-4、文心一言为代表的AIGC大模型，集文本撰写、代码开发、诗词创作等职能于一体，展示出了超强的内容出产能力，带给人们极大震撼。

iSlot官方网站 - 引领潮水

AIGC，AI-Generated Content（人为智能出产内容）

作为一个通讯老司机，除了AIGC大模型自身之表，幼枣君越发关注的，是模型背后的通讯技术。到底是一张怎么的壮大网络，在支持着AIGC的运行？此表，AI海潮的全面来袭，将对传统网络带来怎么的刷新？

AIGC，到底必要多大的算力？

多所周知，数据、算法和算力，是人为智能发展的三大根基身分。

iSlot官方网站 - 引领潮水

前面提到的几个AIGC大模型，之所以那么严害，不仅是由于它们背后有海量的数据投喂，也由于算法在不休进化升级。更沉要的是，人类的算力规模，已经发展到了肯定水平。壮大的算力基础设施，齐全可能支持AIGC的推算需要。

AIGC发展到此刻，训练模型参数从千亿级飙升到了万亿级。为了实现这么大规模的训练，底层支持的GPU数量，也达到了万卡级别规模。

以ChatGPT为例，他们使用了微软的超算基础设施进行训练，听说动用了10000块V100 GPU，组成了一个高带宽集群。一次训练，必要亏损算力约3640 PF-days（即每秒1千万亿次推算，运行3640天）。

一块V100的FP32算力，是0.014 PFLOPS（算力单元，蹬宗每秒1千万亿次的浮点运算）。一万块V100，那就是140 PFLOPS。

也就是说，若是GPU的利用率是100%，那么，实现一次训练，就要3640÷140=26（天）。

GPU的利用率是不成能达到100%，若是按33%算（OpenAI提供的如果利用率），那就是26再翻三倍，蹬宗78天。

能够看出，GPU的算力、GPU的利用率，对大模型的训练有很大影响。

iSlot官方网站 - 引领潮水

那么问题来了，影响GPU利用率的最大成分，是什么呢？

答案是：网络。

一万甚至几万块的GPU，作为推算集群，与存储集群进行数据交互，必要极大的带宽。此表，GPU集群进行训练推算时，都不是独立的，而是混归并行。GPU之间，有大量的数据互换，也必要极大的带宽。

若是网络不给力，数据传输慢，GPU就要期待数据，导致利用率降落。利用率降落，训练功夫就会增长，成本也会增长，用户履历会变差。

业界已经做过一个模型，推算出网络带宽吞吐能力、通讯时延与GPU利用率之间的关系，如下图所示：

iSlot官方网站 - 引领潮水

各人能够看到，网络吞吐能力越强，GPU利用率越高；通讯动态时延越大，GPU利用率越低。

一句话，没有好网络，别玩大模型。

怎么的网络，能力支持AIGC的运行？

为了应对AI集群推算对网络的调整，业界也是想了不少法子的。

传统的应对战术，重要是三种：Infiniband、RDMA、框式互换机。我们别离来单一相识一下。

Infiniband组网

Infiniband（直译为“无限带宽”技术，缩写为IB）组网，搞数据通讯的童鞋应该不会陌生。

这是目前组建高机能网络的最佳蹊径，带宽极高，能够实现无拥塞和低时延。ChatGPT、GPT-4所使用的，听说就是Infiniband组网。

若是说Infiniband组网有什么弊端的话，那就是一个字——贵。相比传统以太网的组网，Infiniband组网的成本会贵好几倍。这项技术比力封关，业内目前成熟的供给商只有1家，用户没什么选择权。

RDMA网络

RDMA的全称是Remote Direct Memory Access（远程直接数据存。。它是一种新型的通讯机造。在RDMA规划里，利用法式的数据，不再经过CPU和复杂的操作系统，而是直接和网卡通讯，不仅大幅提升了吞吐能力，也降低了时延。

iSlot官方网站 - 引领潮水

RDMA最早提出时，是承载在InfiniBand网络中的。此刻，RDMA逐步移植到了以太网上。

目前，高机能网络的主流组网规划，是基于RoCE v2（RDMA over Converged Ethernet，基于融合以太网的RDMA）和谈来组建支持RDMA的网络。

这种规划有两个沉要的搭配技术，别离是PFC（Priority Flow Control，基于优先级的流量节造）和ECN（Explicit Congestion Notification，显式拥塞通知）。它们是为了预防链路中的拥塞而产生的技术，但是，频仍被触发，反而会导致发送端暂停发送，或降速发送，进而拉低通讯带宽。（下文还会提到它们）

框式互换机

国表有部门互联网公司，寄但愿于利用选取框式互换机（DNX芯片+VOQ技术），来满足构建高机能网络的需要。

DNX：broadcom（博通）的一个芯片系列

VOQ：Virtual Output Queue，虚构输出队列

这种规划看似可行，但也面对以下几个挑战。

首先，框式互换机的扩大能力通常；虼笥紫薅攘俗畲蠖丝谑，如想做更大规模的集群，必要横向扩大多个机框。

其次，框式互换机的设备功耗大；蚰谙呖ㄐ酒abric芯片、电扇等数量多多，单设备的功耗超过2万瓦，有的甚至3万多瓦，对机柜供电能力要求太高。

第三，框式互换机的单设备端口数量多，故障域大。

基于以上原因，框式互换机设备只适合幼规模部署AI推算集群。

到底什么是DDC

前面说的都是传统规划。既然这些传统规划不能，那当然就要想新法子。

因而，一种名叫DDC的全新解决规划，闪亮登场了。

DDC，全名叫做Distributed Disaggregated Chassis（散布式分散式机箱）。

它是前面框式互换机的“分拆版”？蚴交セ换睦┐竽芰Σ患，那么，我们索性把它给拆开，将一个设备造成多个设备，不就OK了？

iSlot官方网站 - 引领潮水

框式设备，通常分为互换网板（背板）和业务线卡（板卡）两部门，相互之间用衔接器衔接。

DDC规划，将互换网板造成了NCF设备，将业务线卡造成了NCP设备。衔接器，则造成了光纤？蚴缴璞傅闹卫碇澳，在DDC架构中，也造成了NCC。

NCF：Network Cloud Fabric（网络云治理节造平面）

NCP：Network Cloud Packet Processing（网络云数据包处置）

NCC：Network Cloud Controller（网络云节造器）

DDC从集中式造成散布式之后，扩大能力大大加强了。它能够凭据AI集群的大幼，矫捷设计组网规模。

我们来举两个例子（单POD组网和多POD组网）。

单POD组网中，选取96台NCP作为接入，其中NCP下行共18个400G接口，掌管衔接AI推算集群的网卡。上行共40个200G接口，最大能够衔接40台NCF，NCF提供96个200G接口，该规模高低行带宽为超速比1.1:1。整个POD可支持1728个400G网络接口，依照一台服务器配8块GPU来推算，可支持216台AI推算服务器。

iSlot官方网站 - 引领潮水

单POD组网

多级POD组网，规Ｄ芄槐涞酶。

在多级POD组网中，NCF设备要就义一半的SerDes，用于衔接第二级的NCF。所以，此时单POD选取48台NCP作为接入，下行共18个400G接口。

iSlot官方网站 - 引领潮水

多POD组网

单个POD内，能够支持864个400G接口（48×18）。通过横向增长POD（8个），实现规模扩容，整体最大可支持6912个400G网络端口（864×8）。

NCP上行40个200G，接POD内40台NCF。POD内NCF选取48个200G接口，48个200G接口分为12个一组上行到第二级的NCF。第二级NCF选取40个平面（Plane），每个平面4台NCF-P，别离对应在POD内的40台NCF。

整个网络的POD内实现了1.1:1的超速比（北向带宽大于南向带宽），而在POD和二级NCF之间实现了1:1的收敛比（南向带宽/北向带宽）。

iSlot官方网站 - 引领潮水

DDC的技术特点

站在规模和带宽吞吐的角度，DDC已经能够满足AI大模型训练对于网络的需要。

然而，网络的运作过程是复杂的，DDC还必要在时延匹涤注负载平衡性、治理效能等方面有所提升。

基于VOQ+Cell的转发机造，匹敌丢包

网络在工作的过程中，可能会出现突发流量，造成接管端来不及处置，引起拥塞和丢包。

为了应对这种情况，DDC采取了基于VOQ+Cell的转发机造。

iSlot官方网站 - 引领潮水

发送端从网络接管到数据包之后，会分类到VOQ（虚构输出队列）中存储。

在发送数据包前，NCP会先发送Credit报文，确定接管端是否有足够的缓存空间处置这些报文。

若是接管端OK，则将数据包吩飕成Cells（数据包的幼切片），并且动态负载平衡到中央的Fabric节点（NCF）。

若是接管端临时没能力处置报文，报文会在发送端的VOQ中暂存，并不会直接转发到接管端。

在接管端，这些Cells会进行沉组和存储，进而转发到网络中。

切片后的Cells，将选取轮询的机造发送。它可能充分利用到每一条上行链路，确保所有上行链路的传输数据量近似相称。

iSlot官方网站 - 引领潮水

轮询机造

这样的机造，充分利用了缓存，能够大幅度削减丢包，甚至不会产生丢包情况。数据沉传削减了，整体通讯时延更不调换低，从而能够提高带宽利用率，进而提升业务吞吐效能。

PFC单跳部署，预防死锁

前面我们提到，RDMA无损网络中引入了PFC（基于优先级的流量节造）技术，进行流量节造。

单一来说，PFC就是在一条以太网链路上创建 8 个虚构通路，并为每条虚构通路指定相应优先级，允许单独暂停和沉启其中肆意一条虚构通路，同时允许其它虚构通路的流量无中断通过。

iSlot官方网站 - 引领潮水

PFC能够实现基于队列的流量节造，但是，它也存在一个问题，那就是死锁。

所谓死锁，就是多个互换机之间，由于环路等原因，同时出现了拥塞（各自端口缓存亏损超过了阈值），又都在期待对方开释资源，从而导致的“僵持状态”（所有互换机的数据流永远梗塞）。

DDC的组网下，就不存在PFC的死锁问题。由于，站在整个网络的角度，所有NCP和NCF能够当作一台设备。对于AI服务器来说，整个DDC，就是一个互换机，不存在多级互换机。所以，就不存在死锁。

图

iSlot官方网站 - 引领潮水

另表，凭据DDC的数据转发机造，可在接口处部署ECN（显式拥塞通知）。

ECN机造下，网络设备一旦检测到RoCE v2流量出现了拥塞（内部的Credit缓和存机造无法支持突发流量），就会向服务器端发送CNP（Congestion Notification Packets，拥塞通知报文），要求降速。

散布式OS，提升靠得住性

最后再看看治理节造平面。

前面我们提到，在DDC架构中，框式设备的治理职能造成了NCC（网络云节造器）。NCC极度沉要，若是选取单点式的方式，万一出现问题，就会导致整网故障。

为了预防出现这样的问题，DDC能够取缔NCC的集中节造面，构建散布式OS（操作系统）。

基于散布式OS，能够基于SDN运维节造器，通过尺度接口（Netconf、GRPC等）配置治理设备。这样的话，每台NCP和NCF独立治理，有独立的节造面和治理面，大大提升了系统的靠得住性，也越发便于部署。

DDC的商用进展

综上所述，相对传统组网，DDC在组网规模、扩大能力、靠得住性、成本、部署速度方面，占有显著优势。它是网络技术升级的产品，提供了一种颠覆原有网络架构的思路，能够实现网络硬件的解耦、网络架构的统一、转发容量的扩大。

业界已经使用OpenMPI测试套件进行过框式设备和传统组网设备的对比仿照测试。测试结论是：在All-to-All场景下，相较于传统组网，框式设备的带宽利用率提升了约20%（对应GPU利用率提升8%左右）。

正是由于DDC的显著能力优势，此刻这项技术已经成为行业的沉点发展方向。例如iSlot官方网站网络，他们就率先推出了两款可交付的DDC产品，别离是400G NCP互换机——RG-S6930-18QC40F1，以及200G NCF互换机——RG-X56-96F1。

iSlot官方网站 - 引领潮水

RG-S6930-18QC40F1互换机的高度为2U，提供18个400G的面板口，40个200G的Fabric内联口，4个电扇和2个电源。

RG-X56-96F1互换机的高度为4U，提供96个200G的Fabric内联口，8个电扇和4个电源。

据悉，iSlot官方网站网络会持续研发，持续推出更多适合智算中心网络场景的产品。

最后的话

AIGC的崛起，已经掀起了互联网行业的新一轮技术革命。

我们能够看到，越来越多的企业，在参与这个赛路，参加角逐。这意味着，网络基础设施的升级，火烧眉毛。

DDC的出现，将大幅提升网络基础设施的能力，不仅能够有效应对AI革命对网络基础设施提出的挑战，更将助力整个社会的数字化转型，加快人类数智时期的全面到来。

关注iSlot官方网站

: 关注iSlot官方网站官网微信
随时相识公司最新动态

成功案例

查看更多

最新动态

查看更多

有关视频

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

查看更多

售前征询
售后服务
定见反馈

iSlot官方网站 - 引领潮水

返回顶部

收起

文档AI副手

文档评价

该资料是否解决了您的问题？

您对当前页面的中意度若何？

不咋滴

极度好

您中意的原因是（多。？

您对文档是否还有其它的问题或建议？

为尽快解决问题，请您留下联系方式以便回复

邮箱

手机号

ev-bg

感激您的反。

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

请选择服务项目

售前征询

售后服务

定见反馈

更多联系方式

【网站地图】