iSlot官方网站

iSlot官方网站 - 引领潮水

中文

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

登录

iSlot官方网站 - 引领潮水

产品

< 返回主菜单

产品

解决规划

< 返回主菜单

解决规划中心

行业

服务支持

合作同伴

关于iSlot官方网站

投资者关系

返回主菜单

选择区域/说话

iSlot官方网站 - 引领潮水

您订阅的产品有更新，请实时查阅

查看详情

首页
技术博文
互联网
聊聊下一代25G/100G数据中心网络

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

聊聊下一代25G/100G数据中心网络

本文用了大量篇幅介绍下一代25G/100G超大规模数据中心，其中沉要的关键点在于传统的Chassis互换机已经成为DCN架构未来持续急剧演进的故障，无论是在机能、成本、迭代能力上，都比高机能、高密度的单芯片Box互换机拉开越来越大的差距。

颁布功夫：2019-09-25
点击量：
点赞：

分享至

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

我想评论

传统的Chassis互换机已经成为DCN架构未来持续急剧演进的故障，单芯片Box互换机是否能一统全国？

布景

数据中心网络作为互联网业务急剧持续发展的沉要基础设施，已经从各人熟知的千兆网络到万兆网络，再到今天已经规模部署的25G/100G网络，网络机能的急剧提升，满足了业务对带宽的火急需要。那么既然已经是25G/100G网络了，为什么还要谈所谓的“下一代25G/100G数据中心网络”呢，这个“下一代”难路只是一个噱头？

今天的数据中心网络到底遇到了什么挑战？

业务的“不确定性”对数据中心网络技术的演进提出严格挑战。

各人都熟悉业务发展驱动了技术的不休进取。但是从业务自身特点看，会发现业务是很难被看清，体现出好多的“不确定性”，蕴含业务内容的不确定性、业务技术的不确定性以及业务部署的不确定性。从基础网络的角度去看业务，其实是很难看得懂，也很难跟得上，这就对传统被动演进的数据中心网络提出了巨大的挑战。

面对这些”不确定性”，iSlot官方网站网络到底应该若何做？若是还是被动地追随、演进，在功夫和架组成熟度上很难保险，所以网络架构设计必须寻找一个“确定性”的战术自动应对这些业务的“不确定性”，具体体此刻以下几点：

网络机能的持续提升，提供更高的转发机能，蕴含服务器接入带宽和上行带宽，以及更低的网络收敛；同时基于RDMA技术的超低延时转发也是机能提升的沉要方面；
网络不变性的持续提升，出格是在高带宽下，网络不变性越发沉要，任何单点故障城市带来巨大的损失。除了网络自身组网的高靠得住，还必要进一步提升运维能力，实现单一、尺度、统一组网；
持续提高单集群服务器规模，降低每服务器的网络建设成本。建议单集群能够支持10万台服务器，主题在于实现流量的大集中，大大削减DCI的链路成本，提供更高机能的转发能力和更低的转发时延；

所以总结来看，未来网络的架构演进，面对业务的各类“不确定性”，必须在网络机能、不变性、网络规模上持续、急剧迭代，走在业务的前面，脱节网络层面的被动局面后，能力有更多精力和能力去索求、钻研越发有价值的、切近业务的技术钻研和创新。

正基于此，25G/100G数据中心网络已经成为当前主流的网络状态。

iSlot官方网站 - 引领潮水
▲ 图 1-1 传统25G/100G数据中心网络架构

如上图所示，传统25 G/100G数据中心网络能够实现服务器25G或100G接入，通过三级组网能够实现大规模组网，单集群服务器规Ｄ芄怀5万台；赥1+T2组合的Server-Pod能够像搭积木一样矫捷地横向扩大，按需建设，整体看起来似乎已经很美满，若是不思考未来带宽升级400G/800G，这个架构还有必要再去折腾吗？

为什么25G/100G数据中心网络还必要迭代升级？

传统25G/100G数据中心网络之所以还必要进一步演进的关键就在于图 1-1 中T3设备。

传统大型10G及25G/100G数据中心网络中，T3档次的设备类型是多选取了多槽架构的框式互换机，即Chassis。固然Chassis在以往的数据中心及MAN（Metropolitan Area Network，城域网）中能够很好地服务业务，但是对于未来网络架构持续急剧演进、钻营更大规模、更低成本、更快交付等层面，Chassis已经成为iSlot官方网站阻碍。

iSlot官方网站 - 引领潮水
▲ 图 2-1 Chassis互换机

Chassis互换机多芯片结构亏损更多的转发时延

Chassis互换机选取的是多芯片的设计，在接口板卡和Fabric板卡上大多选取多个互换机芯片组合，实现更高机能和更高端口密度，如下图：

iSlot官方网站 - 引领潮水
▲ 图 2-2 36个100G接口线卡

但是这种多芯片的结构会亏损更多的转发时延，如下图 2-3 所示：

iSlot官方网站 - 引领潮水
▲ 图 2-3 Chassis多芯片内部转发示意图

在上面的示意图中有两条流，无论是跨板卡转发还是统一个板卡的两个端口转发，在Chassis互换机内部至少有三跳，理论产生的时延在10us左右。10us看似很幼，但是业务是有感知的，由于基于RDMA的超低延时转发业务，优化过的端到端延时是1us，所以多芯片结构亏损的延时很沉要。

Chassis互换机故障每服务器组网成本的持续降低

基于传统Chassis互换机组网时，相比单芯片Box互换机，每服务器的组网成本差距比力大，出格是在单集群服务器规模较幼的情况。

iSlot官方网站 - 引领潮水
▲ 图 2-4 Chassis互换机和单芯片
Box互换机的每服务器组网成本分析
（蓝色实线代表Chassis互换机，红色实线代表单芯片Box互换机）

图 2-4是仿照推算在分歧规模的服务器组网下，选取Chassis互换机（576个100G接口）和单芯片Box互换机（128个100G接口）的每服务器组网成本差距，这里蕴含互换机、线缆等组件，进行归一化的处置，方便直旁观到差距。

各人会发现，在单集群服务器规模2万台以下时，两种互换机组网思路的每服务器成本差距很大，即便到了单集群10万台服务器规模，两者的每服务器组网成本依然有20%以上的差距。

备注1：仿照推算依照1台Chassis互换机对标4台单芯片Box互换机，保障总端口数相称，这种比力模型也有肯定的如果，4台单芯片Box互换机对标1台Chassis互换机时不必要通过独立的Fabric互联形成一个整体。

另表，Chassis互换机组网带来的间接成本高，且无法支持未来持续迭代。

首当其冲的是Chassis互换机的高功耗故障基础网络的急剧交付，且无法持续支持。由于Chassis互换机多板卡、多芯片的个性，随着接口速度及接口密度的升级，整机的功耗逐步上升，整机576个100G接口的Chassis互换机（16槽）典型功耗已经达到20kW左右，若是再升级到全400G接口，整机的功耗预计达到50kW，这会导致机房的供电线路刷新工作极度复杂，周期也极度长，甚至底子无法刷新，这就严沉影响业务对基础网络急剧交付的要求，这就带来功夫成本、物料成本的大量支出。Chassis互换机的大功耗，还带来散热的问题，必要特殊设计，这也涉及成本的增长。

Chassis互换机体积更大，当前16槽位36口100G互换机高度最低能够做到21U，但是16槽位36口400G互换机高度超过30U，必要占用更多的机柜空间，也是成本问题；

另表，由于Chassis芯片的特殊性及产品结构复杂性，对于架构同学和运维同学来讲，必要思考的越发全面，自动化运维平台可能也必要做特殊的思考，大大增长技术进建成本和运维成本，不利于网络单一、不变、靠得住的设计指标。

Chassis互换机故障网络架构持续急剧迭代

Chassis互换机由于所选取芯片的特殊性、产品开发设计的高难度等问题，导致Chassis互换机自身更新迭代速度相对Box互换机慢，成为整网架构演进速度的短板。

Chassis互换机芯片与Box互换机芯片由于技术系统差距导致芯片迭代分歧步。Chassis互换机通常选取专用的芯片，提供大容量的缓存及信元切片等个性，能够提供更壮大的QoS能力，相比Box互换机选取的芯片，Chassis互换机选取的芯片架构、技术越发复杂，也就导致芯片的转发机能、职能个性迭代的周期长。而Box级互换机芯片技术相比单一，固然不提供大缓存等能力，但是其转发机能、职能个性迭代更快，越发轻量级，险些每1~1.5年能够升级一代。当Chassis互换机与Box互换机混合组网时，可能会出现机能及个性的不匹配，导致类似INT等新个性无法整网统一部署，造成肯定水平的资源浪费。

Chassis互换机与Box互换机由于芯片差距及结构差距导致整机产品开发周期分歧步。Chassis互换机通常由主控板、接口板、互换板等多个关键组件组成，整机多板卡+每板卡多芯片，好多职能必要依附集中式推算+散布式处置，同时必要实现跨板卡、跨芯片的表项同步等，导致Chassis产品的贸易化开起事度和周期相比单芯片Box互换机要复杂N个量级，所以产品开发周期也极度长，这就会严沉影响整体组网架构的迭代速度。

iSlot官方网站 - 引领潮水
▲ 图 2-5 Chassis互换机复杂的硬件结构

总结
通过对比Chassis互换机和单芯片Box互换机，从转发机能、建网成本、运维成本、产品迭代等几个方面，注明Chassis互换机在DCN内部已经成为网络急剧迭代的瓶颈。

总体上看，未来数据中心网络若是要急剧滑润迭代、升级，Chassis互换机的问题必必要解决，选取基于单芯片Box互换机组网，去框化将成为未来的主流。

所谓的单芯片Box到底长什么样子？

前面我们花了大量的篇幅注明Chassis互换机已经成为未来架构持续演进的阻碍，必要基于单芯片Box互换机代替，实现去框化，那么这个能够代替Chassis互换机的单芯片Box互换机到底长什么样子呢？

目前在传统的DCN架构，如图 1-1所示，在T3档次选取的就是Chassis互换机，通常选取16槽位，配置36口100G的板卡，整机能够提供576个100G接口，如下图：

iSlot官方网站 - 引领潮水
▲ 图 3-1 iSlot官方网站网络Chassis主题互换机RG-N18018-X

所以适合代替传统Chassis互换机的单芯片Box互换机应该具备尽量高的转发机能，能够提供更高密度的100G接口。凭据当前互换机芯片产业界的情况，已经商用的最高单芯片转发机能是12.8Tbps，整机最高能够提供128个100G接口，1台传统16槽位Chassis对等4台单芯片Box互换机，具体如下：

iSlot官方网站 - 引领潮水
▲ 图 3-2 iSlot官方网站网络单芯片
高密100G互换机RG-S6920-4C

以iSlot官方网站网络的RG-S6920-4C为例，整机选取一颗高机能互换机芯片，提供单向12.8Tbps的转发机能；提供4个可插拔的子卡，每个子卡提供32个100G接口，未来随着400G光？榈谋榧，能够更换8个400G接口的子卡，整机提供32个400G接口。

基于单芯片Box互换机+多平面组的下一代超大规模数据中心网络

基于单芯片Box互换机的下一代25G/100G网络架构到底是什么样子？如下所示：

iSlot官方网站 - 引领潮水
▲ 图 4-1 下一代25G/100G超大规模数据中心网络架构

整体概括来说，未来能够支持规模持续滑润扩大的高性价比网络架构就是正交多平面的架构。

备注2：这里给出的只是一个建议的组网模型和思路，针对具体项目，必要凭据收敛比的规划来调整有关平面和设备的数量

整个集群基于Leaf+Pod-Spine+Spine三级组成，其中Leaf+Pod-Spine组成Server-Pod，每个Server-Pod支持尺度数量的服务器规模，作为尺度化？，整网通过横向扩容Server-Pod实现单集群服务器规模的滑润扩容，就像堆积木一样。

多个Server-Pod之间的网络通讯，是通过与上层正交的多平面Spine设备进行互联。

同时，在Server-Pod和Spine层级，都选取了高机能单芯片Box设备，即整机提供128个100G接口，整网互换机设备只有两种规格，大大简化组网、运维。

尺度化、横向可扩大的Serve-Pod

Sever-Pod由Leaf+Pod-Spine组成，对于25G网络来说，Leaf层产品端口状态通常是48x25G+8x100G，收敛比是1.5:1；Leaf设备上行通过8个100G接口衔接到本Server-Pod内的8台Pod-Spine。

每个Server-Pod具体能够支持几多台服务器的衔接？在Pod-Spine设备端口数量肯定的情况下，就取决于Pod-Spine设备的收敛比规划设计。

传统网络在Pod-Spine这个层面的收敛比设计通常为3:1，但是未来业务必要更低的收敛比，以更好地满足推算与存储分离、在线与离线混部带来的超大器材向流量需要（跨Server-Pod）；同时思考Leaf层互换机收敛比通常都是1.5:1，所以建议Pod-Spine最低也能支持1.5:1的收敛比，通过推算，对于128口100G的单芯片Pod-Spine设备，选取80个100G端口下行，48个100G端口上行，最终收敛比能够做到1.67:1左右。但是思考初期建设成本及网络流量的增长是逐步升级的，所以能够先选取2.5:1收敛比，即选取下行80个100G端口，上行32个100G端口，削减Spine层面设备数量，Pod-Spine设备渣滓空闲的端口能够满足未来扩大，进一步降低收敛比。

在这样的规划下，每个Server-Pod中，若是每台服务器选取双25G链路上行，那么单Server-Pod能够支持48x(80/2)=1920台服务器，若是每台服务器选取单25G链路上行，单Server-Pod能够支持48x80=3840台服务器。

对于这样的收敛比设计，若是单集群要支持10万台服务器，只必要横向扩大52个Server-Pod，若是要扩大支持更大的服务器规模，无非是Spine层面128口单芯片互换机设备划分更多的下行端口衔接更多的Pod-Spine，至于最大能支持几多Server-Pod，这又取决于Spine层面的收敛比设计。

统一、高性价比的多平面Spine

讲到这里，我们会发现Spine层面设备在传统DCN设计当选取的多槽位Chassis设备，但是在我们下一代25G/100G架构中，被单芯片128口100G的Box互换机代替，实现去框化。所以在思考Spine层面的收敛比设计时，基于128口100G的设备规划。

对于Spine层面，也是平行多平面设计，与Server-Pod呈显旖面正交的衔接，主张是保障为所有Pod-Spine之间提供最大化的冗余衔接，整体基于ECMP实现一样的跳数，保障最短的蹊径转发，也简化了网络的规划。

关于Spine层平面的数量，从图 4-1中能够看到，Spine平面的数量其实对应每个Server-Pod中Pod-Spine设备的数量。依照当前Server-Pod的规划，整网必要设计8个Spine平面，每个Pod-Spine上行对应一个独立的Spine平面。

每个Spine平面有几多台设备，取决于Pod-Spine的收敛比设计。依照之前Pod-Spine建议的收敛比设计，每个Spine平面必要规划32台Spine设备，那么8个Spine平面，一共必要规划256台的Spine设备。

之前已经提到，Server-Pod最终能够扩大几多，取决于Spine设备的收敛比设计，凭据业内的一些经验，同时思考各集群之间的器材向流量，即DCI的流量，建议单集群Spine层面至少能够扩大支持到3:1的收敛比机能。依照单集群10万台服务器规模最终有52个Server-Pod，对于每个Spine设备来讲下行方向至少分配52个100G接口，上行方向分配16个100G端口衔接MAN设备就能够提供3:1的收敛比，未来能够随着Server-Pod规模的调整和收敛比的需要，矫捷调整上、下行100G端口的分配，整体来说，Spine的128个端口数量极度的丰裕。

一个齐全的数据中心不只是Leaf和Spine

我们之前具体描述的内容只是针对一个DCN的最受关注的部门，即Leaf、Leaf-Spine及Spine，但是只有这三个部门是不齐全的，若何实现集群之间的互访、若何对表提供业务呢？所以对于一个整体的数据中心园区来讲，整体架构应该是什么样子？

针对整个园区来说，我们建议的齐全架构是基于内网和表网分离的方式，建设超大规模的数据中心园区。

iSlot官方网站 - 引领潮水
▲ 图 4-2 基于单芯片Box互换机组网的超大规模园区架构

首先，内表网分离。表网就是衔接运营商，实现最终用户接见数据中心业务的网络。内网重要是实现数据中心内部服务器之间的器材向流量。选取内表网分离的组网建议，主张在于保障成本增长较少的情况下，让网络的天堑越发清澈，简化网络设备的数据规划和治理，实现运维的独立。
第二，建议以园区为单元建设一个集钟注独立的GW（Gateway，网关）区域，例如Load-Balance、NAT（Network Address Translation，网络地址转换）、专线接入网关等，这种设计的思考一方面在于GW业务对服务器的配置和机能要求与通常业务分歧，并且两者对网络机能的要求也有较大差距，独立建设方便规划、运维，获得更好的收益。
第三，在园区一级建设MAN平面，实现同园区各集群之间器材向高速互联，或者通过MAN衔接其他园区。对于MAN平面网络设备，若是确认对互换机大容量缓存等能力没有强需要，则也能够思考去框，选取基于单芯片128口100G的Box互换机建设，实现建设成本和运维成本的降低。这里如果了每个平面部署6台，一共8平面进行建设。

之前园区的架构是一个三维立体的示意图，为了方便各人理解，这里展示的是二维平面图，具体如下：

iSlot官方网站 - 引领潮水
▲ 图 4-3 基于单芯片Box
互换机组网的超大规模园区架构（二维图）

总结：基于单芯片Box互换机组网的收益

基于单芯片Box互换机+多平面组网，实现超大规模的下一代25G/100G数据中心网络组网，其主题思想是在DCN内部基于单芯片Box互换机实现去框化，能够满足未来网络持续演进，无论是在网络规模、成本、机能上都获得更大的收益，具体收益总结如下：

iSlot官方网站 - 引领潮水
▲ 图 5-1 单芯片Box互换机收益总结

超大规模

• 单Server-Pod支持的服务器规模2000台，单集群能够支持10万台服务器；

• 基于Server-Pod的方式按需矫捷扩大；

高机能

• 每台服务器提供50Gbps上行带宽（针对25G服务器接入）；

• 每组服务器提供1.6Tbps上行带宽，每个Server-Pod提供25.6Tbps上行带宽；

• 提供更低收敛比设计；

• 端到端提供统一的RDMA业务承载，为业务提供高机能吞吐和超低时延转发；

高靠得住

• 整网CLOS组网，无单点故障；

• 去Chassis，单点故障对业务影响更低；

• 选取Leaf“去堆叠”设计，满足服务器靠得住接入的同时简化Leaf的运维治理；

技术统一

• 统一芯片技术，基于一致的技术盈利为业求实现统一的能力支持；

• 基于统一架构能力，简化运维，实现运维能力、运维经验的融合，降低成本；

低成本

• 大幅度降低硬件成本，相比同端口密度的Chassis互换机，单芯片Box互换机的硬件成本降低47%；

• 大幅度降低电力成本，相比同端口密度的Chassis互换机，单芯片Box互换机的功耗降低71%，不必要单独的电力刷新，也降低对散热的需要，加快项目交付周期；

• 降低空间成本，相比同端口密度的Chassis互换机，单芯片Box互换机能够节约24%；

基于单芯片Box组网还有其他收益吗？

通过上面的深刻分析，在DCN内部选取单芯片Box互换机代替传统Chassis，在扩大性、成本、靠得住性等几个方面都能够获得较大的收益，但是这部门更多是底层有关的，对业务有更多感知的还在于芯片统一后，在架构及运维保险方面的能力集中，具体如下：

iSlot官方网站 - 引领潮水
▲ 图 6-1 盛开统一的下一代互联网数据中心能力地图

如上图所示，除了架设一张高性价比的超大规模数据中心基础网络，在面向业务层面的能力，蕴含提供RDMA业务端到端的部署，提供数据中心IPv4&IPv6业务双栈；在此基础上，基于全新一代的互换机芯片技术架构，提供统一、尺度的运维能力，蕴含可视运维、统一运维、盛开运维、智能运维。

由于篇幅原因，本文临时不发展这些技术细节，敬请等待后续解说文章。

写在最后

本文用了大量篇幅介绍下一代25G/100G超大规模数据中心，其中沉要的关键点在于传统的Chassis互换机已经成为DCN架构未来持续急剧演进的故障，无论是在机能、成本、迭代能力上，都比高机能、高密度的单芯片Box互换机拉开越来越大的差距。

但是不是Chassis互换机已经没价值了呢？单芯片Box互换机能够一统全国了呢？了局注定是否定。终于Chassis互换机由于芯片的技术优势，拥有单芯片Box互换机无法比力的超大容量缓存，共同Cell切片及VoQ能够提供壮大的QoS治理能力，预防在带宽瓶颈下业务突发导致的丢包问题。

所以通过目前业界大型互联网公司的选择了局上看，在集群内部，适合选取单芯片Box互换机代替传统的Chassis互换机，但是在MAN及DCI骨干平面的建设，更多选择Chassis互换机，关注大容量缓存能力及单机的端口密度。

能够斗胆预测，未来业务对数据中心网络的机能、规模、靠得住性、成本有更高的需要，随着单芯片Box互换机的机能进一步提升，未来单芯片机能达到25.6Tbps、51.2Tbps的Box会更多地利用在DCN组网中，甚至尝试延展到MAN或者DCI平台。

有关推荐：

有关标签：

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

点赞

<< 大型数据中心BGP路由和谈规划

DCN场景下的BGP和谈优化个性总结 >>

有关产品

客户评论

no-data

暂无评论

我要评论

您的姓名

您的手机号*

您的邮箱

公司名称

您的评论*

我已仔细阅读并赞成隐衷申明

验证码*

verificationcode?key=techMessage

提交评论

更多技术博文

任何必要，请联系iSlot官方网站

与售前照拂交谈

填写项目需要表单

售前征询
售后服务
定见反馈

iSlot官方网站 - 引领潮水

返回顶部

收起

文档AI副手

文档评价

该资料是否解决了您的问题？

您对当前页面的中意度若何？

不咋滴

极度好

您中意的原因是（多。？

您对文档是否还有其它的问题或建议？

为尽快解决问题，请您留下联系方式以便回复

邮箱

手机号

ev-bg

感激您的反。

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

iSlot官方网站 - 引领潮水

请选择服务项目

售前征询

售后服务

定见反馈

更多联系方式

【网站地图】