iSlot官方网站

无线新履历,不变如磐石 丨 高校关键场景高密无线优良实际分享会
date
预约直播
从此,无线可“磐石" 丨 iSlot官方网站磐石无线解决规划场景颁布会
date
预约直播
iSlot官方网站 - 引领潮水
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
iSlot官方网站 - 引领潮水

您订阅的产品有更新,请实时查阅

查看详情
iSlot官方网站 - 引领潮水 iSlot官方网站 - 引领潮水

浅析RDMA网络下MMU水线设置

【MMU水线】本文以RDMA网络作为切入点,结合现实部署经验,分析MMU水线设置的一些思路 。

  • iSlot官方网站 - 引领潮水

    颁布功夫:2018-06-29

  • iSlot官方网站 - 引领潮水

    点击量:

  • iSlot官方网站 - 引领潮水

    点赞:

分享至

iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水

我想评论

RDMA(远程直接数据存 。,以其对业务带来的高机能、低延时优势,在数据中心尤其是AI、HPC、大数据等场景得到了宽泛利用 。为保险RDMA的不变运行,基础网络必要提供端到端无损零丢包及超低延时的能力,这也催生了PFC、ECN等网络流控技术在RDMA网络中的部署 。在RDMA网络中,若何合理设置MMU(缓存治理单元)水线是确保RDMA网络无损和低延时的关键 。本文将以RDMA网络作为切入点,结合现实部署经验,分析MMU水线设置的一些思路 。

 

什么是RDMA ?

RDMA(Remote Direct Memory Access),通俗的说就是远程的DMA技术,是为相识决网络传输中服务器端数据处置的延长而产生的 。

 

iSlot官方网站 - 引领潮水

      ▲ 传统模式与RDMA模式工作机造对比

 

如上图,在传统模式下,两台服务器上的利用之间传输数据,过程是这样的:

  • 首先要把数据从利用缓存拷贝到Kernel中的TCP和谈栈缓存;
  • 而后再拷贝到驱动层;
  • 最后拷贝到网卡缓存 。

屡次内存拷贝必要CPU屡次染指,导致处置延时大,达到数十微秒 。同使佧个过程中CPU过多参加,大量亏损CPU机能,影响正常的数据推算 。

在RDMA 模式下,利用数据能够绕过Kernel和谈栈直接向网卡写数据,带来的显著益处有:

  • 处置延时由数十微秒降低到1微秒内;
  • 整个过程险些不必要CPU参加,节俭机能;
  • 传输带宽更高 。

 

RDMA对于网络的诉求

RDMA在高机能推算、大数据分析、IO高并发等场景中利用越来越宽泛 。诸如iSICI, SAN, Ceph, MPI, Hadoop, Spark, Tensorflow蹬爪用软件都起头部署RDMA技术 。而对于支持端到端传输的基础网络而言,低延时(微秒级)、无损(lossless)则是最沉要的指标 。

低延时

网络转发延时重要产生在设备节点(这里忽略了光电传输延时和数据串行延时),设备转发延时蕴含以下三部门:

  • 存储转发延时:芯片转发流水线处置延长,每个hop会产生1微秒左右的芯片处置延时(业界也有尝试使用cut-through模式,单跳延长能够降低到0.3微秒左右);
  • Buffer缓存延时:当网络拥塞时,报文会被缓存起来期待转发 。这时Buffer越大,缓存报文的功夫就越长,产生的时延也会更高 。对于RDMA网络,Buffer并不是越大越好,必要合理选择;
  • 沉传延时:在RDMA网络里会有其他技术确保不丢包,这部门不做分析 。

 

无损

RDMA在无损状态下能够满速度传输,而一旦产生丢包沉传,机能会急剧降落 。在传统网络模式下,要想实现不丢包最重要的伎俩就是依赖大缓存,但如前文所说,这又与低延时矛盾了 。因而,在RDMA网络环境中,必要实现的是较幼Buffer下的不丢包 。

在这个限度前提下,RDMA实现无损重要是依赖基于PFC和ECN的网络流控技术 。

• RDMA无损网络的关键技术:PFC

 

PFC(Priority-based Flow Control),基于优先级的流量节造 。是一种基于队列的反压机造,通过发送Pause帧通知上游设备暂停发包来预防缓存溢出丢包 。

 

iSlot官方网站 - 引领潮水

▲ PFC工作机造示意图

 

PFC允许单独暂停和沉启其中肆意一条虚构通路,同时不影响其它虚构通路的流量 。如上图所示,当队列7的Buffer亏损达到设置的PFC流控水线,会触发PFC的反压: 

  • 本端互换机触发发出PFC Pause帧,并反向发送给上游设备;
  • 收到Pause帧的上游设备会暂停该队列报文的发送,同时将报文缓存在Buffer中;
  • 若是上游设备的Buffer也达到阈值,会持续触发Pause帧向上游反压;
  • 最终通过降低该优先级队列的发送速度来预防数据丢包;
  • 当Buffer占用降低到复原水线时,会发送PFC解除报文 。

 

• RDMA无损网络的关键技术:ECN

ECN(Explicit Congestion Notification):显示拥塞通知 。ECN是一个极度古老的技术,只是之前使用的并不普遍,该和谈机造作用于主机与主机之间 。

ECN是报文在网络设备出口(Egress port)产生拥塞并触发ECN水线时,使用IP报文头的ECN字段象征数据包,批注该报文遇到网络拥塞 。一旦接管服务器发现报文的ECN被象征,立刻产生CNP(拥塞通知报文),并将它发送给源端服务器,CNP新闻里蕴含了导致拥塞的Flow信息 。源端服务器收到后,通过降低相应流发送速度,缓解网络设备拥塞,从而预防产生丢包 。

通过之前的描述能够相识到,PFC和ECN之所以能够实现网络端到端的零丢包,是通过设置分歧的水线来实现的 。对这些水线的合理设置,就是针对互换机MMU的精密化治理,通俗讲就是对互换机Buffer的治理 。接下来我们具体分析下PFC的水线设置 。

 

PFC水线设置

互换芯片都有固定的Pipeline(转发流水线), Buffer治理处于入芯片流程和出芯片流程的中央地位 。报文处于在这个地位上时,已经知路了该报文的入口和出口信息,因而逻辑上就能够分成入方向和出方向别离对缓存进行治理 。

PFC水线是基于入方向缓存治理进行触发的 。芯片在入口方向提供了8个队列,我们能够将分歧优先级的业务报文映射到分歧的队列上,从而实现对分歧优先级的报文提供分歧的Buffer分配规划 。

iSlot官方网站 - 引领潮水

▲ 队列Buffer的组成部门

 

具体到每个队列,其Buffer分配凭据使用场景设计为3部门:保障缓存,共享缓存,Headroom 。

  • 保障缓存:每个队列的专用缓存,确保每个队列均有肯定缓存以保障根基转发;
  • 共享缓存:流量突发时能够申请使用的缓存,所有队列共享;
  • Headroom:在触发PFC水线后,到服务器响应降速前,还能够持续使用的缓存 。

 

• 保障缓存设置

保障缓存是一个静态水线(固定的、独享的) 。静态水线的利用率极度低,资源亏损却极度大 。我们在现实部署时建议不分配保障缓存,以削减这部门的缓存亏损 。这样,入方向报文直接使用共享缓存空间,可提高Buffer的利用率 。

 

• 共享缓存设置

对于共享缓存的设置,必要选取更为矫捷的动态水线 。动态水线能凭据当前空闲的Buffer资源,以及当前队列已使用的Buffer资源数量来决定能否持续申请到资源 。由于系统中空闲共享Buffer资源与已使用的Buffer资源都是时刻变动的,因而阈值也处于不休改观中 。相对于静态水线,动态水线能更矫捷、有效的利用Buffer及预防造成不用要的浪费 。

iSlot官方网站网络互换机支持基于动态的方式进行Buffer资源的分配,对共享缓存的设置分为11档,动态水线alpha值=队列可申请缓存量/渣滓共享缓存量 。队列的α值越大,其在共享缓存中可使用的百分数占比也就越高 。

 

iSlot官方网站 - 引领潮水

▲共享水线α值与可使用率对应关系

 

我们不妨分析一下:

队列的α值设置越幼,其最大可申请的共享缓存占比就越幼 。当端口拥塞时就会越早触发PFC流控,PFC流控生效后队列降速,能够很好地确保网络不丢包 。

但从机能的角度看,过早触发PFC流控,会导致RDMA网络吞吐降落 。因而我们在MMU水线设置时必要拔取一个平衡值 。

PFC水线到底设置几多,是一个极度复杂的问题,理论上不存在一个固定的值 。现实部署时,必要我们具体分析业务模型,并搭建测试环境进行水线调优,找到匹配业务的最相宜的水线 。

 

• Headroom设置

Headroom:顾名思义,就是头部空间的意思,是在PFC触发后,到PFC真正生效这一段功夫,用来缓存队列报文的 。Headroom设置多大相宜 ?这里与4个成分有关:

  • PG检测到触发XOFF水线,到机关PFC帧发出的功夫(这里重要跟配置的检测精度以及均匀队列算法有关,固定配置是固定值)
  • 上游收到PFC Pause帧,到终场队列转发的功夫(重要跟芯片处置机能有关系,互换芯片现实上是固定值)
  • PFC Pause帧在链路上的传输功夫(跟AOC线缆/光纤距离成正比)
  • 队列暂停发送后链路中报文的传输功夫(跟AOC线缆/光纤距离成正比)

 

因而Headroom所必要的缓存大幼,我们能够凭据组网的架构,以及流量模型测算得出 。以100米光纤线 + 100G光 ?,缓存64字节幼包,推算出所需的Headroom大幼是408个cell(cell是缓存治理的最幼单元,一个报文会占用1个或者多个cell),现实测试数据也吻合 。当然,思考肯定的冗余性,Headroom设置建议比理论值稍大 。

 

RDMA网络实际

iSlot官方网站网络在研发中心搭建了仿照真实业务的RDMA网络,架构如下:

iSlot官方网站 - 引领潮水

▲iSlot官方网站网络RDMA组网架构

 

  • 组网模型:大主题三级组网架构,主题选取高密100G线卡;
  • POD内:Spine选取提供64个100G接口的 BOX设备,Leaf选取提供48个25G接口+8个100G接口的BOX设备;
  • Leaf作为服务器网关,支持和服务器间基于PFC流控(鉴别报文的DSCP并进行PG映射),同时支持拥塞ECN象征;
  • RDMA仅运行于POD内部,不存在跨POD的RDMA流量,因而主题无需感知RDMA流量;
  • 为了预防拥塞丢包,必要在Leaf与Spine之间部署PFC流控技术,同时Spine设备也必要支持基于拥塞的ECN象征;
  • Leaf和Spine设备支持PFC流控帧统计、ECN象征统计、拥塞丢包统计、基于队列的拥塞统计等,并支持将统计信息通过gRPC同步到远端gRPC服务器 。

 

写在最后

iSlot官方网站网络在研发中心搭建了仿照真实业务的浸泡组网环境(蕴含RG-S6510、RG-S6520、RG-N18000-X系列25G/100G网络设备、大型测试仪、25G服务器) 。在叠加了多种业务模型,并进行了长功夫浸泡测试后,我们对于RDMA网络的MMU水线设置已有一些推荐的经验值 。此表,在RDMA网络中,还存在一些部署难点,好比多级网络中 PFC风暴、死锁问题、ECN水线设计复杂问题等 。对于这些问题,iSlot官方网站网络也有一些钻研和堆集,等待与各人共同探求 。

 

本期作者:颜晓波

iSlot官方网站网络互联网系统部行业征询

iSlot官方网站 - 引领潮水

 

往期杰出回首  

【第一期】浅谈物联网技术之通讯和谈的纷争

【第二期】若何通过网络遥测(Network Telemetry)技术实现精密化网络运维 ?

【第三期】畅谈数据中心网络运维自动化

【第四期】基于Rogue AP反造的无线安全技术探求

【第五期】流量可视化之ERSPAN的前世今生

【第六期】若何实现数据中心网络架构“去”堆叠

【第七期】运维可视化之INT职能详解

 

有关推荐:

• 若何为RDMA构建无损网络

更多技术博文

任何必要,请联系iSlot官方网站

iSlot官方网站 - 引领潮水

返回顶部

收起
iSlot官方网站 - 引领潮水 文档AI副手
iSlot官方网站 - 引领潮水 文档评价
ev-close ev-close-m
该资料是否解决了您的问题 ?
ev-close ev-close-m
您对当前页面的中意度若何 ?
不咋滴
极度好
dark-star dark-star dark-star dark-star dark-star
ev-close ev-close-m
您中意的原因是(多 。 ?
您对文档是否还有其它的问题或建议 ?
为尽快解决问题,请您留下联系方式以便回复
邮箱
手机号
ev-bg
感激您的反 。
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】