您订阅的产品有更新,请实时查阅
查看详情
颁布功夫:2017-12-22
近日,工信部印发《推进新一代人为智能产业发展三年行动打算(2018-2020年)》,意在加快人为智能从战术到落地,推动人为智能和实体经济深度融合。在新工业革命的布景下,大数据、推算力、算法等急剧迭代,正驱动人为智能进入新阶段。2017年Q3,全球AI公司融资金额突破77亿美元,是2012年的70余倍?赡芑嵊腥怂嫡馐“泡沫”,而我更愿意相信这是人为智能发展的必然了局。
在AI技术的利用过程中,各个企业都在寻找可能更好支持高机能推算的基础网络解决规划。在《数据中心基础网络架构成功实际及未来发展趋向》这篇文章中,我分享了若何设计一个不变靠得住的数据中心网络,下面我们再来探求支持AI利用的高机能无损网络应该若何设计。
前面提到大数据、推算力、算法等急剧迭代,正驱动人为智能进入新阶段,而这些技术的实现对网络的低时延、无丢包、高机能这三个方面提出更高要求。
▲ AI利用的技术系统及对数据中心网络的要求
高机能和无丢包比力好理解,就是指网络带宽机能的提升以及网络中不存在拥塞导致的丢包。产生时延的环节较多,要实现端到端的低时延,必要多角度分析:
其中,光电传输时延和数据串行时延相对较幼,且很难通过架构设计来优化,我们应沉点关注主机处置时延和设备转发时延。在各大企业积极追求的高机能推算规划中,基于以太网的RDMA(Remote Direct Memory Access)凭借其高机能和低成本优势逐步取代InfiniBand而成为主流技术。RoCEv2(RDMA over Converged Ethernet)技术基于UDP和谈,对于建设支持AI利用的高机能无损以太网络变得尤为沉要。
结合设备转发层面的时延优化伎俩,高机能无损网络的实现取决于两个身分:
综上,AI集群高机能推算和网络规划实际思路如下图所示:
▲ AI集群高机能规划关键技术组合
在这里,我以25G网络为例,结合业界主流产品状态,分享AI网络架构设计和实现思路。
重要设计理想:
网络架构设计:
1.中幼型(集群规模1000台)
▲ 架构设计
架构个性:
2.中型(集群规模2000台)
▲ 架构设计
架构个性:
3.大型(集群规模2000-18000台)
▲ 架构设计
架构个性:
4.超大型(集群规模20000+台)
▲ 架构设计
架构个性:
在数据中心网络中,PFC和ECN职能将部署在Leaf和Spine设备上。PFC作用于设备互联端口,通过反压影响上游端口队列的发送速度,而ECN是作用在设备转发过程,最终影响的是数据流的发送方,通过降低某条数据流发送速度躲避数据丢包。
从表卖订单和叫车订单的智能调度,到电商平台的智能推荐,再到人脸鉴别支付以及即将实现的全自动无人驾驶汽车量产,AI技术的利用已在方方面面影响着人们的生涯和工作,让各人的生涯越来越便捷、功夫利用越来越合理。但是,这都离不开基础设施的支持。iSlot官方网站网络将凭借在数据通讯领域近20年的技术堆集和行业经验,创新出更好的产品和解决规划,助力AI技术的蓬勃发展。
