iSlot官方网站

无线新履历,不变如磐石 丨 高校关键场景高密无线优良实际分享会
date
预约直播
从此,无线可“磐石" 丨 iSlot官方网站磐石无线解决规划场景颁布会
date
预约直播
iSlot官方网站 - 引领潮水
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
iSlot官方网站 - 引领潮水

您订阅的产品有更新,请实时查阅

查看详情
iSlot官方网站 - 引领潮水 iSlot官方网站 - 引领潮水

技术盛宴 | 浅谈LLM推理机能的影响因子——HBD Size

作为GenAl时期的全栈服务专家,iSlot官方网站网络致力于为企业提供覆盖laaS到PaaS的全栈产品及解决规划。

  • iSlot官方网站 - 引领潮水

    颁布功夫:2024-05-31

  • iSlot官方网站 - 引领潮水

    点击量:

  • iSlot官方网站 - 引领潮水

    点赞:

分享至

iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水

我想评论

随着LLM(大说话模型)技术的飞速发展,市面上出现越来越多的AGI利用,对话式机械人作为最普遍的利用已经深刻普罗公共的工作和进建中。最显著的扭转就是从搜索引擎查问问题,转变为打开多款对话式机械人的APP进行查问,而后再综合多个解答进行自己的判断。

那么,“对话式机械人”这类利用是若何凭据用户的输入,来进行有逻辑的高质量内容输出的呢?其性质是:先通过大量的“训练”工作使其具备可能理解用户说话、逻辑和思想的能力,再通过用户给出的输入进行“推理”运算,进而输出对应的内容与用户进行高质量互动。 

一、训练与推理的关系

LLM(大型说话模型)的训练和推理是模型性命周期中的两个关键阶段,我们能够类比成理论进建和利用实际的结合。

1.训练阶段(进建阶段):

该阶段是模型构建的基础,决定了模型的质量和利用成效。

1)在训练阶段,LLM通过大量的文本数据进建说话的模式、语法、语义和高低文信息。

2)使用深度进建技术,如神经网络,模型在训练过程中不休优化其参数,以提高对文本数据的建模能力。

2.推理阶段(利用阶段):

该阶段不涉及参数更新,将训练学到的知识利用到现实问题上。

1)推理阶段是支使用训练好的模型对新的输入数据进行处置,以天生输出或做出决策的过程。

2)在推理过程中,模型会接管新的文本输入,预测或天生文本,执行翻译,或者实现其他特定的NLP工作。

3.差距性:

1)指标:训练和推理都旨在实现模型的最佳机能,但训练侧沉于进建,推理侧沉于利用。

2)可用性:训练阶段的成效会直接影响推理阶段了局的可用性。

3)资源亏损:训练通常必要大量的推算资源和数据,而推理则更注沉实时性、成本和可扩大性。

4)持续进建:推理阶段的反馈能够用于改进模型,通过持续进建或增量进建的方式,使模型适应新的数据和场景。
 

二、推理的过程

主流 LLM 根基都是 Decoder Only 的 Transformer 模型,推理过程能够分为两个阶段:

 

Transformer 模型结构图 

Transformer 模型结构图

 

1.“预填充(Prefill)”阶段:

Prefill阶段是模型凭据用户输入的Tokens通过一次前向传布来天生第一个输出 Token。在前向传布过程中,输入的Tokens之间以并行方式执走运算,所以具备比力高的执行效能。

2.“解码(Decoding)”阶段:

在Prefill阶段天生第一个 Token(A)之后起头进入Decoding阶段。在Decoding阶段中,解码器会以自回归的方式逐个天生输出序列的词元。在每一步,它基于已天生的词元和之前的状态来预测下一个词元,直到天生一个特殊的 Stop Token(或者满足用户设置的某个限度前提,好比超过肯定的长度) 天生过程就会终场。Decoding阶段必要执行屡次前向传布,并且只能以串行的方式执行,因而效能相对比力低。

两个阶段对算力芯片的要求也分歧,Prefill阶段为推算密集型,适合选用高算力 GPU;Decoding阶段为访存密集型,相应的能够使用算力不是出格强而访存带宽比力大的 GPU。

 

三、推理的评估指标

针对 LLM 推理服务通常有两种挪用模式,如下表所述:

 

针对 LLM 推理服务通常有两种挪用模式

 

类似ChatGPT 一样的 Streaming 方式,目前利用比力宽泛,重要由于能够给用户带来更好的交互履历,不必要长功夫期待即可获得系统反馈,因而本文以Streaming模式下的评估指标来进行分析。

1.首个词元天生功夫(Time To First Token,简称TTFT):

在用户输入查问的内容后,模型天生第一个输出token所必要的功夫。

2.单个输出词元的天生功夫(Time Per Output Token,简称TPOT):

推理系统凭据用户要求天生后续词元所必要的均匀功夫。在人机实时交互的过程中,让用户得到急剧的响应至关沉要,延时较高会让客户陷入较长的期待功夫,大大影响交互履历,但只有天生速度大于人类的阅读速度就能获得很好的用户履历。

3.Decoding吞吐:

通常用来衡量推理服务器在decoding阶段的输出效能,即decoding阶段的所有Token数量除以该阶段所必要的耗时。

4.单卡吞吐:

通常用来衡量推理服务器实现本次推理工作的输出效能,即在Prefill阶段以及decoding阶段总共天生的Token数量除以整个推理工作所必要的耗时。

 

四、推理机能的影响成分

影响LLM推理机能的因子有很多,本文沉点分析分歧HBD Size域在分歧集群规模以及分歧推算精度下对推理机能的影响。

1.推算精度:

指浮点数(Floating Point Numbers)的分歧精度,好比FP16、FP8、FP4。

2.事俘规模:

实现本次推理工作所必要的GPU卡数量。

3.HBD (High Bandwidth Domain)Size:

一个推理事俘内,通过独立的高速通路形玉成联接的GPU卡的数量。(跨服务器通过互换柜互联也算统一个HBD)

我们基于理论建模的和仿真算法,通过节造变量的对譬喻式,在保障单一因子变动的前提下去分析推算精度、集群规模以及HBD Size对推理机能的影响。

测试模型选取B200算力卡进行仿照仿真,基于QWen 110B的基础上扩大16个MoE专家,Batch Size为16,Token输入序列为32K,同时如果HBD内通过1.8TB/s的双向带宽互联。

 

HBD (High Bandwidth Domain)Size 

如上图数据所示,发现以下景象:

64张B200的GPU卡规模下,组成该推理事俘时。在上述模型推理中,HBD Size从8提升至64,TTFT最大降落46%,单卡吞吐最大提升41%。

因而能够得出结论:HBD Size对推理机能有正面作用,即高速互联的GPU卡数量越多,推理机能越强。

 

HBD (High Bandwidth Domain)Size

 

如上图数据所示,发现以下景象:

128张B200卡的GPU规模组成推理事俘时,在上述模型推理中,HBD Size从8提升至128,TTFT最大降落57%,单卡吞吐最大提升59%;同样证明HBD Size的提升对推理机能有正面作用。

对比上述两份数据,发现以下景象:

从64卡扩大到128卡规模时,TTFT指标从降落46%变动为降落57%,收益更显著;再如单卡吞吐从提升41%变动为提升59%,收益更显著。

因而能够得出结论:当选取更大规模GPU卡时,HBD Size扩增机遇能收益提升趋于显著。

 

HBD (High Bandwidth Domain)Size

 

从上述表格数据中,我们发现以下景象:

同为128卡规模下,FP16精度下随着HBD Size提升,Prefill与Decoding阶段的通讯功夫占比逐步降落,这种景象在FP8和FP4精度下也同样存在。

当选取更低推算精度时,FP16精度下从8卡提升到128卡,单卡吞吐提升倍率为1.36;而在FP4精度下从8卡提升到128卡,单卡的吞吐提升倍率为1.63。

因而能够得出结论:在更低的推算精度下,HBD Size扩增机遇能收益提升趋于显著。

五、结论

1、在一样集群规模和同样的推算精度下,随着HBD Size的提升,推理机能也随之提升。具体阐发为TTFT降低,Decoding吞吐及单卡吞吐提升。

2、在一样推算精度下,集群规模越大,HBD Size的提升收益愈发显著。具体阐发为TTFT降低幅度更大,Decoding吞吐及单卡吞吐提升幅度更大。

3、在一样集群规模下,推算精度越低,HBD Size的提升收益愈发显著。具体阐发为Prefill与Decoding阶段的通讯功夫占比逐步降落幅度越慢,单卡吞吐提升倍率幅度越大。

iSlot官方网站网络,作为GenAI时期的全栈服务专家,致力于为企业提供覆盖IaaS到PaaS的全栈产品及解决规划。iSlot官方网站产品覆盖高机能网络与GPU算力优化调度,旨在通过创新技术解决规划,援手客户实现出产效能的飞跃与运营成本的优化。我们坚信,通过iSlot官方网站致力,可能为客户打造一个越发智能、高效和靠得住的未来。让我们携手,共同索求GenAI时期的每一个机缘。

有关标签:

iSlot官方网站 - 引领潮水 iSlot官方网站 - 引领潮水

点赞

更多技术博文

任何必要,请联系iSlot官方网站

iSlot官方网站 - 引领潮水

返回顶部

收起
iSlot官方网站 - 引领潮水 文档AI副手
iSlot官方网站 - 引领潮水 文档评价
ev-close ev-close-m
该资料是否解决了您的问题?
ev-close ev-close-m
您对当前页面的中意度若何?
不咋滴
极度好
dark-star dark-star dark-star dark-star dark-star
ev-close ev-close-m
您中意的原因是(多。?
您对文档是否还有其它的问题或建议?
为尽快解决问题,请您留下联系方式以便回复
邮箱
手机号
ev-bg
感激您的反。
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
iSlot官方网站 - 引领潮水
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】