尊龙时凯

工厂研学 丨 尊龙时凯网络数字化智能工厂“黑科技”大揭秘
预约直播
乐享业务保障服务 丨 守护医疗业务连续稳定
预约直播
产品
< 返回主菜单
产品中心
产品
解决方案
< 返回主菜单
解决方案中心
行业
合作伙伴
返回主菜单
选择区域/语言

解密DeepSeek-V3推理网络:MoE架构如何重构低时延、高吞吐需求?

DeepSeek-V3发布推动分布式推理网络架构升级,MoE模型引入大规模专家并行通信,推理流量特征显著变化,Decode阶段对网络时度敏感。网络需保障低时延与高吞吐,通过端网协同负载均衡与拥塞控制技术优化性能。高效运维实现故障快速定位与业务高可用,单轨双平面与Shuffle多平面组网方案在低成本下满足高性能推理需求,为大规模MoE模型部署提供核心网络支撑。

  • 发布时间:2025-10-27

  • 点击量:

  • 点赞:

分享至

我想评论

一、推理场景和MoE模型引入网络新诉求

2025年初,DeepSeek-V3发布,迅速引发国内外的广泛关注和部署热潮。作为核心基础设施之一,分布式推理网面临全新的需求。整体来看,推理与训练的流量差异、MoE模型架构的引入以及DeepSeek开源技术方案等多重因素,影响了网络建设的方向和要求。

传统稠密模型的训练与推理流量中,95%以上为Tensor Parallel(TP)通信,主要在机内高带宽域通过all-reduce完成,机外低带宽域仅在同号卡间执行低流量的数据并行(DP)和流水线并行(PP)通信。而DeepSeek采用的MoE(Mixture of Experts)模型架构显著改变了流量特征。训练和推理阶段均不采用TP通信,取而代之的是大规模专家并行(EP)通信,训练阶段EP流量占比超过95%,推理阶段则达到100%。EP通信跨越多个高低带宽域,且采用all-to-all通信模式,通信结构复杂且流量巨大,对网络性能提出了更高、更差异化的要求。

DeepSeek模型参数规模达到6710亿,在推理部署中引入了PD分离和大规模EP并行,推动满血版高性能推理走向分布式。相比传统单机推理,分布式推理带来了显著差异,使得推理流量模式与分布式训练更为接近,但两者在流量特征上依然存在明显区别。

通信流量可由以下公式估算:(minibatch大小 × 上下文长度 × 隐藏层维度)× 节点数 × (dispatch_alltoall通信次数 × FP8字节数 + combine_alltoall通信次数 × BF16字节数)× GPU负责的层数。下表统计主要EP流量作为参考。

总通信量 单次通信量
训练 315GB

dispatch:112MB

combine:224MB

推理Prefill 57.09GB

dispatch:168MB

combine:336MB

推理Decode 1218MB

dispatch:3.5MB

combine:7MB

训练场景流量模式固定且明确,单次迭代总流量高达315GB,单次EP通信流量约112MB。

推理场景流量受用户输入影响,波动较大。Prefill阶段以4K上下文、batch size为4计算流量大小,单次迭代总流量约57.09GB,单次通信流量与训练相近;Decode阶段以128并发计算,单次迭代流量显著降低至约1.2GB,单次通信流量仅为几MB,Prefill与Decode阶段流量差异明显。

基于以上全新且复杂的网络需求,深入识别和分析DeepSeek推理网络的关键技术,是保障推理高性能、低成本与高可靠性的关键。下文我们将从低网络时延、高效网络运维和低成本组网角度,展开介绍DeepSeek推理网络关键技术。

二、低时延网络助力推理高吞吐

根据上述流量分析,Decode阶段的单次通信流量仅为3.5MB/7MB。结合DeepSeek官方开源通信库DeepEP的性能,当前场景下Decode阶段的dispatch通信时长在100us内,combine通信时长在200us内。Decode阶段的SLO通常要求低于50ms,但EP通信次数高达116次,每次通信都会导致时延叠加,因此对网络时延提出了很高的要求。综上,在Decode阶段,很少的单次通信流量、很短的通信时长、很高的SLO要求都对网络提出了较低的时延需求。

H800网络时延对Decode吞吐的影响

H20网络时延对Decode吞吐的影响

上图是对4K/1K上下文,1K输出的Decode场景,在H800/H20设备下,以128 batch作为场景,进行的网络时延对Decode吞吐影响仿真。如图所示,当网络侧产生1ms的时延增加时,无论是H800还是H20,在不同的上下文场景下,吞吐都会产生巨大影响,吞吐下降幅度高达80%左右,几乎已经直接导致当前Decode节点不可用。当网络上产生100us的时延时,4K上下文场景下,吞吐下降可能达到20%+。由此可见,Decode节点对网络时延的敏感度很高。在DeepSeek大规模EP并行all-to-all通信模式下,网络时延的主要影响因素是负载均衡和拥塞控制:

如上图所示,在大规模EP的DeepSeek推理场景,EP域的通信可能横跨多个Leaf,流量走向Spine,容易产生典型的ECMP哈希不均问题,导致较高动态时延。且DeepSeek的MoE模型推理易产生实例间负载不一致和实例内专家负载不一致问题,在网络上表现为流量中大小流混合。该现象更容易加剧ECMP不均导致的动态时延问题,不佳的负载均衡策略,在网络上容易引入100us+甚至更高的动态时延。如上文分析,这样的动态时延水平对吞吐的影响可能达到20%+。在DeepSeek官方场景中,采用IB交换机和CX网卡的Adaptive Routing(AR)技术,有效缓解了ECMP负载不均问题。在RoCE环境下,端网协同的负载均衡方案在如此苛刻的低时延要求下,是至关重要的。

此外,MoE模型的大规模专家并行通信本质上是一种all-to-all模式,网络中天然存在incast流量。合理的拥塞控制策略能够避免因流量降速或PFC(Priority Flow Control)触发而带来的高动态时延,保障网络时延的稳定性和推理性能。

三、高效端网运维保障高可用推理业务

慢故障、hang异常

链路故障

随着DeepSeek推理引入大规模专家并行(EP),分布式推理集群面临与训练集群类似的故障挑战。根据Meta公开的研究数据,以1024卡集群为例,平均每7.9小时会发生一次故障。结合故障对推理的影响,可将故障类型归纳为三类:

慢节点异常:故障发生后推理任务不中断,但部分节点或阶段性能下降,导致整体推理被拖慢,表现为慢节点效应。

Hang异常:故障导致推理长时间卡顿于某一阶段,任务无法继续推进,但整体推理仍未中断。

链路故障:链路中断直接导致整个推理实例退出。

在慢节点异常和短时间Hang异常场景下,虽然推理任务仍在运行,但推理性能显著受损,TTFT(Time To First Token)和TPOT(Time Per Output Token)指标明显恶化,吞吐量可能下降50%以上。因此,针对慢故障和Hang异常的实时监控、快速定位与排查,对于保障推理性能具有重要价值。

而在长时间Hang异常或链路故障导致推理实例直接退出的情况下,业务影响更为严重。对于大规模实例部署环境,可通过请求快速切换至其他健康实例,虽可能牺牲部分用户体验,但能保障业务连续性。相较之下,少量实例部署(如单个Decode实例)发生故障时,往往直接导致业务中断,严重影响稳定性和用户体验。因此小规模场景下,故障的定位、逃生和规避,是保障业务可用性的关键手段。

四、高性价比推理组网压榨百万token成本

1.双口网卡双平面组网:

单轨双平面组网

基于上述对网络低时延和高可靠性的需求,采用如图所示的单轨双平面组网方案,能够最大程度保障性能与可靠性。相比传统CLOS架构,该方案在性价比方面更具优势。具体特点如下:

优势:

网络结构简洁:流量集中于Leaf交换机,降低跨交换机通信复杂度,显著减少时延。

成本效益高:支持铜缆互联,减少交换机数量,整体网络投入更低。

时延低:数据面链路最长仅为2跳,最大跳数为1跳,确保低时延传输。

流控需求低:无负载均衡问题,流量走单一路径,简化流控设计。

易于扩展:新增节点无需增加二层网络,支持集群横向扩展。

Bond适配性强:采用bond双平面组网提升网络可靠性,且由于无二层组网,bond方案不会带来额外交换机成本。

劣势:

灵活性受限:Prefill或Decode实例不可跨Leaf部署,单实例最大规模受限于256卡。

兼容性不足:组网针对推理流量特性优化,难以兼容训练与推理一体化场景。

KV Cache传输依赖存储网:在采用PD分离部署时,如果存在跨Leaf的PD实例,则必须配备存储网络以支持KV Cache传输。

2.Shuffle多平面组网:

基于双网口网卡的双平面组网方案,单Pod最大规模受限于256卡,导致灵活性不足。为突破这一瓶颈,在Server与交换机之间引入Shuffle(光交叉盒),实现物理层面的分光。依托400Gbps网卡和TH5芯片交换机,组网方案升级为四平面,单Pod最大规模扩展至512卡,满足绝大多数推理部署需求。此方案支持更大规模的EP并行和PD实例数量增加,且PD实例无需跨Pod调度,大幅提升Pod内组网灵活性,显著降低对KV Cache存储网络的依赖。

未来,随着800Gbps网卡和TH6芯片交换机的应用,Shuffle多轨方案可拓展至8轨。在保证单GPU享有800Gbps带宽的前提下,单Pod最大规模可扩展至1024卡,满足超大规模推理服务需求。该方案在无二层组网架构下,依然提供很高的PD分离部署灵活性,PD实例无需跨Pod调度,也无需KV Cache传输专用网络,实现了卓越的性价比与性能。

总结

DeepSeek MoE模型的分布式推理部署带来了推理网络架构和性能保障的全新挑战。推理阶段的通信模式和流量特征与传统训练存在显著差异,尤其是Decode阶段对网络时延敏感,要求网络具备低时延和高吞吐能力。端网协同的负载均衡算法和拥塞控制技术是保障网络性能的关键。与此同时,推理业务高可用性要求完善的故障监控、快速定位和故障逃生策略。针对这些需求,设计简洁高效且具备高可靠性的单轨双平面组网方案,能够在保证性能的同时降低成本。未来,随着DeepSeek及类似大规模MoE模型的广泛部署,推理网络的优化和创新将成为核心竞争力。

相关标签:

点赞

更多技术博文

任何需要,请联系我们

返回顶部

收起
文档评价
该资料是否解决了您的问题?
您对当前页面的满意度如何?
不咋滴
非常好
您满意的原因是(多选)?
您不满意的原因是(多选)?
您是否还有其他问题或建议?
为了快速解决并回复您的问题,您可以留下联系方式
邮箱
手机号
感谢您的反馈!
请选择服务项目
关闭咨询页
售前咨询 售前咨询
售前咨询
售后服务 售后服务
售后服务
意见反馈 意见反馈
意见反馈
更多联系方式