ZCube – 智谱AI联合清华推出的下一代大模型推理网络架构

Al项目 2026-05-21 12:00:13 AI导航网

ZCube是什么

ZCube是智谱AI联合驭驯网络与清华大学推出的下一代大模型推理网络架构,专为解决PD分离部署中的结构性网络拥塞设计。架构取消传统Spine层交换机,采用全网扁平化拓扑与单/多轨混合接入机制,实现全局流量解耦与离散化路由。在GLM-5.1 coding生产环境实测中,ZCube在保持GPU和软件栈不变的前提下,将交换机与光模块资本支出降低33%,GPU平均推理吞吐提升15%,TTFT P99降低40.6%。

ZCube的主要功能

  • 取消Spine层的扁平化组网:打破传统Clos架构层次化堆叠思路,保留Leaf交换机层并通过完全二部图互联,将网络直径从3跳压缩至2跳。

  • 单/多轨混合接入机制:一组Leaf交换机用单轨方式连接连续标号的GPU,另一组用多轨方式连接相同标号的GPU,使PD分离产生的动态不对称流量天然离散化。

  • 全局负载均衡路由:ZCube路由策略确保任意GPU对之间仅存在一条唯一最优路径,避免多路径选路引发的流量冲突,在训练和推理场景均实现全网理想负载均衡。

  • 结构性拥塞消除:通过架构层创新将KV Cache跨节点传输流量进行全局解耦与离散化,从根本上消除局部热点链路和PFC反压。

ZCube的技术原理

  • 完全二部图拓扑:将Leaf交换机按奇偶分为两组,组内交换机互不连接,组间每台交换机与另一组所有交换机全连接,形成扁平化网络。

  • 双端口差异化接入:每张GPU网卡的两个端口分别用单轨(连接奇数交换机)和多轨(连接偶数交换机)方式接入,用数学映射公式实现确定性路由。

  • 确定性最短路径路由:基于GPU编号与交换机编号的模运算和向上取整映射,确保任意两GPU之间仅有一条经过两台Leaf交换机的最优路径。

  • 流量模式适配:针对PD分离产生的源-目的不对称、动态变化的KV Cache传输特征,通过拓扑结构本身实现流量天然分散,无需依赖自适应路由或报文喷洒等传输层机制。

如何使用ZCube

  • 架构规划:将Leaf交换机按奇偶序号分为两组,设计完全二部图互联拓扑,取消传统Spine层。
  • 端口接入配置:为每张GPU网卡的双端口分别配置单轨与多轨混合接入策略,连接至对应奇偶交换机。
  • 自动化部署:用ZCube控制器、机房布局设计工具和连线正确性检测程序,完成配置自动生成与批量下发。
  • 生产验证:在推理服务上线前进行带宽、时延和PFC事件监控,确认无结构性拥塞热点后正式切流。

ZCube的核心优势

  • 成本显著降低:相同规模下比Clos/ROFT减少约33%的交换机和光模块投入,万卡智算集群可节省网络硬件投资约2.1亿至6.4亿元。

  • 推理性能提升:在GLM-5.1 coding生产实测中,GPU平均推理吞吐提升15%以上,TTFT的P99分位数下降40.6%。

  • 超强扩展能力:基于现有51.2T交换机可构建连接16384块400Gbps网卡的扁平网络,通过多平面划分可支持数万至数十万GPU互联。

  • 零侵入式升级:无需改动GPU硬件、软件栈或应用逻辑,仅通过网络架构层调优即可释放现有硬件潜能。

ZCube的项目地址

  • 项目官网:https://z.ai/blog/zcube

ZCube的同类竞品对比

对比维度ZCubeROFT(Rail-Optimized Fat-Tree)
网络架构扁平化二部图,取消Spine层两层Fat-Tree,保留Spine层
网络直径2跳3跳
负载均衡全局理想均衡,单路径无冲突静态Rail映射,推理场景易失衡
拥塞控制从架构层消除结构性拥塞易产生局部热点和PFC反压
硬件成本降低33%交换机和光模块标准Clos成本
推理吞吐提升15%基准
TTFT P99降低40.6%基准
扩展规模数万至数十万GPU受Spine层容量限制

ZCube的应用场景

  • 超大规模LLM推理集群:适用PD分离部署的千卡至万卡级推理集群,解决KV Cache跨节点传输导致的网络瓶颈。

  • 长上下文推理服务:架构能有效缓解长序列场景下网络带宽对首Token时延和整体吞吐的制约。

  • 高密度智算中心:为训练与推理混合负载提供高均衡、低时延、高带宽利用率的网络底座。

  • MaaS云服务平台:架构能降低推理服务综合成本,提升多租户高并发场景下的尾时延稳定性。

© 版权声明

相关文章