观焦点：智谱(02513)首次披露GLM-5 Coding Agent推理工程实践

来源: 智通财经 ┆ 时间: 2026-04-30 10:09:16

(资料图)

智通财经APP获悉，智谱(02513)公众号发文，首次系统披露GLM-5系列模型在超大规模Coding Agent调用场景下的底层推理技术突破。包括两个关键Bug的定位及修复、一项性能优化创新、以及一个意外的监控机制突破。针对Context Parallel策略中的KV Cache冗余存储问题，智谱设计实现了KV Cache分层存储方案 LayerSplit，这一优化直接大幅提升智谱在Coding场景下的服务能力上限。此外，公司推理优化还在进一步加速，大幅提升单位算力token吞吐效率，降低推理成本。

智谱表示，当智能真正进入高并发、长上下文的 Coding Agent 场景后，推理基础设施的挑战已经不只是吞吐、延迟和可用性，维护它的输出质量变得至关重要。每一次对 Scaling Law 的追求，都必须有同等强度的系统工程作为支撑。

经过数周的推演、排查与压测，公司最终定位并修复了几个相互独立的底层竞态 Bug，并对其中所反映的系统瓶颈进行了针对性优化，显著提高了推理系统的稳定性和效率。

本次披露的工程突破具备明确的技术深度——团队不仅在自有推理链路中定位并修复了PD分离架构下的KV Cache跨节点复用竞态，更进一步在主流开源推理框架SGLang的源代码层面发现并修复了HiCache模块的加载时序缺失(read-before-ready)问题，修复方案被SGLang开源社区采纳，其底层基础设施能力不仅服务于自身模型，也正在成为大模型行业的公共基础设施之一。

从线下复现到异常识别

自 3 月起，在 GLM-5 的线上监控和用户反馈中观察到三类异常现象：