> **来源:[研报客](https://pc.yanbaoke.cn)** # 智谱发布GLM-5.1高速版总结 ## 核心内容 智谱于2026年5月22日面向部分企业客户开放了GLM-5.1高速版API,该版本在保持旗舰级模型能力的同时,实现了极高的推理速度,输出速度达到400 tokens/s,是当前全球大模型API中速度最快的版本之一。这一突破标志着国产大模型在速度与能力的平衡上迈出了重要一步,为AI应用的生产化落地提供了更强的技术支撑。 ## 主要观点 - **速度与能力并重**:GLM-5.1高速版打破了行业“高速即轻量、速度必牺牲模型质量”的固有认知,实现了在不降低模型智商的前提下,大幅提升推理速度。 - **行业趋势转变**:模型行业正从单纯的参数竞赛转向系统级推理优化与生产落地的综合竞争。GLM-5.1高速版的推出表明,厂商开始更加注重推理效率和实际应用场景的适配性。 - **应用场景拓展**:该版本特别适用于对响应延迟要求极高的场景,如AI编程、实时交互、商业决策等,尤其对AI agent的长程任务执行能力有显著提升。 - **技术实现创新**:GLM-5.1高速版基于TileRT推理引擎,通过改变传统推理框架的调度方式,将整个计算流程“焊死”在GPU上,从而减少调度时间成本,提升GPU利用率。 ## 关键信息 - **速度提升**:GLM-5.1高速版输出速度达到400 tokens/s,相较普通版(约40-60 tokens/s)提升近7倍。 - **能力保留**:完整继承GLM-5.1的长程智能体工程和代码能力,确保模型在高速推理下不损失智能水平。 - **技术团队**:由智谱GLM团队与TileRT团队联合打造,其中TileRT推理引擎是核心技术创新点。 - **行业对标**:其速度超越Gemini 3.5 Flash(约289 tokens/s),在顶流模型中处于领先地位。 - **应用场景**:适用于AI编程、实时交互、商业决策等对延迟敏感的场景,推动AI agent向“实时生产级协作”发展。 ## 风险提示 - **国产AI模型发展不及预期**:若国产大模型在技术或市场推广上未能达到预期效果,可能影响整体行业进展。 - **数据中心建设放缓**:数据中心建设进度受宏观经济、政策等因素影响,可能对大模型的部署和应用带来挑战。 ## 免责声明 本报告内容仅供参考,不构成对所述证券的推荐、邀约或邀约邀请。读者不应依赖本报告内容作出投资决策,投资涉及风险,海通国际不对因此产生的任何损失承担责任。完整研究报告请参见海通国际研究网站(www.equities.htisec.com)或联系其销售人员。