GLM-5架构曝光，智谱股价两天暴涨60%：采用DeepSeek同款稀疏注意力！-平芜编程栈

来源：量子位

不管Pony Alpha是不是智谱的，下一代旗舰大模型GLM-5都要来了。

GitHub代码确认，新一代架构细节曝光。

GLM-5采用了DeepSeek-V3/V3.2架构，包括稀疏注意力机制（DSA）和多Token预测（MTP），总参数量745B，是上一代GLM-4.7的2倍。

与此同时，OpenRouter平台上突然出现的神秘匿名模型「Pony Alpha」，编程和推理能力极为强劲，被社区91%以上的用户判断为GLM-5测试版。

受这些消息影响，智谱AI港股两日暴涨60%。

开源代码泄露参数架构

GLM-5的架构信息并非来自智谱官方，而是被开源社区从代码提交中“挖”出来的。

在vLLM推理框架的PR中，开发者发现GLM-5的实现逻辑被直接映射到了DeepSeek-V3的组件上。

GLM-5继承的第一项核心技术是DeepSeek稀疏注意力（DeepSeek Sparse Attention，DSA）。

DSA通过两阶段流程做到长文本处理效率大幅提升，输出质量几乎不受影响。

首先由Lightning Indexer轻量级组件快速扫描所有历史token并打分，评估它们与当前query token的相关性；然后只挑选得分最高的Top-k个token进行完整的注意力计算，其余全部跳过。

第二项技术是多Token预测（Multi-Token Prediction，MTP），用于提升模型的生成效率。

从代码中推断出的架构参数看，GLM-5包含78层隐藏层，采用MoE（混合专家）架构，共256个专家，每次推理激活8个，激活参数约44B，稀疏度5.9%，与DeepSeek-V3.2的5.4%基本持平。

上下文窗口支持最高202K token。

有开发者指出，复用DeepSeek架构意味着GLM-5可以直接受益于vLLM、SGLang等推理框架已有的优化，部署门槛会更低。

但也有人提出疑问：DeepSeek-V3架构以纯文本为主，GLM-5首发版本是否会因此缺失多模态能力？

匿名测试与春节档大混战

2月初，OpenRouter平台上新匿名免费模型，代号「Pony Alpha」，支持200K上下文窗口。

模型一上线就引起了开发者社区的广泛关注，它的编程能力非常突出，能根据单条提示直接生成完整的功能性应用程序，在复杂推理和Agent工作流上同样表现出色。

“这到底是谁家的模型”迅速成为社区热议话题。

指向GLM-5的证据链覆盖了多个维度：

时间上，「Pony Alpha」出现的节点与智谱首席科学家唐杰多次暗示的GLM-5发布窗口完全吻合。

有开发者测试发现该模型对特定token的反应和GLM系列一致。

风格上，它的输出排版习惯也与GLM系列高度一致。

GLM-5的发布窗口，恰好撞上了一个异常拥挤的档期。

唐杰在内部信中已明确预告GLM-5即将发布，多方信息指向2026年2月中旬，即春节前后。

而在同一时间段，DeepSeek新模型、Qwen 3.5、MiniMax M2.2等模型也都有消息将发布更新。

2026年的“春节档”，AI比电影那边还热闹。

参考链接：
[1]https://github.com/vllm-project/vllm/pull/34124
[2]https://x.com/chetaslua/status/2020832197771714943

马年大吉，恭祝新春快乐

在看

【Dubbo服务找不到？从抓耳挠腮到一键解决，全流程干货！】

作为一名天天和BUG贴贴的程序员，排查问题就像拆盲盒——你永远不知道下一个坑是逻辑bug、环境搞怪，还是同事偷偷改的配置让你当场破防。而最让人崩溃的，当属Dubbo服务找不到的坑！就像你约了朋友吃饭，到地方发现人没影&…

李华

【netty】EventLoop

eventloop 可以处理channel上 accept、read、write等io事件1.单线程执行器2.维护了一个selector如果传入线程数，则使用传入的线程数如果没有传入线程数，则获取配置的线程数与系统的cpu核数*2 比大小防。止存在0线程的情况，所以与1比大小&a…

李华

GLM-4.7-Flash参数详解：flash-attn2启用条件、量化选项与推理精度权衡

GLM-4.7-Flash参数详解：flash-attn2启用条件、量化选项与推理精度权衡 1. 模型基础认知：不只是“更快的GLM-4” 你可能已经听说过GLM-4系列，但GLM-4.7-Flash不是简单的小版本迭代。它是一次面向实际部署场景的深度重构——目标很明确&#…

李华

GLM-4-9B-Chat-1M代码补全：vLLM支持的IDE插件开发

GLM-4-9B-Chat-1M代码补全：vLLM支持的IDE插件开发 1. 引言作为一名长期在AI和智能硬件领域工作的工程师，我经常需要处理复杂的代码项目。最近在开发一个大型Python项目时，遇到了一个典型问题：当代码文件超过几千行后&#xff0…

李华

阿里达摩院发布具身智能大脑基础模型 RynnBrain：首次赋予机器人时空记忆与物理推理能力

2026年2月10日，阿里巴巴达摩院正式发布其自主研发的具身智能基础模型 RynnBrain，并同步开源包含 30B MoE 架构模型在内的7个全系列模型，以及全新评测基准 RynnBrain-Bench。这一发布标志着具身智能从“动作执行”迈向“认知理解”的关键一步。…

李华

granite-4.0-h-350m效果惊艳：Ollama本地部署后法语技术文档理解+德语代码注释生成

granite-4.0-h-350m效果惊艳：Ollama本地部署后法语技术文档理解德语代码注释生成 1. 模型能力概览 Granite-4.0-H-350M是一个让人惊喜的轻量级指令模型，虽然只有3.5亿参数，但在多语言理解和代码处理方面表现出色。这个模型通过精心设计的训…

李华