整理时间:2026-04-24 |研究周期:2026-03-19 ~ 2026-04-24
来源:AgentBench / SWE-bench / PaperBench / DeepSeek V4 / Kimi K2 / GLM-5.1 等论文精读
目录
- LLM 评测体系全景
- Agent 能力三张考卷
- DeepSeek V4 技术架构深析
- 2026 年开源模型架构横向对比
- 关键技术词典
- 核心洞察与行动建议
一、LLM 评测体系全景
1.1 六大评测维度
| 维度 | 代表基准 | 测什么 | 现状 |
|---|---|---|---|
| 综合知识 | MMLU、C-Eval | 57 学科选择题 | 顶级模型 86-90%,差距已缩小 |
| 深度推理 | GPQA Diamond | 博士级物理/化学/生物 | GPT-5.4 领先(93%),人类专家 65% |
| 数学竞赛 | AIME、MATH-500 | 高难度数学推理 | o3/DeepSeek R1 接近满分 |
| 基础代码 | HumanEval | 164 道 Python 函数补全 | 顶级模型 90%+,已饱和 |
| 工程代码 | SWE-bench、LiveCodeBench | 真实 Bug 修复 / 动态竞赛题 | SWE-bench 已退役,LiveCodeBench 防污染 |
| 真实体验 | Chatbot Arena(Arena AI) | 人类盲评 | 最难刷,最贴近用户 |
1.2 SWE-bench 的兴衰启示
timeline:
- 2023.10:SWE-bench 发布,Princeton + OpenAI,测试 12 个真实 Python 仓库的 Bug 修复
- 2024.08:SWE-bench Verified(500 题精选版)
- 2025~2026:模型分数从 33.2% 飞速涨到 80.9%
- 2026.02.23:OpenAI 官宣退役SWE-bench Verified
退役三大原因:
- 训练数据污染——模型能背题
- 天花板效应——6 个月只涨 6%
- 测试用例缺陷——59.4% 存在过宽/过窄问题
关键教训:
公开的 Benchmark 会被刷穿;只有私有 + 持续更新才能保持评测效力
2026 年替代方案:
- SWE-bench Pro(更难,污染低)
- GDPVal(专家出题+专家评审)
- 私有评测集(各家自建)
1.3 评测体系信任危机(2026.04)
伯克利团队用 10 行 Python 代码拿了 SWE-bench 满分(利用 pytest 钩子机制篡改测试结果)。8 大主流基准集体沦陷,28 个模型提交存在作弊行为。
修复建议:
- 评测系统与被测 AI 必须完全隔离运行
- 标准答案存放于不可访问区域
- 禁止对不可信输入执行危险函数
二、Agent 能力三张考卷(D1+D2+D3)
2.1 AgentBench(D2)——通用能力考卷
论文:清华 KEG,ICLR 2024,arXiv 2308.03688
核心设计:8 个真实环境 × 25 个模型
| 环境类别 | 具体环境 | 考察能力 |
|---|---|---|
| 代码环境 | OS(Linux终端)/ DB(SQL)/ KG(知识图谱) | 命令行、SQL、工具调用 |
| 游戏环境 | 卡牌游戏 / 横向思维 / AlfWorld 家庭任务 | 策略规划、创造性推理 |
| 网络环境 | WebShop 购物 / Mind2Web 浏览 | 网页理解、操作序列 |
核心结论:
- GPT-4 一骑绝尘(4.41),最佳开源模型 chatglm2(1.31)——3.37 倍差距
- 卡牌游戏(DCG):全部模型接近 0 分——博弈策略是当时天花板
- “会聊天 ≠ 会做事”——传统 NLP 能力无法预测 Agent 能力
历史地位:Agent 评测的开山之作,后续 SWE-bench、HAL、GAIA 都在此基础上发展。
2.2 SWE-bench + PaperBench(D3)——专项能力考卷
SWE-bench:修 Bug 的"机试"
输入:真实 GitHub 仓库代码 + Issue 描述 任务:生成 Patch 修复 Bug 判分:① FAIL_TO_PASS(Bug 修好了)② PASS_TO_PASS(没搞坏其他功能)排行榜演进:33.2%(GPT-4o 2024)→ 80.9%(Augment Code 2026)→ 退役
关键洞察:SWE-bench 证明了一件事——修代码是可以被系统性评测的,但公开评测终将被刷穿。
PaperBench:复现论文的"博士考试"
输入:1 篇 ICML 2024 Spotlight/Oral 论文 PDF 任务:从零复现论文的实验结果 评判:8316 个叶节点,逐一 0/1 打分排行榜:
| 模型 | 得分 |
|---|---|
| 人类 ML 博士(4 周兼职) | 41.4% |
| Claude 3.5 Sonnet (New) | 21.0% |
| o1-high | 13.2% |
| GPT-4o | 4.1% |
AI 三大软肋(PaperBench 揭示):
- 长期规划弱——前期快,24 小时后开始"摆烂"
- 调试能力差——复杂错误无法系统排查
- 主动放弃——所有模型都未用满全部时间
SWE-bench vs PaperBench 本质差异:
| 维度 | SWE-bench | PaperBench |
|---|---|---|
| 任务类型 | 修 Bug(局部修改) | 复现论文(从零建系统) |
| 时间跨度 | 分钟级 | 天级 |
| 人类基线 | ~80%(已追平) | 41.4%(AI 仅 21%) |
| 类比 | 维修工修水管 | 建筑师造房子 |
三、DeepSeek V4 技术架构深析
3.1 基本规格
| 规格 | V4-Pro | V4-Flash |
|---|---|---|
| 总参数 | 1.6T | 284B |
| 激活参数 | 49B | 13B |
| 上下文 | 1M tokens | 1M tokens |
| 训练数据 | 33T tokens | 32T tokens |
| 开源协议 | Apache 2.0 | Apache 2.0 |
3.2 架构三大创新
① CSA + HCA 混合压缩注意力
核心问题:标准 Attention 复杂度 O(n²),1M 上下文在 V3.2 上无法实用。
CSA(Compressed Sparse Attention):
- 每 m=4 个 token 的 KV → 压缩为 1 个 entry(含 overlap 的双向压缩)
- Lightning Indexer:低秩查询向量对压缩 KV 块打分,选 top-k 做 sparse attention
- 附加滑动窗口(n_win=128)维持近距离精细依赖
- 评分用 FP4 精度(2× 加速)
HCA(Heavily Compressed Attention):
- 每 m’=128 个 token → 压缩为 1 个(更激进)
- 不做稀疏,全量 dense attention(但序列已缩小 128 倍)
- 负责超远距离全局语义
两者交错排列:
- Flash:前 2 层纯 SWA,后续 CSA/HCA 交错
- Pro:前 2 层纯 HCA,后续 CSA/HCA 交错
效率数据(vs V3.2 在 1M 上下文):
- V4-Pro 推理 FLOPs:27%
- V4-Flash 推理 FLOPs:10%
- V4-Pro KV Cache:10%
- 对比标准 BF16 GQA8 基线:KV Cache 仅2%
② mHC(Manifold-Constrained Hyper-Connections)
标准残差:X_{l+1} = X_l + F_l(X_l)
HC 升级:残差流宽度扩展 n_hc=4 倍,提供多条信息通道
mHC 核心:将残差映射矩阵 B_l 约束到双随机矩阵流形(Birkhoff polytope):
- 用 Sinkhorn-Knopp 算法迭代 20 次投影
- 保证谱范数 ≤ 1 → 梯度传播数值稳定
- 参数动态生成(input-dependent),表达力强
工程开销:训练时间增加 6.7%,效果显著。
③ Muon 优化器
原理:对梯度矩阵做奇异值分解的近似(Newton-Schulz 迭代),将更新方向正交化。
V4 的两阶段 NS 迭代:
- 前 8 步:系数 (3.4445, -4.7750, 2.0315),快速使奇异值逼近 1
- 后 2 步:系数 (2, -1.5, 0.5),精确稳定在 1
应用范围:大部分参数用 Muon;Embedding、Prediction Head、RMSNorm 用 AdamW。
工程挑战:Muon 需要完整梯度矩阵,与 ZeRO 并行冲突 → 用 knapsack 分配算法解决。
3.3 基础设施创新
| 创新 | 核心思路 | 效果 |
|---|---|---|
| FP4 QAT | MoE 专家权重 + CSA indexer QK 路径用 FP4 | 推理/rollout 内存减半,未来硬件可快 1/3 |
| 细粒度 EP | 专家分 wave 调度,计算通信完全重叠 | 加速 1.5~1.73×,RL rollout 可达 1.96× |
| TileLang | 自研 DSL,集成 Z3 SMT 求解器 | Host 开销 <1μs(原数百μs) |
| 异构 KV Cache | CSA/HCA/SWA 分开管理,支持磁盘存储 | 共享 prefix 无需重新 prefill |
| 华为昇腾验证 | EP 方案同时在 NVIDIA GPU 和华为昇腾 NPU 验证 | 首次官方文档并列两家硬件 |
3.4 后训练:OPD 范式
流程:
- 分领域独立训练专家(数学/代码/Agent/指令遵循/写作……共 10+)
- 每个专家经过 SFT → GRPO RL 两阶段
- 多教师 OPD:学生用 reverse KL loss 向所有老师靠拢
- 用全词表 logit 分布(不做 token-level 近似),梯度更稳定
工程支撑:老师参数 offload 到存储,按需加载;只缓存最后一层 hidden state,重建 logits 时再过 prediction head(节省显存)。
3.5 三种推理模式
| 模式 | 特点 | 上下文 | 适用 |
|---|---|---|---|
| Non-think | 快速直觉 | 8K | 日常对话、快速查询 |
| Think High | 复杂推理 | 128K | 代码、数学、分析 |
| Think Max | 极限推理(特殊 system prompt) | 384K | 竞赛、科研、工程 |
新增:Quick Instruction——把辅助任务(判断是否需要搜索、生成标题、判断域名权威性)编码为特殊 token,复用已有 KV Cache 并行执行,消除冗余 prefill。
四、2026 年开源模型架构横向对比
4.1 规格对比表
| 模型 | 机构 | 总参数 | 激活参数 | 上下文 | 开源协议 | 技术报告 |
|---|---|---|---|---|---|---|
| DeepSeek V4-Pro | DeepSeek | 1.6T | 49B | 1M | Apache 2.0 | ✅ 2026.04 |
| Kimi K2.6 | MoonshotAI | 1T | 32B | 128K | Apache 2.0 | ✅ arXiv 2507.20534 |
| GLM-5.1 | 智谱 | 744B | 40B | 200K | MIT | ✅ 技术报告 |
| MiniMax M2.7 | MiniMax | 230B | 10B | 200K | 部分开源 | ✅ 技术报告 |
| LLaMA 4 Scout | Meta | 109B | 17B | 10M | Llama 4 ⚠️ | ✅ arXiv 2601.11659 |
| LLaMA 4 Maverick | Meta | 400B | 17B | 1M | Llama 4 ⚠️ | ✅ 同上 |
| Qwen3.6 | 阿里 | 未披露 | 未披露 | 128K | Apache 2.0 | ✅ arXiv 2505.09388 |
| Hy3 Preview | 腾讯 | 295B | 21B | 256K | 开源 | ✅ 2026.04 |
4.2 各家核心技术创新
Kimi K2 / K2.6(MuonClip 首创)
MuonClip:Muon 的改进版本,在 Newton-Schulz 正交化前先做梯度裁剪,解决了原版 Muon 在万亿参数 MoE 训练中的梯度爆炸问题。K2(2025.07)是第一个在 1T 参数 MoE 上稳定使用 Muon 的工作。
K2.6 特性:
- 支持 300 子 Agent 并行协同
- 连续编码 13 小时(长程稳定性极强)
- 上下文 128K(短板)
技术报告:arXiv 2507.20534
GLM-5.1(Slime 异步 RL + DSA)
DSA(Dynamic Sparse Attention):
- 动态计算每个 token 的注意力稀疏 mask
- 实现 200K 上下文,幻觉率降低 56%
- 与 DeepSeek CSA 的差异:DSA 是动态稀疏选择,CSA 是先压缩再稀疏
Slime 异步强化学习框架:
- Actor(轨迹生成)和 Critic(梯度更新)完全异步解耦
- 解决 RL 训练的速度错配问题(生成慢、训练快)
- 支持连续数小时工程任务的 RL 训练
评测:SWE-bench Pro 58.4%(声称首个超 GPT-5.4 的开源模型)
MiniMax M2.7(Self-Evolution)
核心哲学:不追大参数,追激活参数效率——230B 总参仅激活 10B。
Self-Evolution 机制:
- 在 20 万个真实 RL 环境中训练
- 模型对自身输出持续评估和迭代改进
- 类似 AlphaGo 的自我博弈,但在 LLM 领域
LLaMA 4 Scout(iRoPE,10M 上下文)
iRoPE(Interleaved RoPE):
- 不是所有层都用旋转位置编码
- 交错排列"有 RoPE 层"和"无 RoPE 层"
- 无 RoPE 层可以无位置偏见地关注任意远距离信息
- 实现10M tokens上下文,目前所有模型最长
注意:Llama 4 协议限制商业使用(月活 >7 亿需授权)。
腾讯 Hy3 Preview(快慢思考融合)
核心设计:单模型内置两种推理模式(类似 DeepSeek V4 的 Non-think/Think):
- no-think 模式:响应速度是深度思考的 1/5,能力基本对齐
- 深度思考模式:复杂任务
推理效率整体提升 40%,API 定价 1.2 元/百万 tokens(行业最低梯队)。
4.3 技术路线差异矩阵
| 技术维度 | DeepSeek V4 | Kimi K2.6 | GLM-5.1 | LLaMA 4 Scout | Hy3 |
|---|---|---|---|---|---|
| 长上下文方案 | CSA+HCA压缩(1M) | 标准MoE(128K) | DSA动态稀疏(200K) | iRoPE(10M) | 标准(256K) |
| 优化器 | Muon | MuonClip | AdamW | AdamW | AdamW |
| 后训练 | OPD多教师蒸馏 | GRPO RL | Slime异步RL | 标准RLHF | RL重建 |
| 残差连接 | mHC流形约束 | 标准 | 标准 | 标准 | 标准 |
| KV压缩 | 极致(V3.2的10%) | 无 | DSA稀疏 | 标准GQA | 标准 |
| 多模态 | ❌(开发中) | ❌ | ❌ | ✅ 原生 | ❌ |
| 完全开源 | ✅ Apache | ✅ Apache | ✅ MIT | ⚠️ Llama 4 | ✅ 开源 |
五、关键技术词典
注意力机制类
| 术语 | 全称 | 解释 |
|---|---|---|
| MLA | Multi-head Latent Attention | DeepSeek V3 的低秩 KV 压缩,减少 KV Cache |
| CSA | Compressed Sparse Attention | DeepSeek V4,先压缩再稀疏选择 |
| HCA | Heavily Compressed Attention | DeepSeek V4,重度压缩(128:1)+ 全量 Attention |
| DSA | Dynamic Sparse Attention | GLM-5,动态稀疏掩码 |
| iRoPE | Interleaved RoPE | LLaMA 4,交错使用有/无位置编码的层 |
| SWA | Sliding Window Attention | 只关注最近 n 个 token,O(n) 复杂度 |
| GQA | Grouped Query Attention | 多查询头共享 KV,节省内存 |
优化器类
| 术语 | 解释 |
|---|---|
| AdamW | 标准优化器,Adam + 权重衰减 |
| Muon | 梯度正交化优化器,Newton-Schulz 迭代,收敛更快 |
| MuonClip | Kimi 首创,Muon + 梯度裁剪,解决 MoE 训练不稳定 |
架构类
| 术语 | 解释 |
|---|---|
| MoE | Mixture of Experts,多个专家子网络,每次只激活部分 |
| mHC | Manifold-Constrained Hyper-Connections,流形约束残差 |
| MTP | Multi-Token Prediction,同时预测多个 token,加速推理 |
| FP4/FP8 | 浮点精度格式,位数越少越省内存但精度越低 |
| QAT | Quantization-Aware Training,量化感知训练 |
训练范式类
| 术语 | 解释 |
|---|---|
| GRPO | Group Relative Policy Optimization,DeepSeek 发明的 RL 算法 |
| OPD | On-Policy Distillation,在策略蒸馏,学生模拟教师分布 |
| Slime | 智谱的异步 RL 框架,Actor/Critic 完全解耦 |
| ZeRO | Zero Redundancy Optimizer,分布式训练内存优化策略 |
| DualPipe | DeepSeek 的双向流水线并行策略 |
六、核心洞察与行动建议
洞察 1:所有旗舰开源模型都用 MoE,没有例外
2026 年,Dense 架构(参数全激活)在旗舰模型中已经消失。MoE 的核心优势是:用更大的总参数量保持能力,但每次推理只激活小部分参数控制成本。
激活参数 / 总参数的比值:
- DeepSeek V4-Pro:49B / 1.6T =3.1%
- Kimi K2.6:32B / 1T =3.2%
- GLM-5.1:40B / 744B =5.4%
- MiniMax M2.7:10B / 230B =4.3%
洞察 2:长上下文的下一战场是 Agent 持久化
1M 上下文的真正价值不是替代 RAG,而是让 Agent 能把完整推理历史、工具调用记录、中间状态全部保留在上下文中——AI 的工作记忆升级。
DeepSeek V4 的 Interleaved Thinking 明确实现了这一点:工具调用场景中保留所有轮次的推理链。
洞察 3:评测基准的生命周期越来越短
| 基准 | 发布 | 退役/饱和 | 存活时间 |
|---|---|---|---|
| HumanEval | 2021 | 2023(90%+) | ~2 年 |
| SWE-bench Verified | 2024.08 | 2026.02 | ~18 个月 |
| 预测 SWE-bench Pro | 2025 | ~2027? | 缩短中 |
行动建议:自建私有评测集,每季度轮换 20% 题目,参照 DeepSeek V4 的 R&D Coding Benchmark(真实工程任务)模式。
洞察 4:Muon 优化器正在成为新标配
两个独立顶级团队(Kimi 2025.07,DeepSeek 2026.04)先后验证了 Muon 在大规模 MoE 训练中的优势。这种"英雄所见略同"往往预示行业趋势。
预测:2026 年下半年,主流开源模型将普遍跟进 Muon 或其变体。
洞察 5:AI 的"耐力"问题尚未解决
PaperBench 揭示 AI 在 24 小时后开始"摆烂",而人类博士持续发力。当前 Agent 适合"短跑"(快速完成明确任务),不适合"马拉松"(长期探索性工作)。
行动建议:
- Agent 任务拆成短任务多轮,配合中途检查点
- 设计主动求助机制:连续 N 次失败 → 自动通知人类接管
- 参考 OpenClaw 的心跳机制:定期"唤醒" Agent 重新评估进展
附:论文索引
| 论文 | 机构 | arXiv | 发表 |
|---|---|---|---|
| AgentBench | 清华 KEG | 2308.03688 | ICLR 2024 |
| SWE-bench | Princeton+OpenAI | 2310.06770 | ICLR 2024 |
| PaperBench | OpenAI | — | 2025.04 |
| DeepSeek V4 | DeepSeek | — | 2026.04 |
| Kimi K2 | MoonshotAI | 2507.20534 | 2025.07 |
| LLaMA 4 | Meta | 2601.11659 | 2026.01 |
| Qwen3 | 阿里 | 2505.09388 | 2025.05 |
整理:路易乔布斯 | 最后更新:2026-04-24